网页去重算法

在互联网如此发达的今天，同一资料会在多个网站发布，同一新闻会被大部分媒体网站报道，再加上小站长和SEO人员孜孜不倦地网络采集，造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时，搜索引笮必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的M页，在一定意义上就是对搜索引擎自身资源的浪费，因此去除重复内容的网页也成了搜索引笮所面临的一大问题。

在一般的搜索引擎架构中，M页去重一般在Spider抓取部分就存在了，“去重”步骤在整个搜索引擎架构中实施得越早，越可以节约后续处理系统的资源使用。搜索引笮一般会对已经抓取过的重复页面进行归类处理，比如，判断某个站点是否包含大量的重复页面，或者该站点是否完全采集其他站点的内容等，以决定以后对该站点的抓取情况或是否直接屏蔽抓取。

去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前)，搜索引笮会在页面已经分出的关键词中，提取部分具有代表性的关键词，然后计算这些关键词的“指纹’ 每一个网页都会有个这样的特征指纹，当新抓取的网页的关键词指纹和己索引网页的关键词指纹有重合时，那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

实际工作中的搜索引笮，不仅仅使用分词步骤所分出的有意义的关键词，还会使用连续切割的方式提取关键词，并进行指纹计算。连续切割就是以单个字向后移动的方式进行切词，比如，“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打” “始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算，参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法，还有很多其他对付重复N页的算法。

因此网络上流行的大部分伪原创工具，不是不能欺骗搜索引擎，就是把内容做得鬼都读不通，所以理论上使用普通伪原创工具不能得到搜索引笮的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引，而是会根据重复网页所在网站的权重适当放宽索引标准，这样使得部分作弊者有机可乘，利用M站的高权重，大最采集其他站点的内容获取搜索流 M。不过自2012年6月份以来，百度搜索多次升级算法，对采集重复信息、垃圾页面进行了多次重M级的打击。所以SEO在面对网站内容时，不应该再以伪原创的角度去建设，而需要以对用户有用的角度去建设，虽然后者的内容不一定全部是原创，一般如果M站权重没有大问题，都会得到健康的发展。关于原创问题，本书后续会在第12章进行详细讨论。

另外，不仅仅是搜索引擎需要“网页去重”，自己做网站也需要对站内页面进行去ffi。比如分类信总、B2B平台等UGC类的M站，如果不加以限制，用户所发布的信总必然会有大ft的重从，这样不仅在SEO方面表现不好，站内用户体验也会降低很多。又如SEO人员在设计流®产品大批K产生页面时，也需要做一个$:父过滤，否则就会大大降低产品质M。SEO人员所设计的流最产品常见的一般为以“聚合”为基础的索引页、专题贞或目泌页，“聚合”就必须有核心词，不加以过滤，海W核心词所扩展出来的页面就可能会有大量重从而导致该产品效果不佳，甚至会因此被搜索引笮降权。

“去重”兑法的大概原理一般就如上所述，有兴趣的朋友可以了解一下丨-Match、Shingle、 SimHash及余弦去重具体算法。搜索引繁在做“N页去重”工作之前首先要分析网页，内容周围的“噪声”对去重结果多少会有影响，做这部分工作时只对内容部分操作就可以了，相对来说会简单很多，并且可以很有效地辅助产出高质量的“SEO产品”。作为SEO人员只要了解实现原理就可以了，具体在产品中的应用，需要技术人员来实现。此外还涉及效率、资源需求等问题，并且根据实际情况“去重”工作也可以在多个环节进行(比如对核心词的分词环节)，SEO 人员只要稍微了解一些原理，能够为技术人员建议几个方向就很不错了(技术人员并不是万能的，也有不熟悉、不捎长的领域，在特定时刻也需要别人提供思路)。如果SEO人员能在这些方面和技术人员进行深入的交流，技术人员也会对SEO另眼相看，至少不会再认为“SEO人员就只会提改标题、改链接、改文字之类‘无聊’的需求”了。

本文来自网络整理，标题：网页去重算法，网址：https://www.seoshisha.com/rumen/quchong.html

网页去重算法

发表评论