大家好,我是义信科技的麒麟老师,今天呢咱们开始学习SEO系统培训课程的第二课:搜索引擎工作原理
首先来说一下麒麟老师讲这堂课的原因,之所以要讲这堂课,是因为只有当我们了解了搜索引擎的基本工作原理之后,才能根据其原理来优化SEO中的各环节数据。否则我们的工作将无法开展。就像我们学校里学习勾股定理一样,只有通过学习了解了勾股定理是怎么来的,后期不管是考试还是其他场景才能够很好的运用出来。所以这就是学习搜索引擎工作原理的必要性。
知道了为什么学习,就要看看具体的搜索引擎工作原理。
搜索引擎蜘蛛介绍
spider是啥?
搜索引擎抓取网页的一种程序。
spider的分类
1、批量型蜘蛛:具有明确的抓取目标,对于抓取时间、抓取数据量以及抓取范围都有限制。
2、增量型蜘蛛:对全网进行无休止的抓取。
3、垂直型蜘蛛:对特定主题、特定内容或者特定行业的网页进行抓取。
spider与普通用户的区别
1、spider可以看到网站的源代码,普通用户看不到
2、spider访问网站没有缓存,而普通用户则有
3、spider不会主动登陆注册网站,普通用户则会
4、spider对于多个动态参数的网站抓取会陷入死循环,普通用户则不会
5、spider原则上不会抓取robots屏蔽蜘蛛抓取的网站,但是普通用户可以

搜索引擎工作原理
第一步:抓取
为什么要抓取?
搜索引擎为什么会有抓取这个环节呢,是因为用户在搜索引擎搜索获取信息时,搜索引擎需要有海量的内容信息来源,而这个来源就是搜索引擎通过程序对互联网上所有可抓取的内容进行抓取收集,从而使得内容源有了保障。
抓取—抓取策略
1、深度优先策略
2、广度优先策略
3、重要页面优先抓取策略
4、大站优先抓取策略
5、再次抓取更新策略
影响因素:1)更新频率2)网页权重3)网页类型
第二步:预处理
步骤一:判断页面类型
普通网页?还是PDF?WORD?excel?普通网页:文字?图片?视频?
步骤二:提取网页文本信息
提取网页文本信息,同时尽力识别js、flash、图片以及视频等内容;提取title、keywords、description的内容
步骤三:去除页面噪声
即将无关的广告、导航登录框、以及版权等信息剔除掉,只提取网页的主体内容,当然百度不会把主体以外的内容全部抛弃,相关推荐等主体内容周围的内容板块也会算作本网页的内容,或者作为主体内容的补充,也会影响到最终的搜索排名。
步骤四:去除内容中的停止词
去除内容中的停止词,像”的””地””啊””呀”等停止词会被剔除掉。
经过以上几个步骤处理后,网页内容基本被洗干净了,搜索引擎会把真正有价值地优质内容拿出来放到一个库里。
第三步:索引
什么是索引
当用户进行搜索时,如果对搜索引擎本地地内容全部进行扫描,会大大消耗服务器地资源,而且用户体验还不好,为了避免这种情况,就出现索引这个概念了。
为了提升效率,搜索引擎采用倒排索引结构,用户搜索关键词1,那么搜索引擎只会对包含关键词1的文件进行相关度和权重计算;用户搜索“关键词1+关键词2”组合词,那么搜索引擎就会把包含关键词1且包含关键词2的文件调出,进行相关度和权重计算。
第四步:排名
1、内容相关性
2、权重
3、用户需求解决度
4、用户体验
5、垂直度、专业度
……
本文为原创文章,标题:【02】搜索引擎工作原理是什么?,网址:https://www.seoshisha.com/peixun/ssyqgongzuoyl.html
未经允许,禁止转载,如需转载,请联系邮箱:2692003558@qq.com,否则将追究法律责任!