robots.txt文件是什么?有什么作用?应该放在什么地方?

robots.txt文件大家应该不陌生,想当年淘宝就因为robots.txt文件里加了一个禁止百度抓取的指令,使得淘宝网站上亿的网站页面一夜在百度消失,这不仅是淘宝网站SEO人员一次SEO操作,更是阿里的一次战略调整,因为这一个小小的调整使得用户购物时直接选择在淘宝APP打开,而非在百度进行搜索,从而取消了淘宝获取流量对百度的依赖。

那么robots.txt到底是个什么鬼?为何有如此威力?下面义信科技麒麟老师就为大家介绍一下robots.txt文件。

一、robots.txt是什么

robots.txt是一种机器人协议,也叫爬虫协议,网站通过robots.txt来告诉蜘蛛也就是爬虫哪些页面可以抓取,哪些页面不能抓取。一般搜索引擎爬虫来到网站之后,首先会访问robots.txt文件,看看哪些页面页面可以抓取。

robots.txt文件是什么?有什么作用?应该放在什么地方?

二、robots.txt文件有什么作用

1、用户层面

一般大型的网站会通过robots.txt来屏蔽涉及到用户安全的信息,不让蜘蛛抓取用户中心等页面的信息来保护用户的隐私。

2、SEO层面

1)屏蔽对搜索引擎抓取不友好的链接,如一些动态页面

2)屏蔽返回状态码为404的死链接页面

3)屏蔽空页面等一些低价值或者无价值的页面

4)屏蔽一些重复页面,如评论页

5)屏蔽不想被搜索引擎收录的页面

6)引导蜘蛛抓取网站地图

7)通过封禁所有蜘蛛抓取来创造网站上线前的测试环境

三、robots.txt应该放在什么地方

robots.txt文件一般放在网站的根目录下,蜘蛛每次来网站首先会访问robots.txt文件。

四、robots.txt文件指令说明

1、User-agent:用户代理指令

在robots.txt文件中,user-agent指令用于指定哪个爬网程序应遵守给定的规则集。该指令可以是通配符,用于指定规则适用于所有爬网程序:

User-agent:*

或者它可以是特定爬虫的名称:

User-agent:Googlebot

2、User-agent:禁止指令

举个例子:

User-agent:*

Disallow:/junk-page

上面的示例将阻止路径以“/junk-page”开头的所有URL:

3、Allow:允许指令

Allow指令不是原始标准的一部分,但现在所有主要搜索引擎都支持它。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。

举个例子:

User-agent:*

Disallow:/ab/

Allow:/ab/cd

上述代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件。

4、*(星号):通配符

*(星号)表示“匹配任何文本。”所有主要搜索引擎也支持通配符运算符。这允许您在路径的一部分未知或可变时阻止页面。

例如:

Disallow:/users/*/settings

上述指令将阻止以下所有URL:

http://example.com/users/alice/settings

http://example.com/users/bob/settings

http://example.com/users/tinkerbell/settings

小心!以上还将阻止以下URL(可能不是您想要的):

http://example.com/users/alice/extra/directory/levels/settings

http://example.com/users/alice/search?q=/settings

5、$:字符串结束运算符

$表示URL必须在该点结束,举个例子:

Disallow:/useless-page$

该指令将阻止以下URL:

http://example.com/useless-page

但它不会阻止以下任何一种情况:

http://example.com/useless-pages-and-how-to-avoid-creating-them

http://example.com/useless-page/

http://example.com/useless-page?a=b

以上就是义信科技麒麟老师对robots.txt文件是什么?有什么作用?应该放在什么地方的介绍,后期会更新robots文件如何撰写等相关的干货内容,请持续关注义信科技。

如果大家看完以上robots.txt相关的内容还有什么疑惑,欢迎下面评论区进行留言,麒麟老师会第一时间回复大家。

如果你想参加SEO系统培训课程,点击QQ进行咨询>>点击这里给我发消息

更多SEO、运营、营销推广相关的内容干货,可以查看网站其他相关栏目。关注我,帮助你成为互联网运营达人!

本文为原创文章,标题:robots.txt文件是什么?有什么作用?应该放在什么地方?,网址:https://www.seoshisha.com/baiduseo/robots-txt-what.html

未经允许,禁止转载,如需转载,请联系邮箱:2692003558@qq.com,否则将追究法律责任!

(0)
上一篇 2022年1月6日 下午6:44
下一篇 2022年1月6日 下午6:50

相关推荐

发表评论

登录后才能评论

18721508948

2692003558@qq.com

微信