robots.txt文件大家应该不陌生,想当年淘宝就因为robots.txt文件里加了一个禁止百度抓取的指令,使得淘宝网站上亿的网站页面一夜在百度消失,这不仅是淘宝网站SEO人员一次SEO操作,更是阿里的一次战略调整,因为这一个小小的调整使得用户购物时直接选择在淘宝APP打开,而非在百度进行搜索,从而取消了淘宝获取流量对百度的依赖。
那么robots.txt到底是个什么鬼?为何有如此威力?下面义信科技麒麟老师就为大家介绍一下robots.txt文件。
一、robots.txt是什么
robots.txt是一种机器人协议,也叫爬虫协议,网站通过robots.txt来告诉蜘蛛也就是爬虫哪些页面可以抓取,哪些页面不能抓取。一般搜索引擎爬虫来到网站之后,首先会访问robots.txt文件,看看哪些页面页面可以抓取。
二、robots.txt文件有什么作用
1、用户层面
一般大型的网站会通过robots.txt来屏蔽涉及到用户安全的信息,不让蜘蛛抓取用户中心等页面的信息来保护用户的隐私。
2、SEO层面
1)屏蔽对搜索引擎抓取不友好的链接,如一些动态页面
2)屏蔽返回状态码为404的死链接页面
3)屏蔽空页面等一些低价值或者无价值的页面
4)屏蔽一些重复页面,如评论页
5)屏蔽不想被搜索引擎收录的页面
6)引导蜘蛛抓取网站地图
7)通过封禁所有蜘蛛抓取来创造网站上线前的测试环境
三、robots.txt应该放在什么地方
robots.txt文件一般放在网站的根目录下,蜘蛛每次来网站首先会访问robots.txt文件。
四、robots.txt文件指令说明
1、User-agent:用户代理指令
在robots.txt文件中,user-agent指令用于指定哪个爬网程序应遵守给定的规则集。该指令可以是通配符,用于指定规则适用于所有爬网程序:
User-agent:*
或者它可以是特定爬虫的名称:
User-agent:Googlebot
2、User-agent:禁止指令
举个例子:
User-agent:*
Disallow:/junk-page
上面的示例将阻止路径以“/junk-page”开头的所有URL:
3、Allow:允许指令
Allow指令不是原始标准的一部分,但现在所有主要搜索引擎都支持它。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。
举个例子:
User-agent:*
Disallow:/ab/
Allow:/ab/cd
上述代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件。
4、*(星号):通配符
*(星号)表示“匹配任何文本。”所有主要搜索引擎也支持通配符运算符。这允许您在路径的一部分未知或可变时阻止页面。
例如:
Disallow:/users/*/settings
上述指令将阻止以下所有URL:
http://example.com/users/alice/settings
http://example.com/users/bob/settings
http://example.com/users/tinkerbell/settings
小心!以上还将阻止以下URL(可能不是您想要的):
http://example.com/users/alice/extra/directory/levels/settings
http://example.com/users/alice/search?q=/settings
5、$:字符串结束运算符
$表示URL必须在该点结束,举个例子:
Disallow:/useless-page$
该指令将阻止以下URL:
http://example.com/useless-page
但它不会阻止以下任何一种情况:
http://example.com/useless-pages-and-how-to-avoid-creating-them
http://example.com/useless-page/
http://example.com/useless-page?a=b
以上就是义信科技麒麟老师对robots.txt文件是什么?有什么作用?应该放在什么地方的介绍,后期会更新robots文件如何撰写等相关的干货内容,请持续关注义信科技。
如果大家看完以上robots.txt相关的内容还有什么疑惑,欢迎下面评论区进行留言,麒麟老师会第一时间回复大家。
更多SEO、运营、营销推广相关的内容干货,可以查看网站其他相关栏目。关注我,帮助你成为互联网运营达人!
本文为原创文章,标题:robots.txt文件是什么?有什么作用?应该放在什么地方?,网址:https://www.seoshisha.com/baiduseo/robots-txt-what.html
未经允许,禁止转载,如需转载,请联系邮箱:2692003558@qq.com,否则将追究法律责任!