robots协议是什么？robots文件如何使用？--1号站长-站长学院|资讯交流平台

　Robots协议

　　Robots协议，又称为机器人协议，网站用来告知搜索引擎哪些页面可以被抓取，哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt文件中，它并不是一个命令，只是一种国际上通行的规范，将网站的一些不能被抓取的文件或者目录，记录在robots.txt中，当搜索引擎的蜘蛛访问这个网站时候，首先就会去访问robots文件，得知不能被抓取目录和文件信息。

　　Robots文件的写法

　　User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

　　Disallow: /admin/*.html 禁止访问/admin/目录下的所有以".html"为后缀的URL(包含子目录)。

　　Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

　　Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

　　Disallow:/admin/adc.html 禁止爬取admin文件夹下面的adc.html文件。

　　Allow: 的用法同Disallow 相反

　　Sitemap: 告诉搜索引擎蜘蛛这个页面是网站地图

　　Robots案列说明

　　1，禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　2，拦截子目录中某个页面之外的其他所有页面

　　User-agent: *

　　Allow: /admin/login.html

　　Disallow: /admin/

　　3，要拦截对所有以 ABC 开头的子目录的访问

　　User-Agent:*

　　Disallow: /ABC*/

　　4，要拦截对所有包含问号 (?) 的网址的访问

　　User-agent: *

　　Disallow: /*?*

　　5，要拦截以 .asp 结尾的网址

　　User-agent: *

　　Disallow: /*.asp$

　　备注：1，*是通配符。2，?是匹配符。3，$是结束符

　　建议仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

扫一扫打开手机网站

微信扫一扫关注我们

robots协议是什么？robots文件如何使用？

作者: admin

评论列表()

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: admin

为您推荐

robots协议的意义何在？

评论列表()

联系我们

微信扫一扫关注我们