Robots协议
Robots协议,又称为机器人协议,网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt文件中,它并不是一个命令,只是一种国际上通行的规范,将网站的一些不能被抓取的文件或者目录,记录在robots.txt中,当搜索引擎的蜘蛛访问这个网站时候,首先就会去访问robots文件,得知不能被抓取目录和文件信息。
Robots文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /admin/*.html 禁止访问/admin/目录下的所有以".html"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/admin/adc.html 禁止爬取admin文件夹下面的adc.html文件。
Allow: 的用法同Disallow 相反
Sitemap: 告诉搜索引擎蜘蛛这个页面是网站地图
Robots案列说明
1, 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
2, 拦截子目录中某个页面之外的其他所有页面
User-agent: *
Allow: /admin/login.html
Disallow: /admin/
3, 要拦截对所有以 ABC 开头的子目录的访问
User-Agent:*
Disallow: /ABC*/
4, 要拦截对所有包含问号 (?) 的网址的访问
User-agent: *
Disallow: /*?*
5, 要拦截以 .asp 结尾的网址
User-agent: *
Disallow: /*.asp$
备注:1,*是通配符。2,?是匹配符。3,$是结束符
建议仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
robots协议是什么?robots文件如何使用?
Robots协议 Robots协议,又称为机器人协议,网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt文件中,它并不是一个命令…
本文来自网络,不代表1号站长-站长学院|资讯交流平台立场。转载请注明出处: https://www.1cn.cc/jianzhan/jingyan/19974.html
评论列表()