首页建站经验 robots协议是什么?robots文件如何使用?

robots协议是什么?robots文件如何使用?

 Robots协议   Robots协议,又称为机器人协议,网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt文件中,它并不是一个命令…

 Robots协议 

  Robots协议,又称为机器人协议,网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt文件中,它并不是一个命令,只是一种国际上通行的规范,将网站的一些不能被抓取的文件或者目录,记录在robots.txt中,当搜索引擎的蜘蛛访问这个网站时候,首先就会去访问robots文件,得知不能被抓取目录和文件信息。 

  Robots文件的写法 

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 

  Disallow: /admin/*.html 禁止访问/admin/目录下的所有以".html"为后缀的URL(包含子目录)。 

  Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 

  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 

  Disallow:/admin/adc.html 禁止爬取admin文件夹下面的adc.html文件。 

  Allow: 的用法同Disallow 相反 

  Sitemap: 告诉搜索引擎蜘蛛这个页面是网站地图 

  Robots案列说明 

  1, 禁止所有搜索引擎访问网站的任何部分 

  User-agent: * 

  Disallow: / 

  2, 拦截子目录中某个页面之外的其他所有页面 

  User-agent: * 

  Allow: /admin/login.html 

  Disallow: /admin/ 

  3, 要拦截对所有以 ABC 开头的子目录的访问 

  User-Agent:* 

  Disallow: /ABC*/ 

  4, 要拦截对所有包含问号 (?) 的网址的访问 

  User-agent: * 

  Disallow: /*?* 

  5, 要拦截以 .asp 结尾的网址 

  User-agent: * 

  Disallow: /*.asp$ 

  备注:1,*是通配符。2,?是匹配符。3,$是结束符 

  建议仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。 
本文来自网络,不代表1号站长-站长学院|资讯交流平台立场。转载请注明出处: https://www.1cn.cc/jianzhan/jingyan/19974.html
上一篇你的网站为什么不赚钱?身为老站长我有话
下一篇 站长故事:我就这么利用垃圾站群月赚5000
admin

作者: admin

这里可以再内容模板定义一些文字和说明,也可以调用对应作者的简介!或者做一些网站的描述之类的文字或者HTML!

为您推荐

评论列表()

    联系我们

    联系我们

    0898-88888888

    在线咨询: QQ交谈

    邮箱: email@wangzhan.com

    工作时间:周一至周五,9:00-17:30,节假日休息

    关注微信
    微信扫一扫关注我们

    微信扫一扫关注我们

    关注微博
    返回顶部