首页运营SEO 关于Robots.txt使用过程中的注意事项

关于Robots.txt使用过程中的注意事项

robots.txt是放在网站根目录的一个文本文件,它是一个被Google等搜索引擎广泛承认的协议,允许网站管理员自己定义网站上那些页面是可以被搜索引擎索引或收录的,也可以指明网站站…

robots.txt是放在网站根目录的一个文本文件,它是一个被Google等搜索引擎广泛承认的协议,允许网站管理员自己定义网站上那些页面是可以被搜索引擎索引或收录的,也可以指明网站站点地图的位置。在进行Robots.txt使用过程中需要注意一些事项,文章将针对这些事项,进行基本介绍。

用Robots.txt阻止指定页面

robots.txt最常用的方式是用来阻止Google等搜索引擎蜘蛛爬行网站指定的页面。最简单的规则是允许所有的页面都可以被搜索引擎抓取,即代码:“User-agent: *”,用“Disallow: /example.html”来阻止搜索引擎抓取example.html页面。

User-agent: *

Disallow: /example.html

用Robots.txt阻止指定文件夹

如果Disallow的参数是以斜杠“/”结尾的,则表示阻止搜索引擎蜘蛛爬行整个文件夹。

User-agent: *

Disallow: /example/

上面两句代码表示example文件夹下的所有页面都不会被搜索引擎抓取。

用Robots.txt允许特定页面

robots.txt不仅可以阻止指定路径,也可以用来告诉搜索引擎蜘蛛哪些页面可以被索引。小提示:默认情况下网站所有的页面都是可被抓取的。

User-agent: *

Disallow: /example/

Allow: /example/hello.html

上面用Allow来覆盖掉Disallow指令,意思是example目录下仅允许抓取hello.html这个页面。

用Robots.txt阻止指定的搜索引擎

上面我们提到的指令对所有搜索引擎都是一样的,然而,我们可以用“User-agent:”来限制这些适用这些规则的搜索引擎。

User-agent: googlebot

Disallow: /example/

用googlebot代替“*”号来阻止Google蜘蛛抓取example目录,但其它搜索引擎可以正常爬行这个目录。

Robots.txt基本通配符

通配符对于一系列具有部份相同路径的网页是非常有用的,用“*”号来表示0个或多个任何有效的字符(包括斜杠、问号等)

例如:“Disallow: news*.html”将会阻止:

news.html

news1.html

news123.html

newsabc.html?id=1

但是不会阻止:

newshtm (少了一个点“.”)

News.html (大小写敏感)

/example/news.html

用Robots.txt阻止特定参数

通配符也会经常被用来阻止包含特定参数的页面被搜索引擎抓取,例如我们只允许搜索引擎三级目录,类似/dir1/dir2/dir3/的三层结构,当添加第四级目录时变为/dir1/dir2/dir3/dir4/?crawl=no。这时可以用规则“*crawl=no”来阻止第四级目录。

用Robots.txt匹配指定文件名

有时候我们可能想阻止搜索引擎抓取特定的文件,比如说图片。但需要特别注意的是,robots指令写不规范可能会把sample-of-jpg.html这些页面可阻止了。这时候就要用到结束标志“$”了:

User-agent: *

Disallow: *.jpg$

结束标志“$”也可以用于其它规则,比如“Disallow: /example.html”会把“/example.html?sort=asc”也给阻止了,这时候在htm后面加上结束标志“$”就不会出现类似错误了。

用Robots.txt添加站点地图

很多网站的robots.txt文件的最后一行都会指明网站的站点地图文件位置,因为搜索引擎访问网站时首先会检查根目录下是否有robots.txt,在robots.txt文件中列出站点地图文件位置就方便搜索引擎更好的抓取网站的每一个页面,比如:

User-agent: *

Sitemap: http://www.seoteacher.cn/sitemap.xml

实际上你可以添加多个站点地图文件,只要每一行对应一个文件。

本文来自网络,不代表1号站长-站长学院|资讯交流平台立场。转载请注明出处: https://www.1cn.cc/yunying/seo/33081.html
上一篇如何选择域名更加利于优化?
下一篇 如何避免页面优化过度?
admin

作者: admin

这里可以再内容模板定义一些文字和说明,也可以调用对应作者的简介!或者做一些网站的描述之类的文字或者HTML!

为您推荐

评论列表()

    联系我们

    联系我们

    0898-88888888

    在线咨询: QQ交谈

    邮箱: email@wangzhan.com

    工作时间:周一至周五,9:00-17:30,节假日休息

    关注微信
    微信扫一扫关注我们

    微信扫一扫关注我们

    关注微博
    返回顶部