最近在操作一个地方门户网站,发现百度在抓取过程中,出现很多404页面,而这些页面的网址都是正确的,而百度快照显示的抓取页面却是404页面,如下图:
从百度快照点击进去的链接(这张页面是TAG页面)却是错误的,从搜索结果点击进去的页面是正确的,链接地址是http://www.jiangxizc.com/tag/%E6%A3%89%E6%B9%96%E9%95%87/,可以去百度测试下。
上图百度抓取的快照url点击进去是404页面的,而实际存在的页面是正确。我怀疑是自己服务器设置的问题,就去百度搜索相关抓取中文URL的网站,发现同样的问题。这个网址是百度指数700多排名6的网址。如下图:
从百度快照点击进去的页面是正确的(这张页面是搜索结果页,显示搜索结果不存在),而从搜索结果点击进去的页面是正确的。
看来这与自己服务器的关系就不是很大,我再去搜索360的快照,发现快照是正确的,如下图:
这样是不是就可以说,百度在抓取中文URL的过程中出现错误呢?具体还有待验证。
评论列表()