上一篇 / 下一篇 日志编号:No.219

Google不遵守Robots.txt协议

November 26th, 2007 Google不遵守Robots.txt协议 Tags: ,

google没有遵守robots.txt协议,收录了被禁止收录的页面。

在google站长工具中测试robots.txt对相应URL的限制情况
GOOGLE ROBOTS.TXT测试

google实际对这些URL的收录情况
google对被限制了的URL还是收录

看来google对robots.txt协议遵守的并不好,相反MSN、yahoo在这个测试中做的还不错啊。

在google站长工具的remove URLs一栏中有提到,如果想要google不收录某些页面,可以通过几个方式:

To remove content from the Google index, do one of the following:

* Ensure requests for the page return an HTTP status code of either 404 or 410. [?]
* Block the page using a robots.txt file. [?]
* Block the page using a meta noindex tag. [?]

Your content will then be removed from the index the next time Google crawls your site. If you need to expedite your content removal, make sure you have met one of the requirements listed above, and then select the New Removal Request button below to use this automated tool.

那么如果google不遵守robots.txt协议的话,我使用站长工具中的网址删除功能是否会有效?

发表评论 | 收藏本文 阅读(926)| 评论(3)

喜欢我的文章,那就订阅博客RSS更新,第一时间获取文章更新。

  1. 1楼Bian 2007-11-26 14:29 回复

    这个我也发现了,应该发到点石上让朱健飞看到。

  2. 2楼zac 2007-11-27 16:00 回复

    列出URL并不意味着收录了,只是说明GG知道这些URL的存在,因为有链接。这种只有URL没有标题描述等是通常没收录的典型现象。如果你在这些网页上放noindex,则连URL也不会返回。

    你可以看快照确认是否有收录。我这里查是没有收录。

  3. 3楼天眞 2007-11-28 17:04 回复

    Zac, 这几个页面都只是301过渡页面,而且确定是在有链接之前就给robots.txt禁止了的。 没有标签描述的原因我想是在于这几个页面本身就完全没有内容。另外,如果说没有收录的话,那使用这个查询,应该也是不因为出现这几个URL地址的吧。http://www.google.com/search?q=seoclass+site:gexiaofei.com&complete=1&hl=en&newwindow=1&filter=0

发表你对文章《Google不遵守Robots.txt协议》的看法: