搜索引擎对博客页面的判断

作者:feir 发表于:2007-12-29,Comments Off

一直很奇怪搜索引擎是如何判断出一个页面是属于博客或者普通网站的,以前有道博客搜索出台的时候还特意的在里面试验很多次看是否博客搜索里会出现非博客结果。最近又看到有文章说“Search engines are increasingly implementing features that restrict the results for queries to be from blog pages”,于是找到以前保存的微软MSN搜索06年的一篇专利——如何判别网页是否属于博客页面,简单看下后大概对搜索引擎如何辨别博客页面的原理有一点理解。

搜索引擎对博客页面的判断概况起来主要是基于以下几个特征:

  • 页面地址是否属于某个已知的博客服务提供商,譬如wordpress.com、blogspot.com、MSN Space等
  • 这一条可以直接辨别出那些使用BSP服务的博客。

  • 页面代码中非HTML标记的注释性语言或词语,譬如是否含有blogroll、permalink、comment、trackback、 powered by、posted at等。(非英语语言的标识性词语也适用。)
  • 在我使用过的博客程序中这些词语在代码中都是很明显的。搜索引擎必然也对这些词汇进行过收集。

  • 导出链接是否链到已知的博客程序提供网站。譬如wordpress.org、blogger.com、movabletype.com等。
  • 很多人建立博客后,都会留下这样的链接。反正我不会。

  • 页面地址中含有blog或相关单词。譬如http://www.gexiaofei.com/blog/
  • 这条只是个辅助手段,毕竟很多博客都不会在URL中含有blog字符。

  • 页面上是否含有ATOM feed or an RSS feed地址。
  • 现在越来越多的网站都提供ATOM或者RSS订阅了,这条似乎不明显。不过一般的博客程序提供的订阅地主都可以比较明显辨别出来是用了哪种程序的。

记得以前也看过一篇关于雅虎搜索如何辨别博客页面的文章,但是找不到出处了。我想搜索引擎对博客页面的判断必然不是全面的,但是类似博客搜索引擎他们所收录的肯定都是博客,在其结果中不会含有非博客内容,而一些使用非著名博客程序或者没有被搜索引擎登记的BSP服务的博客则很可能不被收录。

Comments on this entry are closed.

Previous post:

Next post: