November 10th, 2007 搜索引擎爬虫跟踪
搜索引擎爬虫分析师搜索引擎营销过程的比较重要的一部分。
在断断续续的网络连接状态下搞了一晚上的Crawler track程序,在尝试了许多种方法后终于找到一个还算不错的,辛苦修改以后还算满足基本需求了。跟踪搜索引擎爬虫对网站的抓取和爬行情况还是很有必要的,只是像google分析、雅虎统计和测试中的百度统计这类不是基于网站日志的统计程序都不会有搜索引擎爬虫的记录,而查看网站日志又是比较麻烦的事情,这样就很难明确像googlebot、Yahoo Slurp、Baiduspider等爬虫的频率和爬行路径,造成网站分析不全面。
wordpress有个插件可以对搜索引擎爬虫情况进行记录,但是在测试过程中感觉这插件效果并不好,有两个毛病:统计结果不是很准确(不是基于网站日志的,好像是根据header头来判断的)、占用wordpress资源比较大。但是它的功能还是比较全面的,因此暂时还是启用着作为比较。如果你是wordpress用户,可以去下载这个插件:Bot Tracker来适用下。
我现在比较满意的搜索引擎爬虫统计程序是基于cgi的,源程序只支持google、msn、yahoo的爬虫,研究了半天后我给加上了百度爬虫统计,效果图如下:

也就是在捣鼓这程序的过程中才发现百度不知道什么时候收录了这个博客——在我上次去百度site的时候还没收录主站,却收录了博客聚合站。从这个统计程序里面可以清楚的看到搜索引擎爬虫光顾网站的时间和爬行页面。看看结果才发现,9号这半天之内(美国时间00:35:47-11:05:03)google和yahoo就各爬了我100多次,百度和msn还是比较小气,才20来次。
在做网站分析的时候,除了使用google统计或者其他统计程序来分析网站关键词和流量来源、用户特征之外,对搜索引擎爬虫的分析也很重要,从中可以揣测出网站对搜索引擎的诱惑力大小。而要做搜索引擎爬虫分析,基于网站日志的统计程序才是比较准确的,如果你有使用AWStats,那也是个不错的选择。
PS:这两天对网站做了较大的调整,虽然外表看不出来什么,但是我把能不用插件就实现的功能全部手动代码实现,另外对文章页面的tag导航也换了套小巧的js程序,好像把留言部分间歇性错乱的问题解决了。如果还发现其他什么问题,别吝啬留言哈。

留言部分的错位解决了哈~那个cgi的东东很不错啊~
呵呵 发现每次折腾下博客就要花好多时间。昨天不知不觉就到4点了。是很不错的哈,分析一个文件爬虫记录,另外还有一个文件记录搜索引擎来路的关键词。
你好,我是一名职业SEO人,对你的技术天才很感兴趣,可否交个朋友??我在上海,我的MSN是moichen2008@hotmail.com
:)我不是什么技术天才哈,对SEO也只是在学习中。