很多人似乎都认为搜索引擎抓取的页面越多越好,并以此为根据证明百度所能搜索的中文网页多于google,最近我发现这个评价标准似乎死板了点。
过去,我用自己的服务器,没有流量限制,我也不会去关心机器人所引起的流量。现在,我使用租用的空间,有流量限制,这个问题我不能不关心了。
以下是通过awstats分析日志所得的结果。

其中,排第一名的是百度,抓取页面1000个,占用流量13.72 M字节。
排第二名的是Inktomi Slurp,这是yahoo的bot,抓取页面373个,占用流量5.16 M字节
第三名是Googlebot,抓取页面89个,占用流量1.90 M字节
这三个搜索引擎,为我带来了什么呢?我想知道他们的收录情况。于是,我抓了下面这三张图。
百度,收录网页0个。

yahoo,收录网页173个。

google,收录网页19个。

我的网站,我是清楚的。这个blog刚刚建立,正在转移数据,还没有什么东西,google的19个页面是准确的。
yahoo收录的页面也是正确的,但由于没有剔除过期的结果,所以看起来收录的页面比google多很多。这也很难说是好事还是坏事,姑且认为可以接受吧。
百度,我很好奇他们把抓走的1000个页面放在那里了(我也很想知道这1000个页面是从哪里抓到的,咱这网站根本就没这么多页面),是不是等着我去竞价排名呢?占用我网站访问第一大流量的,竟然什么都没能带给我。
看来,百度没什么用,还占用了大量的流量,这令人无法接受。由于百度不遵守robot.txt的规则(也就是说,这是个不遵守礼貌的机器人),我将在服务器上屏蔽baidu的bot。。同时,我们也知道了,收录数目并不等于有效收录数目,有效收录数目并不等于有效检索数目。google的精简的19个结果,令我很满意——占用我的流量不大,数据准确,对搜索者最有实际意义。google,仍然是我首选的搜索引擎,就算是中文,也无人能够超越。所谓的google迷恋,并非是情感或是习惯,google令我感觉舒服,令我的工作更有效率,脑筋正常的人比较一下以上三个结果,会选择谁呢?