田锋林(枫林)的SEO研究博客

专注于SEO/SEM研究,MSN:flxw@hotmail.com

田锋林:百度蜘蛛观察

昨天对SEO博客进行了更新,加了两篇文章。

订阅搜索引擎新闻的朋友,都可能看过这两则消息,没错,这两篇文章是转载的,文章底部也有消息来源,可供取证,做这个小实验的目的是为了验证枫林关于Baidu spider的几个观点。

  • 百度注重页面的优化,而不是站点整体的优化
  • 百度蜘蛛对原创文章的敏感性不够高(Google则有可能将其送入补充材料)
  • 百度蜘蛛十分活跃
  • 百度蜘蛛对站点的短期爬行不够深入,一般只停留在首页。

当今天使用这两篇文章的文章的标题在百度中进行索引时,SEO博客有了排名,并且位置还不错,都在第一页,但是两次搜索结果排在第一页的都是搜索引擎优化SEO博客的首页。

很显然,百度蜘蛛在昨晚到今天早上这段时间访问过SEO博客,当然这个在日志里面也有显示。根据抓取结果来看:

 百度蜘蛛实验

 上图为搜索“第三代google排名搜索引擎技术出台”时的截图,当然另外一篇文章的表现也是相同的,都是只收录的SEO博客的首页,由于博客首页偏顶部的位置出现了"第三代google排名搜索引擎技术出台"的字样,并且带了链接,注意这里说的顶部位置指的是内文中的顶部,需要查看“源文件”才可以得到。

百度蜘蛛来了枫林的博客后,按照往常的顺序自上而下去爬行,寻觅新的食物,蜘蛛们判断新老食物的标准是,通过当前抓取页面与上次抓取页面的对比来实现(也可能是与上次抓取的页面快照的对比),然后发现异同的链接和文本,进而进行分析抓取,在决定抓取以后,需要有段description对改页面进行描述,当然这里的description不仅限于meta中的description,通过实验观察发现,百度蜘蛛喜欢用抓取的文本链接后面相邻位置的一段文本作为对改标题链接的描述,这个与人类平时写作的习惯是一样的,一段与一段所阐述的内容可能是独立的,但是每段内部相邻句子描述的内容却具有相关性,百度蜘蛛的描述大相径庭。

通过抓取时间我们可以看到枫林的博客抓取的时间比相邻的几个页面都要靠后,但是排名却比互联网时报的某些页面排的靠前,当然第一位也是互联网时报的文章,如果没有猜错的话,第一位的这个页面当时在互联网时报的首页或者栏目页面或者某些重要的具有权威的高PR值的页面停留过一段时间,枫林这个页面后来者居上的原因也是显而易见的,这个也是博客的优势,每篇博客必在首页展示,再算上博客的更新速度,一篇经过一次更新很难将这些页面沉入深层页面(非首页),SEO博客的PR为4,首页中“第三代google排名搜索引擎技术出台”关键字数量保持为2,每篇博客的共性。自然这个冷门词在百度中前排是必然的。这种方式对于短期利用焦点新闻在百度获取流量是很有效果的。

通过这次观察(平均多次),我们可以将百度的优化总结为以下几点:

  • 注重页面优化
  • 注重页面的凸显位置(首页,高PR的栏目页或频道页)
  • 关键字的位置分布和数量控制(SEO博客将每个页面关键字控制在3—4次,位置多为内文顶部和中部)
  • 外部锚文本链接(这是所有搜索引擎的共性)
  • 前期的炒作(当然把这点归属在SEO中有点牵强,但是十分必要的)

“第三代google排名搜索引擎技术出台”后期会出现什么情况呢?这个就是我们下面要观察的内容了。

如果“第三代google排名搜索引擎技术出台”的URL被百度收录后排名会如何呢?该关键字现在在百度中的位置还会不会存在呢(首页)?

如果加快SEO博客的更新速度,也就是将“第三代google排名搜索引擎技术出台”压至次页中去,百度的排名还会不会保住呢?

。。。

这样一系列的疑问还在困扰着我们,SEOer也可以在自己的博客中做同样的实验,当然可以修改一些变量(页面关键字数量,位置,页面的PR等),观察总结,相信百度SEO不再是个难题。

注:最近枫林外出(河南),可能没有时间继续观察(也许可以在网吧办公),请谅解。


作者: 枫林
原载: 搜索引擎优化SEO博客
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。
本文链接地址: http://blog.5ixb.com/seo/baidu-spider.html

posted on 2007-04-24 13:42 田锋林(枫林) 阅读(143) 评论(0)  编辑 收藏 引用 所属分类: SEO/SEM研究

只有注册用户登录后才能发表评论。

导航

统计

常用链接

留言簿

文章分类

关注站点

友情链接

搜索

最新评论