IT博客-我心飞扬-随笔分类-spider

IT博客-我心飞扬-随笔分类-spiderhttp://www.cnitblog.com/thinke365/category/8407.htmlzh-cnFri, 07 Oct 2011 08:44:23 GMTFri, 07 Oct 2011 08:44:23 GMT60网络爬虫http://www.cnitblog.com/thinke365/archive/2009/07/26/60373.htmlMonicaxMonicaxSat, 25 Jul 2009 18:58:00 GMThttp://www.cnitblog.com/thinke365/archive/2009/07/26/60373.htmlhttp://www.cnitblog.com/thinke365/comments/60373.htmlhttp://www.cnitblog.com/thinke365/archive/2009/07/26/60373.html#Feedback0http://www.cnitblog.com/thinke365/comments/commentRss/60373.htmlhttp://www.cnitblog.com/thinke365/services/trackbacks/60373.html用donews的my博客挺有意思。不过刚才访问居然出现了no available Servers的错误信息。郁闷啊。Wordpress是个很强大的平台。看来以后写博客要多注意博客的稳定性了。
字体的大小居然可以设定为负数，不错的。

有很多种爬虫，也有很多的爬虫算法。Google的创始人说过，爬虫是搜索引擎中最薄弱而复杂的模块。
流行的页面被很多链接所指向，它们对于优先爬虫而言，很具有吸引力。因此，被宽度优先爬虫所访问页面的顺序和它们的PageRank或者入度值紧密相关也就不足为奇了。
宽度优先爬虫并不随机访问页面，因为它们受种子节点选取的影响非常大。主题本地性表明种子页面链接的邻居，通常都和种子页面的内容相关，它们的相关度要远远超过随机选取页面的相关度。
这些偏好和其他偏好，对于通用爬虫而言，都非常重要。链接距离提供了估计爬取网页和相关网页之间距离的机制。由上下文分类器提供的这种机制。每层中放了一个优先队列，里面记录了被分类到该层的已访问网页中提取的链接。
爬虫也可以使用分类器，针对爬行到的网页进行分类处理，判断其是否符合某种特征，然后决定是否把这个网页中解析出来的链接加入到队列中来。书中提到的分类器有贝叶斯分类器，如何用贝叶斯分类器对文本进行分类呢?是否有现成的代码?

Monicax 2009-07-26 02:58 发表评论

]]>