﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>IT博客-我心飞扬-随笔分类-spider</title><link>http://www.cnitblog.com/thinke365/category/8407.html</link><description /><language>zh-cn</language><lastBuildDate>Fri, 07 Oct 2011 08:44:23 GMT</lastBuildDate><pubDate>Fri, 07 Oct 2011 08:44:23 GMT</pubDate><ttl>60</ttl><item><title>网络爬虫</title><link>http://www.cnitblog.com/thinke365/archive/2009/07/26/60373.html</link><dc:creator>Monicax</dc:creator><author>Monicax</author><pubDate>Sat, 25 Jul 2009 18:58:00 GMT</pubDate><guid>http://www.cnitblog.com/thinke365/archive/2009/07/26/60373.html</guid><wfw:comment>http://www.cnitblog.com/thinke365/comments/60373.html</wfw:comment><comments>http://www.cnitblog.com/thinke365/archive/2009/07/26/60373.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/thinke365/comments/commentRss/60373.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/thinke365/services/trackbacks/60373.html</trackback:ping><description><![CDATA[<font size="-5" color="blue">用donews的my博客挺有意思。不过刚才访问居然出现了no
available
Servers的错误信息。郁闷啊。Wordpress是个很强大的平台。看来以后写博客要多注意博客的稳定性
了。<br></font><font size="-7" color="red">字体的大小居然可以设定为负数，不错的。</font><br><br>有很多种爬
虫，也有很多的爬虫算法。Google的创始人说过，爬虫是搜索引擎中最薄弱而复杂的模块。<br>流行的页面被很多链接所指向，它们对于优
先爬虫而言，很具有吸引力。因此，<font size="-5" color="blue">被宽度优先爬虫所访问页面的顺序和它们的PageRank或者入度值紧密相关也就不足为奇了。<br></font><font size="-3" color="red">宽度优先爬虫并不随机访问页面，因为它们受种子节点选取的影响非常大。</font><font color="blue">主题本地性</font>表明种子页面链接的邻居，通常都和种子页面的内容相关，它们的<font size="-1" color="red">相关度要远远超过随机选取页面的相关度。</font> <br> 这些偏好和其他偏好，对于<font color="blue">通用爬虫</font>而言，都非常重要。<font color="red">链接距离</font>提供了估计爬取网页和相关网页之间距离的机制。 由<font color="blue">上下文分类器</font>提供的这种机制。 每层中放了一个优先队列，里面记录了被<font color="red">分类</font>到该层的已访问网页中提取的链接。<br>爬虫也可以使用分类器，针对爬行到的网页进行分类处理，判断其是否符合某种特征，然后决定是否把这个网页中解析出来的链接加入到队列中来。书中提到的分类器有<font color="red">贝叶斯分类器</font>，如何用贝叶斯分类器对文本进行分类呢?是否有现成的代码?<br><img src ="http://www.cnitblog.com/thinke365/aggbug/60373.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/thinke365/" target="_blank">Monicax</a> 2009-07-26 02:58 <a href="http://www.cnitblog.com/thinke365/archive/2009/07/26/60373.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>