﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>IT博客-我心飞扬-随笔分类-Lazyisgod</title><link>http://www.cnitblog.com/thinke365/category/8408.html</link><description /><language>zh-cn</language><lastBuildDate>Wed, 05 Oct 2011 16:22:48 GMT</lastBuildDate><pubDate>Wed, 05 Oct 2011 16:22:48 GMT</pubDate><ttl>60</ttl><item><title>游戏Insight</title><link>http://www.cnitblog.com/thinke365/archive/2009/08/15/60809.html</link><dc:creator>Monicax</dc:creator><author>Monicax</author><pubDate>Sat, 15 Aug 2009 06:44:00 GMT</pubDate><guid>http://www.cnitblog.com/thinke365/archive/2009/08/15/60809.html</guid><wfw:comment>http://www.cnitblog.com/thinke365/comments/60809.html</wfw:comment><comments>http://www.cnitblog.com/thinke365/archive/2009/08/15/60809.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/thinke365/comments/commentRss/60809.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/thinke365/services/trackbacks/60809.html</trackback:ping><description><![CDATA[多用户环境下的协作，如何才是有智慧的?<br><br>定期分析玩家资源数目，分析玩家活跃度。<br><br>多个维度数据的获取，建立模型，并进行分析<br><br>有些操作需要发送两个请求，这种是出于事务的要求吗?<br><br>
<img src ="http://www.cnitblog.com/thinke365/aggbug/60809.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/thinke365/" target="_blank">Monicax</a> 2009-08-15 14:44 <a href="http://www.cnitblog.com/thinke365/archive/2009/08/15/60809.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Python记录</title><link>http://www.cnitblog.com/thinke365/archive/2009/08/15/60807.html</link><dc:creator>Monicax</dc:creator><author>Monicax</author><pubDate>Fri, 14 Aug 2009 17:53:00 GMT</pubDate><guid>http://www.cnitblog.com/thinke365/archive/2009/08/15/60807.html</guid><wfw:comment>http://www.cnitblog.com/thinke365/comments/60807.html</wfw:comment><comments>http://www.cnitblog.com/thinke365/archive/2009/08/15/60807.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/thinke365/comments/commentRss/60807.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/thinke365/services/trackbacks/60807.html</trackback:ping><description><![CDATA[<p><span style="FONT-SIZE: 8pt; COLOR: #0000ff">那些众里寻他千百度，蓦然回首，那人却在灯火阑珊处</span>。<br><br>一些小的知识点，找了很久，直让人憔悴。突然发现，原来离得如此之近。<br><br>1、re.search 和 re.match的不同之处，使用了re.S选项，前者可以，而后者不行<br>2、正则表达式中有中文，出现匹配异常，search不到东西? 于是找其他特征进行匹配了<br><br></p>
<img src ="http://www.cnitblog.com/thinke365/aggbug/60807.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/thinke365/" target="_blank">Monicax</a> 2009-08-15 01:53 <a href="http://www.cnitblog.com/thinke365/archive/2009/08/15/60807.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Mining Machine</title><link>http://www.cnitblog.com/thinke365/archive/2009/08/01/60502.html</link><dc:creator>Monicax</dc:creator><author>Monicax</author><pubDate>Sat, 01 Aug 2009 04:28:00 GMT</pubDate><guid>http://www.cnitblog.com/thinke365/archive/2009/08/01/60502.html</guid><wfw:comment>http://www.cnitblog.com/thinke365/comments/60502.html</wfw:comment><comments>http://www.cnitblog.com/thinke365/archive/2009/08/01/60502.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/thinke365/comments/commentRss/60502.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/thinke365/services/trackbacks/60502.html</trackback:ping><description><![CDATA[没有具体的商务数据怎么办?那就自己yy数据吧，不能从数据库中获得的数据。就自己去下载吧，<span style="FONT-SIZE: 8pt; COLOR: red">也可以用爬虫去爬</span>。<br>发现对论坛数据进行挖掘是一个比较有趣的东西。 因为<span style="FONT-SIZE: 8pt"><span style="COLOR: #3518ff">现在可以接触到很多的论坛，数据的获取应该不是很大问题了</span></span><span style="COLOR: #3518ff"></span>。关键在于如何yy出一套模型。<span style="COLOR: #8c58ff">如挖掘简单的统计量</span>，<span style="COLOR: #8c58ff">到进入更深层的挖掘，及建立完备的模型</span>。呵呵，终于找到目标了。<br><br>数据挖掘和统计之间是什么关系?<br>很多信息隐藏在大量的数据之中，通过统计，就可以发现很多规律，这个叫数据挖掘吗? <span style="FONT-SIZE: 8pt; COLOR: red">虽然找到了很多规律，但是并没有使用那些所谓高深的数据挖掘算法</span>，如贝叶斯、神经网络、决策树、隐马尔科夫、SVM、核方法等。<span style="FONT-SIZE: 8pt; COLOR: red">那么这还是数据挖掘吗</span>?<br><br>构造贝叶斯分类器，对用户进行分类。判断他们对于哪类话题比较感兴趣?<br><br>统计量:<br>论坛活跃人数： 31207 考虑到网站随时在更新，统计的结果只能是某个时候的快照。<br>晕了，到底有多少用户啊。花了一个下午重新抓了一遍，活跃人数怎么变成31937了? 而实际上论坛自身的统计显示这两天新增的用户不超过20个，这是这么回事，人数多出了700多? (对下载下来的页面再进行分析?)<br><br>对下载到本地的文件进行分析<br>8449 共8449个页面，数据量为318M。提取链接，分析用户数，整个计算过程，花费的时间是1分钟。<br>Sat Aug 01 17:42:06 2009 <br>Sat Aug 01 17:43:02 2009 <br><br>两次统计出人数有差异的原因已经找到。 因为我统计的并不是论坛所有的注册人数。而是参与发起帖子的所有用户数。<br>今日贴数：<font color=red>14661 &nbsp; // 今日的新帖子是14661，还有很多新的主题，参与发表</font>主题的人数比原来多了700多人。这个是很自然的事情了。<br><br>用户列表下载中发现有重复ID的问题(爬取网站，<span style="FONT-SIZE: 8pt; COLOR: #0000ff">需要对网站页面的生成和链接参数的意义有一些了解，即使开始不了解，为了爬下来资料的完备性和有效性，也是要了解链接参数意义的</span>)&nbsp; userlist.asp?page=xx&amp;order_method=xx,发现如果不带order_method参数，各个分页是可以访问的，但是每次刷新，返回的是不同结果?这个是怎么回事?没有使用数据库的排序? 发现，<span style="FONT-SIZE: 8pt; COLOR: #0000ff">当order_method设置为7时</span>，是以排序结果返回的，每次刷新不会影响页面结果，<span style="FONT-SIZE: 8pt; COLOR: #0000ff">这个才是我想要的效果啊</span>。。。<br><br>但是有3个页面，不知道为何不能得到结果，总是显示内部服务器错误，返回的错误码是 HTTP 500.<br>这三个页面分别是:1309、1931和2571。 <span style="COLOR: #666699">暂时还不知道究竟是什么问题</span>。。。<br>下载根据ID下载用户信息页面，ID数和页面数目终于对应起来了。<br>52409个文件已经下到。下载过程中的出错率，并不是很高，呵呵<br>success/failure: 52409/4750，成功率是78%<br><br>搞了真正一个晚上<sup>8.3</sup>的cookie问题，因为某个论坛的下载一定要用到cookie。并且起先还需要在页面上做登陆操作。按着网上的教程，试了n次，终于还是不行。到了4点半的时候，<span style="FONT-SIZE: 8pt; COLOR: #3366ff">看到有一个会话Session和持久Session的概念。其实，我正要爬的网站用的是会话Cookie</span>，浏览器关闭，就必须重新登录了。<span style="FONT-SIZE: 8pt; COLOR: red">这个Cookie不是放在什么FileCookie等中间，是直接放在head中的</span>。这个操作涉及的面还是挺广的，有httplib, cookielib。<br><br>不错啊，<span style="FONT-SIZE: 10pt; COLOR: red">这个小网站，居然还有防爬虫的机制</span>。我下了不到20个页面，就要验证本人是否是机器人了。<br>呵呵，<span style="FONT-SIZE: 8pt; COLOR: #3366ff">伪装术之后应该也很重要了</span>。以前看到过，可以把爬虫做到Firefox中，服务器没法分别是否是客户浏览。<br>当然，判别爬虫的方法有多种，方式和实现都可以加以了解的。<span style="COLOR: #008000"><strong style="FONT-SIZE: 8pt">大致对恶意爬虫的检测</strong></span>列举一些自己能想到的东西吧(防范是之后要考虑的)<br>1、连接频度<br>2、下载流量<br>3、访问模式(是否所有链接都点，或点击链接完全是按一种固定模式进行的。如遍历某些参数。。。)<br><br>下载另一个网站的数据。这个网站可以通过两种方式访问。即telnet和Web两种方式访问。<br>下载页面Index，即分页目录，而不是文件内容。通过对里面的链接进行解析，发现了之前一直不知道的<span style="FONT-SIZE: 8pt; COLOR: red">秘密</span>。(在telnet里面不能显示的一些文章，在Web下都露出了原形，虽然也是不能点击进去的(只是表明该文章已经被水了，并没有点击的链接))。<br>而且这种链接所占的比例还不低。&nbsp; good: deplicated = 5003:550, <span style="FONT-SIZE: 8pt; COLOR: red">过时文章所占的比例有9.904%</span>，可见比例不低，呵呵<br><span style="FONT-SIZE: 8pt; COLOR: #0000ff">这姑且也算是挖掘吧，总算挖出一些之前所不知道的知识</span>:)<br><br><span style="FONT-WEIGHT: bold">下载格式</span><br>下载网页文件的存储格式为： (board_id)_(page).html&nbsp; // 虽然最初是动态页面，但是这里存成了html页面<br><br>
<img src ="http://www.cnitblog.com/thinke365/aggbug/60502.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/thinke365/" target="_blank">Monicax</a> 2009-08-01 12:28 <a href="http://www.cnitblog.com/thinke365/archive/2009/08/01/60502.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>指数</title><link>http://www.cnitblog.com/thinke365/archive/2009/08/01/60496.html</link><dc:creator>Monicax</dc:creator><author>Monicax</author><pubDate>Fri, 31 Jul 2009 16:05:00 GMT</pubDate><guid>http://www.cnitblog.com/thinke365/archive/2009/08/01/60496.html</guid><wfw:comment>http://www.cnitblog.com/thinke365/comments/60496.html</wfw:comment><comments>http://www.cnitblog.com/thinke365/archive/2009/08/01/60496.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/thinke365/comments/commentRss/60496.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/thinke365/services/trackbacks/60496.html</trackback:ping><description><![CDATA[日志往往需要进行离线的挖掘处理，因为日子挖掘往往会涉及到海量信息的处理。<br>但是也需要一些在线的指数，如当前最热门的帖子，每次登陆的随机推荐，热门推荐，及当日点击排行，热门评论，及新增内容等。<br><br>这些实时信息，有些可以30分钟一次统计，而有些可以是马上更新的。<br><br>热门搜索关键字Tag(更新频率设为多久?)<br><br><br>
<img src ="http://www.cnitblog.com/thinke365/aggbug/60496.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/thinke365/" target="_blank">Monicax</a> 2009-08-01 00:05 <a href="http://www.cnitblog.com/thinke365/archive/2009/08/01/60496.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>日志挖掘</title><link>http://www.cnitblog.com/thinke365/archive/2009/07/31/60495.html</link><dc:creator>Monicax</dc:creator><author>Monicax</author><pubDate>Fri, 31 Jul 2009 15:24:00 GMT</pubDate><guid>http://www.cnitblog.com/thinke365/archive/2009/07/31/60495.html</guid><wfw:comment>http://www.cnitblog.com/thinke365/comments/60495.html</wfw:comment><comments>http://www.cnitblog.com/thinke365/archive/2009/07/31/60495.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.cnitblog.com/thinke365/comments/commentRss/60495.html</wfw:commentRss><trackback:ping>http://www.cnitblog.com/thinke365/services/trackbacks/60495.html</trackback:ping><description><![CDATA[如何进行有效的挖掘，不是空想，是要解决实际的问题。<br>最好是带着问题进行学习的，否则理论学了一大堆，但是到了实际问题前面，就一下子傻眼了。<br><br>日志有很多种，可以存放在数据库中，如登陆日志，密码修改日志，操作日志等。<br>较为简单的一种日志是用户浏览日志，说起来简单，做起来却很细致。 (<span style="color: red; font-size: 8pt;">开始最好讨论简化的模型，而不是一开始就很复杂</span>)<br><br>现有挖掘案例：<br>豆瓣、校内，Facebook，淘宝，china-pub(<span style="font-size: 8pt; color: #2e10ff;">做的应该比当当要晚，或者说是很晚才做的</span>)，当当<br><br>日志挖掘目标：<br>1、分析用户的商品浏览日志，分析用户的喜好，潜在的购买力，及感兴趣的产品。这样就可以向其做产品推荐。提升电子商务网站的成交量。(<span style="font-size: 8pt; color: #1826ff;">不过一般的网站在初期是不会考虑这一点的</span>，只有当流量很大，很有发展前景的情况下，为了进一步发展的需要，才会想到数据挖掘的。其实也是他们在遇到很多问题后，发现<span style="font-size: 8pt; color: #38daff;">数据挖掘确实很适合做锦上添花的事情</span>，才会着手做开发的。) 一般网站在发展中期，也会做一些简单的挖掘。<span style="font-size: 8pt; color: red;">只有当做大了，才会专门成立小组或团队来系统地分析和建模，并进行挖掘的</span>。<br>2、购物车分析。分析现有的成交数据，以后向用户推荐商品。<br><br>在没有具体场景的情况下，找什么数据，并进行挖掘呢?<br>对代理服务器日志进行分析，并查找活跃用户?<br><br><br>  <img src ="http://www.cnitblog.com/thinke365/aggbug/60495.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.cnitblog.com/thinke365/" target="_blank">Monicax</a> 2009-07-31 23:24 <a href="http://www.cnitblog.com/thinke365/archive/2009/07/31/60495.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>