我心飞扬

2009年8月20日 #

JS基础理论

涉及到闭包、lamda演算、函数作用域等各种概念，呵呵，到深入了解的时候了

posted @ 2009-08-20 02:13 Monicax 阅读(203) | 评论 (0) | 编辑收藏

2009年8月15日 #

游戏Insight

多用户环境下的协作，如何才是有智慧的?

定期分析玩家资源数目，分析玩家活跃度。

多个维度数据的获取，建立模型，并进行分析

有些操作需要发送两个请求，这种是出于事务的要求吗?

posted @ 2009-08-15 14:44 Monicax 阅读(211) | 评论 (0) | 编辑收藏

Python记录

那些众里寻他千百度，蓦然回首，那人却在灯火阑珊处。

一些小的知识点，找了很久，直让人憔悴。突然发现，原来离得如此之近。

1、re.search 和 re.match的不同之处，使用了re.S选项，前者可以，而后者不行
2、正则表达式中有中文，出现匹配异常，search不到东西? 于是找其他特征进行匹配了

posted @ 2009-08-15 01:53 Monicax 阅读(230) | 评论 (0) | 编辑收藏

2009年8月4日 #

基本算法

如何实现一个最简单，但是高精度，有着实际意义的分类器，如对网页的分类。

posted @ 2009-08-04 03:43 Monicax 阅读(212) | 评论 (0) | 编辑收藏

SNS收藏夹

下载BerkeleyDB的时候，看到了一个包含50个SNS链接收藏的链接，不错。收藏夹共享，很有意义，对用户来说，提供了共享知识。而这些链接对搜索引擎来说是很好的feed。收藏夹链接为oracle

posted @ 2009-08-04 02:42 Monicax 阅读(225) | 评论 (1) | 编辑收藏

2009年8月1日 #

Mining Machine

没有具体的商务数据怎么办?那就自己yy数据吧，不能从数据库中获得的数据。就自己去下载吧，也可以用爬虫去爬。
发现对论坛数据进行挖掘是一个比较有趣的东西。因为现在可以接触到很多的论坛，数据的获取应该不是很大问题了。关键在于如何yy出一套模型。如挖掘简单的统计量，到进入更深层的挖掘，及建立完备的模型。呵呵，终于找到目标了。

数据挖掘和统计之间是什么关系?
很多信息隐藏在大量的数据之中，通过统计，就可以发现很多规律，这个叫数据挖掘吗? 虽然找到了很多规律，但是并没有使用那些所谓高深的数据挖掘算法，如贝叶斯、神经网络、决策树、隐马尔科夫、SVM、核方法等。那么这还是数据挖掘吗?

构造贝叶斯分类器，对用户进行分类。判断他们对于哪类话题比较感兴趣?

统计量:
论坛活跃人数： 31207 考虑到网站随时在更新，统计的结果只能是某个时候的快照。
晕了，到底有多少用户啊。花了一个下午重新抓了一遍，活跃人数怎么变成31937了? 而实际上论坛自身的统计显示这两天新增的用户不超过20个，这是这么回事，人数多出了700多? (对下载下来的页面再进行分析?)

对下载到本地的文件进行分析
8449 共8449个页面，数据量为318M。提取链接，分析用户数，整个计算过程，花费的时间是1分钟。
Sat Aug 01 17:42:06 2009
Sat Aug 01 17:43:02 2009

两次统计出人数有差异的原因已经找到。因为我统计的并不是论坛所有的注册人数。而是参与发起帖子的所有用户数。
今日贴数：14661 // 今日的新帖子是14661，还有很多新的主题，参与发表主题的人数比原来多了700多人。这个是很自然的事情了。

用户列表下载中发现有重复ID的问题(爬取网站，需要对网站页面的生成和链接参数的意义有一些了解，即使开始不了解，为了爬下来资料的完备性和有效性，也是要了解链接参数意义的) userlist.asp?page=xx&order_method=xx,发现如果不带order_method参数，各个分页是可以访问的，但是每次刷新，返回的是不同结果?这个是怎么回事?没有使用数据库的排序? 发现，当order_method设置为7时，是以排序结果返回的，每次刷新不会影响页面结果，这个才是我想要的效果啊。。。

但是有3个页面，不知道为何不能得到结果，总是显示内部服务器错误，返回的错误码是 HTTP 500.
这三个页面分别是:1309、1931和2571。暂时还不知道究竟是什么问题。。。
下载根据ID下载用户信息页面，ID数和页面数目终于对应起来了。
52409个文件已经下到。下载过程中的出错率，并不是很高，呵呵
success/failure: 52409/4750，成功率是78%

搞了真正一个晚上^8.3的cookie问题，因为某个论坛的下载一定要用到cookie。并且起先还需要在页面上做登陆操作。按着网上的教程，试了n次，终于还是不行。到了4点半的时候，看到有一个会话Session和持久Session的概念。其实，我正要爬的网站用的是会话Cookie，浏览器关闭，就必须重新登录了。这个Cookie不是放在什么FileCookie等中间，是直接放在head中的。这个操作涉及的面还是挺广的，有httplib, cookielib。

不错啊，这个小网站，居然还有防爬虫的机制。我下了不到20个页面，就要验证本人是否是机器人了。
呵呵，伪装术之后应该也很重要了。以前看到过，可以把爬虫做到Firefox中，服务器没法分别是否是客户浏览。
当然，判别爬虫的方法有多种，方式和实现都可以加以了解的。大致对恶意爬虫的检测列举一些自己能想到的东西吧(防范是之后要考虑的)
1、连接频度
2、下载流量
3、访问模式(是否所有链接都点，或点击链接完全是按一种固定模式进行的。如遍历某些参数。。。)

下载另一个网站的数据。这个网站可以通过两种方式访问。即telnet和Web两种方式访问。
下载页面Index，即分页目录，而不是文件内容。通过对里面的链接进行解析，发现了之前一直不知道的秘密。(在telnet里面不能显示的一些文章，在Web下都露出了原形，虽然也是不能点击进去的(只是表明该文章已经被水了，并没有点击的链接))。
而且这种链接所占的比例还不低。 good: deplicated = 5003:550, 过时文章所占的比例有9.904%，可见比例不低，呵呵
这姑且也算是挖掘吧，总算挖出一些之前所不知道的知识:)

下载格式
下载网页文件的存储格式为： (board_id)_(page).html // 虽然最初是动态页面，但是这里存成了html页面

posted @ 2009-08-01 12:28 Monicax 阅读(288) | 评论 (0) | 编辑收藏

指数

日志往往需要进行离线的挖掘处理，因为日子挖掘往往会涉及到海量信息的处理。
但是也需要一些在线的指数，如当前最热门的帖子，每次登陆的随机推荐，热门推荐，及当日点击排行，热门评论，及新增内容等。

这些实时信息，有些可以30分钟一次统计，而有些可以是马上更新的。

热门搜索关键字Tag(更新频率设为多久?)

posted @ 2009-08-01 00:05 Monicax 阅读(149) | 评论 (0) | 编辑收藏

2009年7月31日 #

日志挖掘

如何进行有效的挖掘，不是空想，是要解决实际的问题。
最好是带着问题进行学习的，否则理论学了一大堆，但是到了实际问题前面，就一下子傻眼了。

日志有很多种，可以存放在数据库中，如登陆日志，密码修改日志，操作日志等。
较为简单的一种日志是用户浏览日志，说起来简单，做起来却很细致。 (开始最好讨论简化的模型，而不是一开始就很复杂)

现有挖掘案例：
豆瓣、校内，Facebook，淘宝，china-pub(做的应该比当当要晚，或者说是很晚才做的)，当当

日志挖掘目标：
1、分析用户的商品浏览日志，分析用户的喜好，潜在的购买力，及感兴趣的产品。这样就可以向其做产品推荐。提升电子商务网站的成交量。(不过一般的网站在初期是不会考虑这一点的，只有当流量很大，很有发展前景的情况下，为了进一步发展的需要，才会想到数据挖掘的。其实也是他们在遇到很多问题后，发现数据挖掘确实很适合做锦上添花的事情，才会着手做开发的。) 一般网站在发展中期，也会做一些简单的挖掘。只有当做大了，才会专门成立小组或团队来系统地分析和建模，并进行挖掘的。
2、购物车分析。分析现有的成交数据，以后向用户推荐商品。

在没有具体场景的情况下，找什么数据，并进行挖掘呢?
对代理服务器日志进行分析，并查找活跃用户?

posted @ 2009-07-31 23:24 Monicax 阅读(345) | 评论 (0) | 编辑收藏

matlab

线性方程在现代计算机应用中，所起的作用有几成?
如何用matlab作概率运算

posted @ 2009-07-31 01:55 Monicax 阅读(149) | 评论 (0) | 编辑收藏

2009年7月26日 #

网络爬虫

用donews的my博客挺有意思。不过刚才访问居然出现了no available Servers的错误信息。郁闷啊。Wordpress是个很强大的平台。看来以后写博客要多注意博客的稳定性了。
字体的大小居然可以设定为负数，不错的。

有很多种爬虫，也有很多的爬虫算法。Google的创始人说过，爬虫是搜索引擎中最薄弱而复杂的模块。
流行的页面被很多链接所指向，它们对于优先爬虫而言，很具有吸引力。因此，被宽度优先爬虫所访问页面的顺序和它们的PageRank或者入度值紧密相关也就不足为奇了。
宽度优先爬虫并不随机访问页面，因为它们受种子节点选取的影响非常大。主题本地性表明种子页面链接的邻居，通常都和种子页面的内容相关，它们的相关度要远远超过随机选取页面的相关度。
这些偏好和其他偏好，对于通用爬虫而言，都非常重要。链接距离提供了估计爬取网页和相关网页之间距离的机制。由上下文分类器提供的这种机制。每层中放了一个优先队列，里面记录了被分类到该层的已访问网页中提取的链接。
爬虫也可以使用分类器，针对爬行到的网页进行分类处理，判断其是否符合某种特征，然后决定是否把这个网页中解析出来的链接加入到队列中来。书中提到的分类器有贝叶斯分类器，如何用贝叶斯分类器对文本进行分类呢?是否有现成的代码?

posted @ 2009-07-26 02:58 Monicax 阅读(257) | 评论 (0) | 编辑收藏

仅列出标题下一页

常用链接

留言簿(1)

随笔分类

随笔档案

文章分类

飘逸

搜索

最新评论

阅读排行榜

评论排行榜