咸鱼的翻身技术

JAVA/JAVASCRIPT

酒店走访系统开发 Day I

闲得蛋疼,又开始捣腾python了
用这个的主要原因还是烦躁java的无穷无尽的lib导入和配置文件书写,此外就是groovy不成熟导致的冲突

使用py2.6,主要还是因为这个版本的python库成熟,比较适合应用开发部署

酒店走访系统的需求主要是针对公司的销售开发的一个助手,主要是提供以下功能
1,提供某个接入点的酒店列表
2,提供某个拜访酒店的走访信息
3,快速添加走访标记
4,通过邮件补填走访详情

基础数据部分,主要要提供酒店列表,酒店地理数据

酒店列表部分主要要抓取知名站点的网页数据,并形成一个相应的文档数据库

所以现在采用的是 python+mongodb方案

第一天的内容主要是使用htmlparser分析站点信息,基本摸清了htmlparser的工作原理,但是他所提供的功能和自己所需要的还是相差甚远
需要寻找新的分析库

第一个抓取数据代码如下
#-*- encoding: utf-8 -*-
from HTMLParser import HTMLParser
import urllib


class MyHTMLParser(HTMLParser):
    
def reset(self):
        HTMLParser.reset(self)
        self.flag 
= False
    
def handle_starttag(self, tag, attrs):
        
if len(attrs) == 0: 
            self.flag 
= False
        
else:
            
for (variable, value)  in attrs:
                
if variable == "class" and value == "listbj":
                    
                    self.flag 
= True
    
def handle_endtag(self, tag):
        self.flag 
= False
    
def handle_data(self,data):
        
if(self.flag == True):
            
print 111

= urllib.urlopen("http://beijing.cncn.com/hotel/")
test 
= MyHTMLParser()
test.reset()
test.feed(f.read())



posted on 2010-12-14 15:24 hopesfish 阅读(201) 评论(0)  编辑 收藏 引用 所属分类: python

只有注册用户登录后才能发表评论。