python抓取网页数据

python抓取网页数据

ID:10218838

大小:23.00 KB

页数:2页

时间:2018-06-12

python抓取网页数据_第1页
python抓取网页数据_第2页
资源描述:

《python抓取网页数据》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、用python抓取页面并进行处理2009-02-1915:09:50

2、分类:Python

3、标签:无

4、字号订阅主要目的:抓取某个网页的源代码,把里面需要的数据进行处理,并保存到数据库中。已经实现了抓取页面并读取数据。步骤一、抓取页面,这一步很简单,引入urllib,用urlopen打开网址,并用read()方法读取数据。为了方便测试,用本地文本文件代替抓取网页步骤二、处理数据,如果页面代码比较规范标准,可以用HTMLParser进行简单处理,只是具体情况需要具体分析,感觉还是用正则比较好一些,顺便练习一下刚学习的正则表达式

5、。其实正则也是一种比较简单的语言,其中符号比较多,有点晦涩难懂,只能是多加练习,多加实践了。步骤三、把处理的数据保存到数据库中,用pymssql就可以处理,这里只是简单的保存到文本文件中。扩展下去,利用这个功能还可以实现抓取整个网站的图片、自动声称sitemap文件等功能。下一个任务,研究python的socket功能#-*-coding:gbk-*-importurllibimportre#pager=urllib.urlopen(http://www.123.com/index.html)#data=pager.re

6、ad()#pager.close()f=open(r"D:2.txt")data=f.read()f.close()#处理数据p=re.compile('(?<=class=one.).+?(?=

)',re.I

7、re.S)m=p.findall(data)s=""fordataninm:#继续处理数据,取出标题、简介、图片和链接地址p_title=re.compile('(?<=

8、re.S)p_url=re.compile('(?<=href=.).+

9、?(?=")',re.I

10、re.S)p_summar=re.compile('(?<=

11、re.S)p_image=re.compile('/eshop/images/.+?(?=")',re.I

12、re.S)s=s+"标题:"+p_title.search(datan).group()+"r"+"简介:"+p_summar.search(datan).group()+"r"+"图片:"+p_image.search(datan).group()+"r"+"链接地

13、址:"+p_url.search(datan).group()+"r"f=open(r"D:2.txt",'w')f.write(s)f.close()用Python脚本获取实时股市信息2006-12-1513:47IE查看股市信息太过招摇,决定写个Python脚本抓取相关信息,小巧便捷。1.先写段Python脚本抓取股票行情查询页面。这个很简单。发现个股实时行情数据都是写在javascript文件当中。2.提取该javascript文件URL,写Python脚本抓取该文件。读取其内容,做字符串处理,提取股价,涨

14、幅等信息。搞定。3.针对部分需要设置HTTP代理才可访问网络的需求,通过urllib.open('***',proxies='***')设置代理,非常方便。4.通过对javascript文件URL的分析,其文件名形式是"股票代码.js"。建立一个配置文件,提供所关注的股票代码。用Python脚本实现读取配置信息,定时读取所需实时信息。5.定义每日行情格式,以XML形式存储。6.日后可以Python脚本实现读取存储的行情信息生成报表,K线等图形信息。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
相关标签