基于新浪微博的用户信息爬虫及分析

基于新浪微博的用户信息爬虫及分析

ID:13888073

大小:1.51 MB

页数:32页

时间:2018-07-24

基于新浪微博的用户信息爬虫及分析_第1页
基于新浪微博的用户信息爬虫及分析_第2页
基于新浪微博的用户信息爬虫及分析_第3页
基于新浪微博的用户信息爬虫及分析_第4页
基于新浪微博的用户信息爬虫及分析_第5页
资源描述:

《基于新浪微博的用户信息爬虫及分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、目录摘要IAbstractII1引言31.1选题背景与意义31.2系统开发工具31.2.1vs200831.2.2oracle11g31.2.3boost库31.2.4GZIP压缩算法函数库31.2.5JSON格式文件转换函数库42系统需求分析与设计52.1系统需求52.1.1名词说明52.1.2系统功能需求说明52.1.3系统总体功能设计72.2系统数据库构建92.2.1数据库设计92.2.2数据库详细设计93系统详细设计与实现123.1爬虫系统详细设计123.1.1HTTP请求数据包123.1.2HTTP返回数据包133.1.3数据分析与提取133.1.4AnaData类1

2、33.1.5数据入库153.2服务端详细设计163.3客户端详细设计173.3.1登录页面173.3.2注册新用户和忘记密码页面183.3.3用户关注列表查询界面193.3.4微博用户标签分类查询203.3.4发布微博并@列表框中的微博用户昵称203.3.5微博用户昵称模糊搜索213.3.6微博用户微博查询214系统部署与测试224.1系统部署图224.2系统测试225结束语29参考文献30致谢31-31-摘要随着互联网信息技术的发展,在这个信息时代,数据量的增长速度已经远远超过的我们的想象。迅速的对这些数据进行处理,进行信息的提取已经成为目前计算机领域一个巨大的难题。而且无论

3、是政府还是企业,对于大数据的掌握都可以起着至关重要的作用。数据处理技术蕴含的巨大的商业价值必将被慢慢的挖掘出来。本文以新浪微博作为信息载体。对新浪微博的用户信息进行收集和分析,对新浪微博信息数据转化成价值的可行性进行了尝试。设计出了一个可以获取新浪微博信息的数据收集系统,并进行一定的数据分析和数据展示。关键词:C++,新浪微博,数据挖掘-31-AbstractWiththeInternetdevelopmentofinformationtechnology,inthisageofinformation,theamountofdatagrowthhasfarexceededour

4、imagination.Rapidprocessingofthesedata,theextractionofinformationhasbecomeahugeprobleminthecomputerfield.Andwhethergovernmentorcorporate,cangraspforbigdataplaysavitalrole.Thetremendouscommercialvalueofdataprocessingtechnologyisboundtobeslowlyexcavated.Inthispaper,SinaWeiboasaninformationcarr

5、ier.SinaWeibouserinformationcollectionandanalysistheSinamicrobloggingdataintothevalueofthefeasibilityofatry.DesignonecangetthetheSinamicroblogginginformationsystemofdatacollectionanddataanalysisanddatapresentation.Keywords:c++,SinaWeibo,DataMining-31-1引言1.1选题背景与意义随着互联网信息技术的发展,目前的信息增长的速度已经进入了

6、飞速膨胀的阶段。“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’才是第3次浪潮的华彩乐章。”著名未来学家、当今世界最具影响力的社会思想家之一托夫勒在《第三次浪潮》中说过的内容如今已将逐渐成为事实,大数据正在改变这我们的生活。IDC(国际数据公司)在2011年6月的数据统计[1],全球数据量在2011年已达到1.8ZB,在过去5年时间里数据量增加了5倍。1.8ZB是什么样的概念?1ZB等于1万亿GB,1.8ZB也就相当于18亿个1T的硬盘。有效的对这些数据处理,去噪和提取信息,将数据转换成价值的技术已成为目前市场最为广阔的研究课题。例如数据挖掘,分布式计算,机器学习等等

7、新的信息技术的产生,他们目的都是为了能够从这无比巨大的数据中,获取能够用于商业决策和企业管理的信息[2]。新浪微博于2009年正式上线,至2010年11月,新浪召开首届微博开发者大会时披露其微博用户突破5000万。2011年3月,新浪CEO曹国伟在发布财报时介绍称,其微博的注册用户总数已超过1亿。目前,新浪微博用户量已达到5亿。因此,新浪微博的数据具有极大的开发潜力。新浪微博数据平台是一个良好的数据载体。除了足够大的数据量,相比与腾讯QQ空间,百度贴吧等,新浪微博还具有其他一些优点,如:1)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。