社交网络挖掘方案研究.pdf

社交网络挖掘方案研究.pdf

ID:55404878

大小:468.26 KB

页数:6页

时间:2020-05-15

社交网络挖掘方案研究.pdf_第1页
社交网络挖掘方案研究.pdf_第2页
社交网络挖掘方案研究.pdf_第3页
社交网络挖掘方案研究.pdf_第4页
社交网络挖掘方案研究.pdf_第5页
资源描述:

《社交网络挖掘方案研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2015年2月15日现代电子技术Feb.2015第38卷第4期ModemElectronicsTechniqueV01.38No.4社交网络挖掘方案研究俞忻峰(南京理工大学,江苏南京210014)摘要:随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳;基于网路爬虫方式抓取的速度比较慢,但是稳定性和数据完整性较好。最后提出通

2、过采用两种方式相结合的方式,能够进一步提高抓取效率。关键词:新浪微博;数据挖掘;AndroidSDK;新浪API;网络爬虫;信息采集中图分类号:TN911-34;TP3l1.5文献标识码:A文章编号:1004—373X(2015)04.0025.05DataminingschemeofsocialnetworksYUXin—feng(NanjingUniverBityofSciertceandTechno[ogy,Nanjing2t00i4,China)Abstract:Withthepopularityofsocialnetworks

3、,dataacquisitionofsocialnetworksbecomesanurgentproblem.TwomethodsbasedonAPIandwebcrawlerareproposedforthedataacquisitionofsocialnetworksites.Inacontrasttest,thetwomethodswerearrangedtograbthemicrobloginaspecifictime.TheresultsshowthattheacquisitionbasedonAPIisquickbutdat

4、aincomp

5、etenessandgrabbinginstabilityarenotgoodenough,theacquisitionbasedonwebcrawlerisslowbutdataincom—pletenessandgrabbinginstabilityarebetter.Aschemecombiningtwomethodsisputforwardtofurtherimprovetheefficiencyofdataacquisition.Keywords:Sinamicroblog;datamining;Android

6、;SDK;SinaAPI;webcrawler;informationacquisition根据中国互联网络信息中心(CNNIC)发布了第33次(2)黄延炜等人研究的利用网络数据采集设备直《中国互联网络发展状况统计报告》指出:社交网站的整体接截取微博在网络中的传输数据p1,这种方法和网络爬覆盖率为61.7%,中国互联网用户总数已经达到6.18亿,虫相似,效率不高,对数据的提取过程十分复杂。互联网的渗透率已经达到67.8%。其中微博等社交网络本文主要立足于如何获取新浪微博上的数据展开的使用规模为2.81亿,网中微博的使用率l为45.5%。

7、研究:采取两种方法来获取新浪微博上的数据。第一种社交网络的使用率越来越高,微博等社交应用在越方法是基于微博第三方应用接口的(API),对接口编程来越流行。微博相比传统网络的应用形式而言,微博的获取数据。第二种方式是采用网络爬虫的方式,基于信息传播速度更快,覆盖人群大,更新更加频繁。因此,NodeJS实现的网络爬虫。最后比较两种方式采取数据如何有效的采集微博应用中的各种信息,对于分析数据的优缺点,进一步优化微博的采集方法,提出两种方法的隐性特征,研究用户的偏好,用户的个性化推荐以及相融合的方法。趋势的预测具有非常重要的意义。1基于新浪AP

8、I的方案传统的微博类数据挖掘方法有两种:(1)通过网络爬虫抓取信息,比如周立柱等人提出对于获取社交网站数据,可以通过第三方应用平台网络爬虫方案,但爬虫的效率不是很高,抓取的数据量接口(API)来获取社交网站上的数据。在使用微博官方比较少,同时必须绕过新浪微博的模拟登陆,才能有效API之前,必须要接入微博应用,成为微博的开发者,在创建完应用之后,系统会返回给一个AppKey和AppSe.采集新浪微博的数据。cret。AppKey是应用的惟一识别标志,微博开放平台通过AppKey鉴别应用的身份。AppSecret是给应用收稿日期:2014.

9、08—15基金项目:国家社会科学基金项目(13BTQ046)分配的密钥,保证应用来源的可靠性。26现代电子技术2015年第38卷l-lOauth2认证者并不需要知道授权的机制。在实验方案中,并没有使调用新浪

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。