基于众包的社交网络数据采集模型设计与实现.pdf

基于众包的社交网络数据采集模型设计与实现.pdf

ID:55399902

大小:384.09 KB

页数:5页

时间:2020-05-15

基于众包的社交网络数据采集模型设计与实现.pdf_第1页
基于众包的社交网络数据采集模型设计与实现.pdf_第2页
基于众包的社交网络数据采集模型设计与实现.pdf_第3页
基于众包的社交网络数据采集模型设计与实现.pdf_第4页
基于众包的社交网络数据采集模型设计与实现.pdf_第5页
资源描述:

《基于众包的社交网络数据采集模型设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第41卷第4期计算机工程20l5年4月VO1.41NO.4ComputerEngineeringApril2015·先进计算与数据处理·文章编号:1000.3428(2015)04.0036.05文献标识码:A中图分类号:TP311基于众包的社交网络数据采集模型设计与实现高梦超一,胡庆宝,程耀东,周旭,李海波,杜然(1.四JII大学计算机学院,成都610065;2.中国科学院高能物理研究所汁算中心,北京100049;3.中国科学院声学研究所,北京100190)摘要:社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜

2、索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题DeepWeb爬虫系统4个模块。通过主题DeepWeb爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题DeepWeb爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。关键词:社交网络;众包模式;分布式计算;信息采集;Web爬虫;Hadoop分布式文件系统中文引用

3、格式:高梦超,胡庆宝,程耀东,等.基于众包的社交网络数据采集模型设计与实现[J].计算机工程,20l5,41(4):36-40.英文弓I用格式:GaoMengchao,HuQingbao,ChengYaodong,eta1.DesignandImplementationofCrowdsourcing—basedSocialNetworkDataCollectionModel[J].ComputerEngineering,2015,41(4):36—40.DesignandImplementationofCrowdsourcing—basedSocialNetw

4、orkDataCollectionModelGAOMengchao一,HUQingbao,CHENGYaodong。,ZHOUXu,LIHaibo,DURan(1.CollegeofComputerScience,SichuanUniversity,Chengdu610065,China;2.ComputingCenter,InstituteofHighEnergyPhyscics,ChineseAcademyofSciences,Beijing100049,China3.InstituteofAcoustics,ChineseAcademyofScience

5、s,Beijing100190,China)【Abstract】Socialnetworkdatahasthefeaturesofinformativeandstrongtopicalitywithsignificantvaluefordatamining,anditisalsoaveryimportantpartoftheInternetbigdata.However,traditionalsearchenginescannotusethekeywordsretrievetechnologytoindextheinformationofsocialnetwo

6、rkplatformdirectly,andundersuchcircumstances,thispaperdesignsandimplementsadatacollectionmodelbasedoncrowdsourcingmodeandC/Sarchitecture.Themodelconsistsoffourmodulesincludingserver,client,storagesub—systemandaDeepWebcrawlersystem.ThenodesrunthetopicDeepWebcrawlersystemtorequestnewt

7、asksautomaticallyanduploadtheacquireddata,meanwhilethesystemusestheHadoopDistributedFileSystem(HDFS)toprocessdatarapidlyandstoreresults.ThetopicDeepWebcrawlersystemhasthefeaturesofeasyconfiguration,flexiblescalabilityanddirectdatacollection,anditalsoprovesthatdatacollectionmodelisab

8、letofulfillthetasks

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。