基于云计算面向网络舆情的deep web数据抽取关键技术研究

基于云计算面向网络舆情的deep web数据抽取关键技术研究

ID:31360578

大小:110.50 KB

页数:8页

时间:2019-01-09

基于云计算面向网络舆情的deep web数据抽取关键技术研究_第1页
基于云计算面向网络舆情的deep web数据抽取关键技术研究_第2页
基于云计算面向网络舆情的deep web数据抽取关键技术研究_第3页
基于云计算面向网络舆情的deep web数据抽取关键技术研究_第4页
基于云计算面向网络舆情的deep web数据抽取关键技术研究_第5页
资源描述:

《基于云计算面向网络舆情的deep web数据抽取关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于云计算面向网络舆情的DeepWeb数据抽取关键技术研究  摘要:就当前舆情信息数据的海量性和数据源展现的不可预见性,对Html页面进行降噪、子树构建,通过相似度计算和舆情简易本题库的引入完成数据块识别和数据记录集抽取,最后以Hadoop平台为实验环境,对抽取出的算法进行实验,实验表明该算法在舆情数据挖掘中,对抽取规则的自动提取具有一定的参考价值。  关键词:数据抽取;Hadoop;舆情  中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)15-0023-03  Abst

2、ract:Thepublicopinioninformationdatawithmassive,showdatasourcesofunpredictability,articleontheHTMLpagefornoisereduction,subtreeconstruction,andthenthroughthesimilaritycalculation,combinedwithpublicopinionsimpleontologylibrary,therealizationofthedatablo

3、ckidentificationandrecordthedataextract,finallytoHadoopplatformforexperimentalenvironmentandpumpingoutthealgorithmexperiment.Experimentalresultsshowthatthealgorithminthepublicopiniondatamining,automaticextractionofextractionruleshasacertainreferenceval

4、ue.8  Keywords:Dataextraction;Hadoop;publicopinions  1概述  网络舆情是某些社会事件发生后,在互联网的平台上,民众针对其发展和变化过程的不同阶段逐渐产生和发酵的社会态度,并借助于诸如论坛、博客、微博、微信、新闻跟帖等此类便捷的网络媒体进行关注、表达或宣泄。由于网络媒体的自由性和实时性,互联网的便捷性和随意性,网民针对社会过程中的各种问题,越来越多的倾向于借助网络媒体跟帖、转发、投票等方式畅所欲言,淋漓尽致地发表观点,在极短时间造成内凝聚共识,并诱

5、发行动,直接影响社会。[1]同时由于阅历和思想认识水平的局限性,网民们往往会在短时间内难以认识事情背后复杂的社会,并认清其心理动因,从而造成非理性和过于主观的声音占据上风。从目前各领域内的一系列突发事件来分析,人们通过网络媒体进行传播爆发出的舆论能量不容小觑。各级行政机关、企事业部门都越来越重视互联网舆情的监测,各专家学者也从不同方面对舆情进行分析研究,如从政策机制、评估体系策略[2]、用户行为特征、网络舆情传播模式的研究和引导;技术上主要集中在网页抓取、内容分析、语义识别、数据挖掘、主题识别与跟踪

6、等算法的研究等。在这在互联网技术飞速发展,影响力日益巨大的时下,网络已化身为思想文化的集散地和社会舆论的增强器,我们应充分认识以其为载体的新媒体的社会影响力。因此,对于如何快速、准确的发现互联网上潜在舆情信息并对其进行有效监测、监控及正确引导势在必行,本文通过对已有技术和知识进行分析总结的基础上,引入了云计算技术,对以面对与高校相关的网络舆情信息的数据抽取的关键技术进行了研究。8  2研究现状  随着互联网技术的飞速发展,特别是互联网的普及应用,我国的网民数量、网站数量以及网络信息资源的容量以爆炸性

7、的趋势增长。据中国互联网络信息中心2016年1月发布的《第37次中国互联网络发展状况统计报告》[3]显示:网民通过各类移动设备进行网络行为的用户占全体网民总量的90.8%,规模达到了6.06亿,其中手机占移动类网民的91%。同时,以互联网为工具进行新闻获取阅读的用户规模为5.55亿,手机网络新闻用户规模为4.60亿,相较于去年年底将近增长11%。如作为网络环境下对新闻快速传播形成热点话题的微博、微信、来往等App应用借助于手机等无线设备,极大促进了网民对网络舆情的接触度和传播速度,从而使Web成为一

8、个以大数据为基本特征的全球化信息中心。这些在许多领域具有重要价值的海量数据具有多样性、异构性且动态变化等特征,单纯地依赖人工的方法难以及时、迅速地完成海量web信息的收集、web舆情的发现及进一步的跟踪。  针对网络舆情监测迫切需要分析挖掘的这些海量数据,按其信息蕴藏的深度,可分为SurFaceWeb和DeepWeb两大类[4][5]。SurfaceWeb是将各个独立的HTML静态网页通过超链接进行连接,其内容能够为当前的通用搜索引擎直接索引和检索而无需与网络数据库进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。