基于hadoop的报文数据挖掘研究与应用

基于hadoop的报文数据挖掘研究与应用

ID:20591691

大小:2.48 MB

页数:65页

时间:2018-10-14

基于hadoop的报文数据挖掘研究与应用_第1页
基于hadoop的报文数据挖掘研究与应用_第2页
基于hadoop的报文数据挖掘研究与应用_第3页
基于hadoop的报文数据挖掘研究与应用_第4页
基于hadoop的报文数据挖掘研究与应用_第5页
资源描述:

《基于hadoop的报文数据挖掘研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉邮电科学研究院硕士学位论文基于Hadoop的报文数据挖掘研究与应用ResearchandApplicationofMessageDataMiningBasedonHadoop专业:通信与信息系统研究方向:大数据与云计算导师:刘宇研究生:曹佳豪学号:20150001二〇一八年一月武汉邮电科学研究院硕士学位论文独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果,除了文中特别加以标注的地方外,没有任何剽窃、抄袭、造假等违反学术道德、学术规范的行为,也没有侵犯任何其他人或组

2、织的科研成果及专利。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。如有任何侵权行为,本人愿意为此独立承担全部责任。作者签名:签字日期:关于论文使用授权的说明本人完全了解武汉邮电科学研究院(烽火科技集团)有关保留、使用学位论文的规定,本文知识产权归武汉邮电科学研究院所有,武汉邮电科学研究院有权保留送交论文的复印件和电子版本,允许论文被查阅和借阅。同意将本人的学位论文提交中国学术期刊(光盘版)电子杂志社全文出版并收入《中国学位论文全文数据库》。公开保密一年保密两年(注:

3、保密的学位论文在解密后遵守此协议)作者签名:签字日期:导师签名:签字日期:武汉邮电科学研究院硕士学位论文摘要时至今日,中国互联网已形成了巨大的规模,互联网上纷繁复杂的应用为人们带来了极大的便利,同时也在深刻地改变着人们的学习、生活以及工作方式,“大数据时代”已然来临。如今人们日常生活中很多行为都离不开各种各样的应用软件,而应用上发送的数据都是以报文数据为基础,封装成数据包在网络中传输的,因此如何用准确快速地从海量报文数据中挖掘出网络用户的具体的行为信息并对其特征进行提取已经成为一个极具价值的研究课题

4、。为此,本文旨在研究出一种能够在大数据环境下对海量报文数据进行分析和挖掘的系统。系统功能包括:海量报文数据的采集、接入和存储,报文数据预处理和格式化,报文关联挖掘分析,可视化展示。这些功能不仅有助于网络应服务商根据用户的特征推送准确的服务,也能为相关网络监管部门在互联网舆论监控和正确引导中提供一定的助力。本文以Hadoop大数据框架为基础,提出一种改进的关联规则挖掘算法并基于MapReduce进行实现,将其运用于报文数据的分析和挖掘中,实现海量报文的关联规则挖掘,同时基于可视化插件对结果进行直观的展

5、示。本文系统中的数据源是来自运营商设备上采集的网络数据包,由本文系统接入模块进行数据包的初步解析和存储,整个系统的存储都依赖于Hadoop的分布式文件系统HDFS。数据预处理模块负责将接入后的报文数据进行进一步的解析和清洗,将其转换为本文设计的数据类型进行存储。报文挖掘模块实现了HDFS中海量格式化报文数据的关联规则挖掘,最后通过Echarts插件实现关联数据的展示功能。同时本文也在集群规模、数据量、最小支持度三个维度下对改进Apriori算法进行了测试,结果表明该改进能够明显提高海量报文数据的挖掘

6、效率,且随着集群规模的增大,其在大数据量下的处理效率得到显著提升。关键词:报文分析关联规则Hadoop数据挖掘I武汉邮电科学研究院硕士学位论文AbstarctUptonow,ahuge-scaleInternethasformedinChina.ThemultifariousapplicationsontheInternethavebroughtgreatconveniencetopeople,andprofoundlychangedpeople'swayofstudying,livingandwo

7、rking.Today,manybehaviorsindailylifearedependentonvariesofapplications,andthedataissentbytheapplicationintheformofnetmessage,andencapsulatedintopackets.Soithasbecomeavaluablesubjecthowtominethespecificbehaviorinformationofnetworkusersandextracttheirfea

8、turesfromthemassmessagedata.Thisthesisaimstodevelopasystemthatcananalyzeandminemassivemessagedatainbigdataconditions.Thesystemincludesfourfunctions,collecting,andstoraginghugemountofmesssagedata,datapreprocessingandformatting,associatio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。