面向流量测量的海量数据处理系统的设计与实现

面向流量测量的海量数据处理系统的设计与实现

ID:36585710

大小:3.14 MB

页数:63页

时间:2019-05-12

面向流量测量的海量数据处理系统的设计与实现_第1页
面向流量测量的海量数据处理系统的设计与实现_第2页
面向流量测量的海量数据处理系统的设计与实现_第3页
面向流量测量的海量数据处理系统的设计与实现_第4页
面向流量测量的海量数据处理系统的设计与实现_第5页
资源描述:

《面向流量测量的海量数据处理系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP392密级重庆邮电大学硕士学位论文论文题目面向流量测量的海量数据处理系统的设计与实现英文题目DesignandImplementationMassiveDataProcessingSystemOrientedtoNetworkMeasurement硕士研究生鏖主坚指导教师壑国笪耋蠼学科专业通信与信息系统论文提交El期2£fz生皇且12目论文答辩日期兰:生生篁目!Z目论文评阅人答辩委员会主席2012年皇月2]日独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰

2、写过的研究成果,也不包含为获得重麽邮电太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:靡招.垣签字日期:劲『z年占月z7日学位论文版权使用授权书本学位论文作者完全了解重麽整电盔堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权重庞邙皇太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:康格.巨导师签名:签

3、字日期:和拯年占月27日签字日期:趴年17月w侣重庆邮电大学硕士论文摘要随着互联网规模的不断扩大,服务器托管作为互联网产业重要业务正面临日趋激烈的竞争。为提高市场竞争力,四川IDC数据中心计划向其托管网站提供用户行为分析服务,主要包括网站的点击次数、停留时间、流向地域等。该数据中心托管的网站超过千家,对其所有用户提供该服务,对数据的存储与处理提出极高要求,系统必然面临海量数据问题。本文针对流量测量中的海量数据问题,分析研究了当前用于网络流量测量的数据存储系统,根据FastBit使用的WAH压缩算法的特点提出一种基于列基数聚集存储方法,应用于该海量数据处理系统。论文主要工作如下

4、:①系统框架设计在分析数据中心需求的基础上,给出系统的总体结构和各子系统的设计。系统整体分成数据处理子系统和数据存储子系统。②数据处理子系统的详细设计与实现该部分包括三个功能模块:数据清洗模块、数据流聚合模块、访问者地域模块。数据清洗模块完成脏数据的过滤;数据流聚合模块针对一段时间内同一访问者的多条访问记录进行合并操作,有效控制系统总数据规模;访问者地域模块完成访问者D完到访问者所在地域的转换。③数据存储子系统的详细设计与实现该模块包括四个主要模块:数据存储结构设计模块、数据表聚合模块、基数聚集数据存储方法的设计与实现模块和索引优化模块。存储结构设计中设计了详细数据表和汇总数

5、据表两类,分别用于存储用户详细访问状况和概要访问状况:数据表聚合模块通过对查询过程中FastBit所用到的bundle内存结构的使用,完成详细表到聚合表的数据按条件聚合;基数聚集数据存储方法模块中,在对WAH压缩算法进行研究的基础上,提出一种基于基数聚集的数据存储方法,该方法不仅能够有效降低索引存储空间,具有较高的空间效率,而且能够提高数据查询效率;在索引优化模块中采用索引优化理论结合系统实际需要设计适合需要的索引方法。④实际网络环境下的测试与分析给出了系统性能分析,并详细分析了基于基数聚集存储后索引占用存储空间和数据查询效率的对比,由测试结果可知本系统达到设计目标。本文设计

6、实现的系统完成了IDC数据中心海量用户行为数据所需的海量数据存储与处理工作,能够提供每个网站的访问者P、点击、停留时间以及流向等访问信重庆邮电大学硕士论文摘要息。关键词:海量数据、位图索引、FastBit、列式存储II重庆邮电大学硕士论文AbstractWiththeexpandingofIntemetscale,serverhostingasanimportindustyisfacingcompetitionincreasingly.Inordertoimproveitscompetence,theIDCofSiehuanplantoreleaseuserbehaviora

7、nalysisservice,itconsistsofclickcount,visittime,directionandSOon.TheIDCscalehostsmorethan10000websites,providingserviceofthiskindt0alltheseusers,thissystemhasextremedemandindataprocessinganddatastoragethatisthemassivedataproblem.Inordertosolvemassivedata

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。