基于MapReduce的全文索引模块的设计与实现.pdf

基于MapReduce的全文索引模块的设计与实现.pdf

ID:52406208

大小:2.33 MB

页数:65页

时间:2020-03-27

基于MapReduce的全文索引模块的设计与实现.pdf_第1页
基于MapReduce的全文索引模块的设计与实现.pdf_第2页
基于MapReduce的全文索引模块的设计与实现.pdf_第3页
基于MapReduce的全文索引模块的设计与实现.pdf_第4页
基于MapReduce的全文索引模块的设计与实现.pdf_第5页
资源描述:

《基于MapReduce的全文索引模块的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ADissertationSubmittedtoZhejiangUniVersityfortheDegreeofMasterofEngineering’一,’_,⑧TITLE:.Ih曼旦叟墨ig堕堑亟兰堡p曼星堕星逊丛重Q垒Author:Supervisor:Subject:College:SubmittedDate:E业2l墨圭,2Q!l浙江大学硕士学位论文摘要随着111.咖与数字化趋势的高速发展,用户或者数字化系统产生的计算机数据呈现爆炸式的增长。同时,随着Wreb技术的高速发展,计算机也正在从传统的单机服务方式转向Wreb方式的集中式服务。另一个显著发展的趋势是

2、,在我们的生活中,非结构化数据正变得越来越多而且越来越重要。在这些发展趋势下,对于海量非结构化数据的集中式高效处理与管理就成为了一个非常迫切的需求。MapReduce是Google提出来的一个编程模型,是一个分布式计算框架,被用来处理和生成大数据集。MapReduce程序在计算机集群环境下并行地执行任务,有着极高的可扩展性。并且为开发人员隐藏了分布式系统底层的细节,使得分布式计算程序的开发变得简单高效。’●.,,f,本文结合当下流行的Ma_pReduce分布式计算框架实现了对海量非结构化数据进行解析,信息抽取,及建立全文索引的这一功能模块。使得全文索引模块能够充分利用

3、计算机集群的处理能力来高效的处理海量非结构化数据。除此之外,本文还完成了对MapReduce程序模块进行深入的性能测试与性能调优。使模块的性能得到了极大的提高,并且总结了一些在特定条件下的调优策略。最后本文利用实现的全文索引模块构建了其上层的应用一一“浙大文库",来展示基于Map舭duce的全文索引模块对上层应用开发的强大支持能力。关键词:非结构化数据,MapReduCe,信息抽取,全文索引,性能调优浙江大学硕士学位论文Ab刚ractAbstractW.mme瑚lpiddevelopmemofi11_temetanddigitalizalion,computerda妇

4、producedbyuserS强ddigitalsystenlSSllowedanexplosiVe掣啪仃end.Intlleme删me,、析mme卿iddeVelopmentofwebtecllll0109ies,t11ewayhowSoRwareservicesareproVidedis仃跚lSf0衄[1i119丘om缸aditionalstalld—alonemodeltocem试ized加-odel.Anothersignific锄t仃endismatun蛐rIl舭dda:tais铲owiIlgrapimyaIldbecomiIlgmoreinlpo比m1Il

5、yiIl011rdaLilylives.Und盯nlese臼ends,emciemlyprocessingarld嘲ingn粥sive咖ctured纰iIlcen缸面ized、)~raybecoInes锄u玛emneed.M印Reduceisapr0蓼锄姗IiIlgmodelproposedby(如ogle,谳Chisllsedf.0rprocessiI培andgeneratingla玛eda:tasets.Pr0粤锄nswmeninthis氕mctionals够leareamomaticallyparallelizedandexecutedonalargeclust

6、erofcommod毋maclliIlesandarelli础yscalable.M印Reduce11idesmec伽叩lex毋ofdi嘶butedcomput迦锄dmal汜sdeVelopingdistributedpro铲amseasilyallde伍ciently.Intllispaper,nlemodllleofusiI冯也epopmarMapReduce胁e、Vo·rkt0accomplishmaSsiveuns佃JctureddataparsiI培,illf.0rmatione舭tionand旬11一te赋iIldexbllildiIlghaSbccnb试

7、n.nlism0Mecollld伽yutilize恤processingc印ac时ofmecomputercluster.Besidesthis,thoroughperfIomancetestil培andperf0衄ancettlllillgfortllemodlllehausalsobeendone.ARernliswor!k,恤perf.0加:l跚lceofmemoduleh船beeniI】:lproVed订emeIldously.Theperfo如[1ancetuIljhgstrategyunderccrtainconditionsh船also

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。