基于hadoop的文本聚类并行化研究

基于hadoop的文本聚类并行化研究

ID:35057001

大小:4.81 MB

页数:71页

时间:2019-03-17

基于hadoop的文本聚类并行化研究_第1页
基于hadoop的文本聚类并行化研究_第2页
基于hadoop的文本聚类并行化研究_第3页
基于hadoop的文本聚类并行化研究_第4页
基于hadoop的文本聚类并行化研究_第5页
资源描述:

《基于hadoop的文本聚类并行化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、寺办指之乂净:雜Sou化ChinaUniversitofTechnoloygy硕±学位论文V,v'苦乃京奔,其v.,'?:‘.’:..巧.舜品;:帶馬;瓦:/\,?、,〇,?-i‘I’--、’妾;辟巧护達■.一;?、..:i_.基于Hadoop的文本聚类并巧研究?......亡搔詳婚臀:蟲-;晃巧^某丐錯请/与告.遗茲弘r;,1.??''-'?■■'.,1L?,,;%■?C.:.'-.■.山,'.媒縣寶累瑶蕾;;

2、靖裝鑛繫黨霞r''在冉禪畜窜驟寫留巧记麵雞Si.强;靖;..I'.'.、...I户片....-.J1’’門:帝賀巧矿评巧恥....?.一公女點视妒、:试诏,:髮?扣單欄詩乾韓巧■:.巧.巧:子游學请訂......作者姓名崔富明./学位类别通信与信息系统指导教师陆切勤教授所在学院电子与信息学院论文提交日期2016年4月..皆:心卢己y站;'■***-';:I■■0.."..■■.;'■■.ResearchonParalle

3、lizationofTextClusteringBasedonHadoopADissertationSubmittedfortheDegreeofMasterCandidate:CuiFumingSupervisor:Prof.LuYiqinSouthChinaUniversityofTechnologyGuangzhou,China分类号:TP391学校代号:10561学号:201320108722华南理工大学硕士学位论文基于Hadoop的文本聚类并行化研究作者姓名:崔富明指导教师姓名、职称:陆以勤教授申请学位级别:工学硕士学科专业名称:通信与信息系统研究方向:现代通信理论与技术论

4、文提交日期:2016年04月20日论文答辩日期:2016年06月08日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:委员:华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所。取得的研究成果除了文中特别加W标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体。,均已在文中W明确方式标明本人完全意识到本声明的法律后果由本人承担。/立作者签名:曰期年月曰学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,艮P

5、:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部口或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可公布学位论文的全部或部分内容、缩印或其它复制手段保存、汇编学位,可W允许采用影印一论文。本人电子文档的内容和纸质论文的内容相致。本学位论文属于:密。,在年解密后适用本授权书口^保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容

6、。""V(请在W上相应方框内打)^兔巧么作者签名:节曰期:主指导教师签名:^^参日期>。乂.6.(作联者联系电话:系地址(含邮编):摘要文本是互联网上最主要的信息载体之一,其规模随着网络的快速发展变得越来越庞大,快速有效地从海量的文本中获取有价值信息具有重要的现实意义。文本聚类作为一种重要的文本挖掘技术,能自动发现文本中隐藏的深层知识,为文本信息的获取提供了有效方法。但是基于传统串行模式的文本聚类无论是在效率还是在可扩展性上都无法满足大规模文本的处理需求,云计算技术的发展为其提供了有效的解决方法。Hadoop作为目前应用最广泛的分布式云计算平台,能够对大

7、规模数据集进行高效、可靠、可伸缩的分布式处理,它利用HDFS来存储数据,利用MapReduce来对数据进行并行化处理。Hadoop使得用户可以在普通的计算机上搭建起性价比很高的计算集群,同时使得并行程序的设计相比传统的并行程序更简单且具有良好的可扩展性。为了提高文本聚类处理大规模文本数据的能力,本文将其与Hadoop云计算平台结合,实现了分布式的并行文本聚类。本文分析和研究了文本聚类及Hadoop云计算平台的相关技术,根据文本聚类的流程及特点,从文本预处理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。