基于云平台的文本特征选择算法研究

基于云平台的文本特征选择算法研究

ID:35059829

大小:2.97 MB

页数:53页

时间:2019-03-17

基于云平台的文本特征选择算法研究_第1页
基于云平台的文本特征选择算法研究_第2页
基于云平台的文本特征选择算法研究_第3页
基于云平台的文本特征选择算法研究_第4页
基于云平台的文本特征选择算法研究_第5页
资源描述:

《基于云平台的文本特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、*中i計f乂泉CHINAILIANGUNIVERSITYJ硕±学位论文MASTE民DISSERTATION某干云平台的文本特化选择算法研宛eatureSelectionAResearchofTextF_AlgorithmasedonCloudPlatformB作者王军锋导师玉伟副教授学科计算机应巧技术中国计量大学二〇—六年四月、?独创性声明本人声明所呈巧的学位论文是本人在导师指导下进行的研巧工作和取得的研巧成果,除了文中特别加示注和

2、致谢之处外,论文中不包含其他人B经发表或撰写过的研巧成果,也不包含为获得中国计量大举或其化教育机构的一学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贾献均已巧论文中作了明确的说明并表示了谢意。学位论文作者签名:签字曰期:辟(月曰j气学位论文版权使用授权书本学化论文作者完全了解中国计量大学有关保留、使用学位论文的规定。特授权中国计畳大学可料将学位论文的全部或部分巧容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编从供查阅和借閲。同意学校向国家有关部口或

3、机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名;:导师签名巫寺讳气f曰签字曰期月曰签字期或年曰的任C月(t3^[AResearchofTextFeatureSelectionAlgorithmBasedonCloudPlatformByJunfengWangADissertationSubmittedtoChinaJiliangUniversityInpartialfulfillmentoftherequirementForthedegreeofMasterofE

4、ngineeringChinaJiliangUniversityJune,2016中图分类号TP181学校代码10356UDC0048密级公开硕士学位论文MASTERDISSERTATION基于云平台的文本特征选择算法研究AResearchofTextFeatureSelectionAlgorithmBasedonCloudPlatform作者王军锋导师卫伟副教授申请学位工学硕士培养单位中国计量大学学科专业计算机应用技术研究方向云计算和大数据二〇一六年六月致谢在研究生生活即将结束之际,更加珍惜走在校园湖边和林荫道上的时光

5、,回忆种种,从出入学校的懵懂少年到如今离开学校,即将跨入职场,要感谢的人有很多。首先,要感谢我的导师卫伟教授。在我论文方向选题、指导参考文献、修改论文不足,遇到论文研究难点时候,及时给我提供思路。在我生活生,对我的实习工作环境以及人生重大选择上给予我良好的建议,犹如慈父一般。这份感情我将一直铭记于心。同时在完成论文过程,我还要感谢陆慧娟教授,潘巨龙教授,周永霞教授,王康健教授,尤其是陆慧娟教授,她仔细认真负责,我的小论文和大论文,老师都不辞辛苦得给予我方向指点和修改建议,为我论文的发表和过审查起到了关键性的作用。在此,再

6、一次表示衷心的感谢各位老师。感谢13级同学,感谢金培源、刘亚卿、何金彪、任乐乐、叶佳骏、梅支礼、沈圣远、陈星平、王石磊,谢谢这三年中,他们对我的帮助以及给我带来的快乐。最后感谢我的家人,他们支持我的学业,在我人生、学业、工作迷茫时候及时引导我走出困境,是我坚强的后盾和永久的港湾,感谢他们的关爱和包容。、王军锋2016年6月基于云平台的文本特征选择算法研究摘要:近来伴随互联网信息技术和产业链迅猛发展,各行业数据规模均呈现指数级增长,尤其以电商和社交网络为服务内容的企业数据中心。尽管数据量规模巨大,方便基本事务都有迹可循,但

7、数据结构混乱,大规模数据没有合理得被分门归类,导致隐含的价值无法被提取,因而容易陷入面对茫茫数据而无计可施的困境。怎么从庞大文本数据集中获取有价值的信息,已经成为研究人员探索的热点。以机器学习、数据挖掘和自然语言处理为基础的文本分类可以把不规则的数据根据给定的算法分门归类,其作为核心技术,能够从海量文本数据集中获取所需信息。经分析调研,文本分类不同的阶段对最终文本分类的效果有着不同程度的影响,尤其是特征选择环节更是起着决定性的作用,同时特征选择也能够有效一定程度上解决高维稀疏引发的高计算复杂度和低分类精度问题。所以,本文

8、以特征选择展开研究,针对经典文本特征选择算法没有对类内文档特征词频度、类间集中度、类内分散度的综合衡量,提出了基于卡方统计(CHI)和互信息(MI)的改进型组合特征选择算法CHMI,并在公开中文语料库上和经典文本特征选择算法做了对比,验证了CHMI较经典算法在分类效果上有所提高。虽然本文提出的CHMI算法在文本分类效

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。