基于nutch的中文新闻事件自动分类系统研究

基于nutch的中文新闻事件自动分类系统研究

ID:35147714

大小:2.53 MB

页数:58页

时间:2019-03-20

基于nutch的中文新闻事件自动分类系统研究_第1页
基于nutch的中文新闻事件自动分类系统研究_第2页
基于nutch的中文新闻事件自动分类系统研究_第3页
基于nutch的中文新闻事件自动分类系统研究_第4页
基于nutch的中文新闻事件自动分类系统研究_第5页
资源描述:

《基于nutch的中文新闻事件自动分类系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号——UDC题英密级金亚学校代码!Q垒窆Z武滗理歹大署学位论文El基王丛坠!业的主塞堑闻蔓仕自动公娄丕统砑究文至§皇s曼鱼!堡hQ塾£hi卫星墨曼旦曼!里墨曼Y曼壁!垒旦!Q墅堕垒!i堡是亟目垡!垒墨墨!i堡垒!iQ塾§Y墨!曼!塾坠垒§曼鱼Q塾趟堕!堡h研究生姓名熊佳挝指导教师姓名王虚职称塾握学位盟±单位名称笪理堂暄邮编垒圣QQ2Q申请学位级别亟±学科专业名筐堡型堂皇工猩论文提交日期2Q!!生垒且础论文答辩日期迎!奎』A垫学位授予单位武这堡工太堂学位授予日期——答辩委员会主席评阅人塾丛喜红固j2011

2、年5月独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。学位论文使用授权书c徊,f上达本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理

3、工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生c签名,:槲导师c签名,:武汉理工大学硕士学位论文摘要伴随着互联网的蓬勃发展,从异构的、有噪声的海量数据中获取所需要的分类内容,评判互联网热点事件,关注最新的热点事件的动态,不断成为搜索引擎、各类门户及SNS社区吸引用户、制定营销方案等所需要首先解决的问题。谁掌

4、握了确切的信息,谁就先一步掌握了事件发展的方向,在制定营销方案时就会把握时代、用户趋势,在竞争中处于领先的地位。本文正是针对上述需求所撰写的,力图解决分类内容获取、热点事件判定及热点事件获取等几个方面的问题。由于本文所论述的内容是基于准实时互联网信息的,所以本文在论述时还会解决互联网信息噪声的问题。本文所写的基于NUTCH的中文新闻事件自动分类系统研究,主要分为三个部分:(1)背景现状分析。重点介绍当前有关中文文本自动分类的分类方法、热点事件的理论分析现状及系统支撑技术。(2)理论阐述及相关特征分析。首先简

5、单而创新的使用了基于源代码标签规则的网页噪音去除算法清洗和过滤了互联网上的网页得到网页的文本内容,并进一步论述了相关的中文分词、KNN分类理论、极度相关新闻事件文档的判定等铺挚性内容。通过构建新闻事件历史语料库,对历史语料库进行分析获得事件的相应特征g主要有时间发展特征及词特征,并综合使用分词技术、分类理论等建立了评价热点事件的核心指标,根据核心指标建立了一套分析、判定、获取热点事件的流程框架。从而构建出了分类及热点事件获取的两大核心体系。(3)系统设计、实施及实验评价。这一部分集中在第四、五章,重点论述了

6、本文原型系统的架构及系统核心模块类的设计,主要论述了系统中使用的各种开源框架及技术,分析了各层的功能,设计了各层的核心类。第五章主要是对于系统的实施以及通过实验检验系统的有效性。最后本文指明了该系统的改进和发展方向。本文的成果和意义在于建立了EF及EI指标,综合了多种理论方法,如命名实体及KNN自动分类等,并将其运用于热点事件的判定上,通过对自动分类与热点事件发现整合,实现了一个完整的自动分类系统。关键词:自动分类,热点事件,NutchAbstractWiththevigorousdevelopmentof

7、theInternet,requiringri咖classificationcon_tent,evaluatingtheinternethotevents,accessingtothehottesteventscontentandfocuSingonmelatesthotspoteventsdynamicfromtheisomerous,noisemassdatabecomethefirstneededtoberesolevdthingfortllesearchengines,variousportalan

8、dSNScommunityattractingtheusers,formulatingmarketingschemeandetc.InthisiIlfomlationera,whohasmasteredtheexacthotspotinformation,willmasterthedirectionofeventsonⅡlefirststep,thiswillhelptograspthetimesandusert

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。