基于主题模型多文档自动文摘方法研究

基于主题模型多文档自动文摘方法研究

ID:33347705

大小:6.98 MB

页数:68页

时间:2019-02-25

基于主题模型多文档自动文摘方法研究_第1页
基于主题模型多文档自动文摘方法研究_第2页
基于主题模型多文档自动文摘方法研究_第3页
基于主题模型多文档自动文摘方法研究_第4页
基于主题模型多文档自动文摘方法研究_第5页
资源描述:

《基于主题模型多文档自动文摘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ResearchontheMethodofMulti.documentSummarizationBasedonTopicModelAthesisSubmittedtoDalianMaritimeUniversityInpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineeringbyLiQingfeng(ComputerScienceandTechnology)ThesisSupervisor:ProfessorLuMingyuJune2013大连海事大学学位论文原创性声明和使用授权说明

2、原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成博/硕士学位论文==基王圭壁搓型煎墨塞挡自动塞煎友选盟塑:。除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人

3、授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全文数据库》(中国学术期刊(光盘版)电子杂志社)、《中国学位论文全文数据库》(中国科学技术信息研究所)等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:保密口在年解密后适用本授权书。不保密∥(请在以上方框内打“√”)论文作者签名:槲导师签名:么々方日期:西l弓年彩月中文摘要摘要目前,互联网正处于高速发展的时期,各个领域都出现了信息爆炸的情况,

4、电子文本逐渐取代了传统的纯手工式的文本,并且越来越多的信息都以电子信息的形式存放在互联网上,互联网成为人们获取信息的重要渠道。同时,互联网上充斥着大量的冗余信息,人们面临着如何快速、准确地从海量信息中找到有用信息,以及如何快速阅读涌现的新信息的问题。自动文摘技术是解决这一问题的一个很好的工具。所谓的自动文摘就是利用机器自动地从原始文档或文档集合中提取摘要。多文档自动文摘是将同一主题下的多个文档所描述的主要信息,按一定的压缩比,提炼为一个简单文本的自然语言处理技术。本文研究的是基于主题模型的抽取式多文档自动文摘方法,因此文摘句的选取起到了至关重要的作用,选取出的

5、文摘句要尽量覆盖文章内容同时满足冗余度较少,如何依据这两个要求对文摘句进行恰当排序是极为重要的。本文提出了排序主题模型的思想,通过主题排序和融入文档结构信息来对文摘句排序。本文具体工作主要包括:(1)主题排序与文摘句排序。采用关联主题模型CTM对文档集合建模,提出TopicRank算法对主题进行排序,提出的CorrSum算法通过有序的主题对文摘句进行排序,指导文摘句的抽取。在DUC2002上的实验结果证明了CorrSum算法的有效性。(2)加入文档结构信息对文摘句进行排序。本文研究了文档的两种基本结构,一,标题.正文结构。提出Titled.LDA算法对文摘句进

6、行排序。二,段落结构。本文采用段落主题模型STM来发现每一篇文档以及其中段落的隐藏主题结构,提出的StmSum算法对文摘句进行排序。在DUC2002上的实验结果证明了算法的有效性。(31针对大学英语四六级考试的阅读理解,提出了一种新的自动文摘的评价方法。关键词:多文档自动文摘;主题模型;主题排序;文摘句排序;文档结构英文摘要ABSTRACTCurrently,theIntemetisinaperiodofrapiddevelopment,informationexplosionisseenineveryfield,electronictextgradually

7、replacesthetraditionalhand-styletext,andmoreandmoreinformationisstoredintheformofelectronicinformationontheInternet.Thus,InternethasbecomeanimportantchannelforpeopletoobtaininformationMeanwhile,Internetisfloodedwithalotofredundantinformation,peoplearefacedwithhowtoquicklyandaccurate

8、lyfindusefulinforma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。