基于浅层语义分析的文本摘要方法研究与实现

基于浅层语义分析的文本摘要方法研究与实现

ID:35067038

大小:6.37 MB

页数:88页

时间:2019-03-17

上传者:U-56225
基于浅层语义分析的文本摘要方法研究与实现_第1页
基于浅层语义分析的文本摘要方法研究与实现_第2页
基于浅层语义分析的文本摘要方法研究与实现_第3页
基于浅层语义分析的文本摘要方法研究与实现_第4页
基于浅层语义分析的文本摘要方法研究与实现_第5页
资源描述:

《基于浅层语义分析的文本摘要方法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

4击糾成*葦UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕:t学位沦文MASTERTHESIS尸.凉聲.尤/._如歧/u?^7.^漏\\讀谋.■■-■>:::::;:::;,:..,论文题目基于浅层语义分析的支本摘要方法妍究与实现…―—'……—…— ̄ ̄^学科专业计算机软件与理论——….■—.一"^^201321060238.巧;学号.化者姓名李宝程、指导敷师刘贵松副教授'?.......V苗'■■?:'o...c;.■<:/'1?;Vr:?排聽議議議議 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果,。据我所知除了文中特别加W标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我同王作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:殊雖日期:占年月么P日^Xw6论文使用授权了大有关保留、使用学位论文本学位论文作者完全解电子科技学和磁盘,,有权保口构送交论文的复印件的规定留并向国家有关部或机1^全^将的论文被查阅和借阅。本人授权电子科技大学可学位论文允许入有关数据,、缩描或部分库进索可臥采用影印印或扫部内容编行检等复制手段保存、汇编学位论文。此)(保密的学位论文在解密后应遵守规定.玄/;;导师签名作者签名释f《:日年^日期月巧? 分类号密级注1UDC学位论文基于浅层语义分析的文本摘要方法研究与实现李宝程指导教师刘贵松副教授电子科技大学成都申请学位级别硕士学科专业计算机软件与理论提交论文日期2016.03论文答辩日期2016.05学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。 RESEARCHANDIMPLEMENTATIONOFAUTOMATICTEXTSUMMARIZATIONBASEDONSLIGHTSEMANTICAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerAppliedTechnologyAuthor:LiBaoChengAdvisor:AssociateProfessorLiuGuiSongSchool:SchoolofComputerScience&Engineering 摘要摘要当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,非结构化资源的比例呈现增长趋势,所涉及的处理技术相比结构化数据而言具备更大的难度。其中,文本类型信息具有典型的非结构化特征,对其进行有效分析和处理在互联网以及诸多行业中具有十分重要的理论价值和实践意义。文本摘要是文本信息处理中的一个非常重要的组成部分。在实现方法上,本文使用的浅层语义特征区别于常用的词语特征,研究的重点不再是可以观察到的构成文章的词语、句子等基本信息,而是隐藏在这些句子、词语背后,更深层次的语义信息,称之为主题特征。通过对文章主题特征的挖掘与分析,可以进一步得到主题-词语的关联,主题-句子的关联。基于这种关联关系衡量句子或者词语表达文章主题的能力,从而选择出能够完整表达文章主题的句子作为文本摘要。本文在详细阐述国内外研究现状的基础上,首先基于主题对句子关联度计算进行了针对性研究,提出一种新的衡量句子与句子相关性的方法,在语义层面,充分利用主题对文章的表达能力,基于主题在句子上的概率分布,使用相对熵来计算两个句子上主题概率分布的差异性来确定句子相关度,同时将文本归结为三类内容,作为摘要提取的依据,并在NLPCC2015数据集上进行了实验验证。同时,论文基于主题和图模型改进了文本摘要算法。通过LDA模型挖掘出文本语义层面的主题特征,分析文本中词语和主题的对应关系,基于改进的图模型进行文本摘要,改进其以往的建边方式,使用主题关联来确定不同节点之间是否建边。并在DUC数据集上实验验证,其ROUGE分数在比较的几种算法中得分最高。最后,在文本摘要关键技术基础上搭建了一个文本摘要功能演示系统。基于Struts2、Hibernate框架,结合sitemesh、JQuery、CSS、JSP、HTML等技术,可以通过在输入框中输入文本或者提交文档的方式实时得到文本摘要的分析结果。本文所研究内容已经在实际项目中得到工程应用和验证,在自然语言处理平台中发挥了重要作用。关键字:文本摘要,主题模型,图模型,浅层语义,演示系统I ABSTRACTABSTRACTAtpresent,therapidpopularizationoftheInternetmakesresourcesexplosivelygrowth.Ontheonehand,richinformationresourcesbringgreatconvenience;ontheotherhand,italsomakespeopledifficulttoselectsuitableresources.Fromtheviewofnetworkinformationresources,theproportionofunstructuredresourcehasbeengrowingrapidly;andtheprocessingmethodismoredifficultcomparedwithdealingstructureddata.Thetextisthetypicalunstructureddata,itseffectiveanalysisandprocessingtheoryhaspracticalsignificancefortheInternetandindustry.Textsummarizationtechnologyisaveryimportantpartofthetextprocessing.Fromtheviewoftechnical,themeansbasedonslightsemanticfeaturesdifferentfromthemeansbasedonwordfeatures.Thefocusofthestudyisnotthebasicinformationthatcanbeobservedinthecompositionofthearticle,suchasthewords,sentences,butthedeepersemanticinformationbehindthewords.Byminingtopicfeatures,wecangetthetopic-wordfeatureandtopic-sentencefeatures.Basedontherelationshipbetweensentencestomeasuretheabilitytoexpressthetopicofthearticle,andthenchoosethesentenceasatextsummarization.Basedontheresearchstatusofdomesticandforeign,ourthesissuppliedanewmethodofmeasuringthecorrelationbetweensentences.Atthesemanticlevel,makefulluseofthetopicfeaturestoexpressarticle.Usingtherelativeentropytomeasurethedifferenceoftheprobabilitydistribution,andthenconfirmthecorrelationbetweendifferentsentences.Thetextalsocanbesummedupasthreetypesofcontent,asthebasistheorytoextractsummarization,andtheexperimentalverificationswereimplementedontheNLPCC2015dataset.Thisthesisimprovesthealgorithmoftextsummarizationbasedontopicmodelandgraphmodel.ByusingLDAmodelminingthethematicfeaturesonthesemanticlevel,analyzingtherelationshipamongwordsandtopics,andthenusingimprovedgraphmethodtosummarythetext.ThetheorieswereverifiedonDUCdatasetbycomparingROUGEscore.Finally,basedonthecoretechnologyofthetextsummarization,thedemonstrationsystemisbuiltwhichusingStruts2,Hibernate,sitemesh,JQuery,CSS,II ABSTRACTJSP,HTMLtechnique.Userscangetthetextsummarizationbyinputthetextcontent.Theresearchcontentofthisthesishasbeenappliedandverifiedintheactualproject,playedtheimportantroleintheNaturalLanguageProcessingplatform.Keywords:textsummarization,topicmodel,graphicalmodel,slightsemantics,demonstrationsystemIII 目录目录第一章绪论..........................................................................................................11.1课题背景及意义.......................................................................................11.2文本摘要研究现状...................................................................................31.2.1技术分类........................................................................................31.2.2国外研究现状................................................................................41.2.3国内研究现状................................................................................81.3本文的主要工作.......................................................................................91.4论文结构.................................................................................................10第二章相关技术基础.........................................................................................112.1文本摘要及主题模型..............................................................................112.1.1文本摘要.......................................................................................112.1.2主题模型......................................................................................122.2文本摘要通用框架.................................................................................142.3LDA模型.................................................................................................172.3.1模型表示......................................................................................172.3.2模型求解......................................................................................192.3.3主题数目的确定..........................................................................222.4基于LDA模型的文本摘要框架...........................................................232.5本章小结.................................................................................................23第三章基于主题的句子关联度计算研究........................................................243.1主题在句子上的概率分布.....................................................................243.2句子相似度计算方法的改进.................................................................263.2.1相对熵的定义..............................................................................263.2.2相对熵在距离度量上的应用......................................................273.3候选文摘句选择.....................................................................................283.3.1总论点候选句的选择..................................................................293.3.2分论点候选句的选择..................................................................303.4实验结果及分析.....................................................................................313.4.1实验目的......................................................................................313.4.2数据集及评价方法......................................................................32IV 目录3.4.3实验结果......................................................................................323.5本章小结.................................................................................................36第四章基于主题和图模型改进的文本摘要算法............................................384.1引言.........................................................................................................384.2TextRank算法流程..................................................................................384.3TextRank算法缺陷..................................................................................414.3.1边关系的确立..............................................................................414.3.2边权值的计算。..........................................................................424.4改进的图模型摘要算法.........................................................................434.4.1重新定义边关系..........................................................................434.4.2边权值计算方法..........................................................................434.4.3句子初始权值计算......................................................................444.5改进的摘要方法描述.............................................................................444.6实验结果分析.........................................................................................464.6.1实验数据集介绍..........................................................................464.6.2评测指标......................................................................................474.6.3实验及结果分析..........................................................................484.7本章小结.................................................................................................51第五章算法与系统原型实现............................................................................525.1摘要算法的总体架构.............................................................................525.2预处理及统计学特征提取.....................................................................525.3文本表示.................................................................................................575.4摘要生成.................................................................................................635.5系统原型实现.........................................................................................645.6本章小结.................................................................................................68第六章总结与展望............................................................................................706.1总结.........................................................................................................706.2展望.........................................................................................................71致谢......................................................................................................................72参考文献................................................................................................................73攻硕期间取得的研究成果....................................................................................78V 第一章绪论第一章绪论1.1课题背景及意义随着计算机技术的发展及互联网的繁荣,信息的产生及传播方式发生了极大的变化。在以纸张(报刊、杂志、书籍等)作为主要传播媒介的时代,信息通常由少数固定的人群编辑,再由纸质媒介通过运输送达读者手中完成信息的传播,这种时代信息产生数量小而且传播速度慢,也就有了“惜字如金”的感觉。而到了互联网时代,人人都是编辑,处处都有网络,互联网上每天产生的数据达到了的恐怖数量是以前纸质媒介时代远不能及的。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,非结构化资源的比例呈现增长趋势,所涉及的处理技术相比结构化数据而言具备更大的难度。其中,文本类型信息具有典型的非结构化特征,对其进行有效分析和处理在互联网以及诸多行业中具有十分重要的理论价值和实践意义。原文信息摘要提取文摘语句文本摘要用户需求信息选取摘要表示图1-1文本摘要处理过程互联网信息的过载,甚至让我们怀念起“惜字如金”时代阅读时的简洁明快言简意赅,解决信息过载与人们快速阅读之间的矛盾显得十分必要。怎样跨过连接信息资源与用户需求的鸿沟,将有效信息快速送达用户成为一个有意义的课题。受限于当前计算机技术以及人工智能的发展,还不能准确定位用户需求,做到心领神会的将用户需要的信息准确分析并传达给用户,只能借助于一个工具将繁杂的信息进行整理筛选,尽量选择符合用户需求的内容,帮助用户定位到自己想要的内容。如图1-1所示,没有经过处理的原文冗余信息过多,阅读时间很长,首先经过摘要算法选择文章中能概括主题的句子,形成文摘语句,再将这些句子整理成通顺的段落形成最终的摘要传递给用户。文本摘要算法的实现完成了原文信息的冗余到用户需求的言简意赅,为用户准确快速找到需要的文章提供可能。1 电子科技大学硕士学位论文自动文本摘要技术是使用计算机对文章分析处理,在没有人为干预的情况下,提取文章的摘要内容,摘要必须能够准确地表达文章中心思想,同时要求语句连[1]贯符合语法习惯而且篇幅较短。Radev将文本摘要定义为:从一篇或者多篇文章中提取的能够全面概括文章基本思想的一小段文本,而且该段文本的字数要比[2]原始文章少得多。可以看出文本摘要的两个核心要求就是更小篇幅概括主题。面对Internet上基数庞大而且不断增长的文本资源,人们通常选择使用搜索引擎来获得所需要的信息,搜索引擎如何从庞大互联网资源中检索到合适的网页内容,用户如何从返回的几千条结果中选择想要的网页,都可以借助文本摘要技术得到很大的改进。搜索引擎的原理是将互联网上的所有资源按照文章为一个单位,首先对文章所有内容进行分词,然后建立一个词语与文章的对应表,在有检索任务时,将检索语句分词,在词语-文章对应表中找到所有文章,包含所有检索词的文章即为目的文章返回给用户,但是很多情况下,一篇文章虽然包含某些词语但是文章并不是以该词语为表达主题,从而造成误判,将主题表达不强的文章当作结果分会给了用户,如果在建立词语-文章索引表的时候就引入文本摘要技术,提取文章的摘要作为待建索引对象,将文章中不是表达主题的语句摒弃,从而建立更加高效准确的索引表。同时,用户得到的索引结果数量可能数千甚至上万条,用户如何从中选择自己需要的几条结果也可以借助于文本摘要技术进行改进,在不需要查看文章全部内容的情况下,只去查看文章的摘要内容去判断是否为需要的文章,这样对搜索引擎选择结果以及用户选择结果的两个过程都有极大的改进,将文本摘要技术引入搜索引擎的改进也是一个趋势。文本摘要技术的优点不仅仅表现在减少选择时间上,文本摘要的另一个特点,减少篇幅,也有极大应用。随着Android系统以及IOS系统的发展,智能机已经成为了现在很多人阅读的主要工具,相比于笔记本或者台式机的大屏幕,智能机的可显示区域显得非常小,通常一篇几千字的文章需要滑动屏幕多次才能看完,当滑动多次之后浏览完整篇文章之后才发现不是我们需要的,这无疑是一种浪费。借助于文本摘要技术,提取文章的摘要,将几千字文章浓缩的几句,而且包含文章表达的主要内容,在人们时间和注意力被严重碎片化的当代,为用户判断是否继续阅读提供一个快速判断,极大节省屏幕资源与用户时间。不仅如此,文本摘要技术对舆情监督也会有极大益处,舆情系统监控到互联网上的一些不和谐文章之后,通常需要再经过人为判断再进行后续处理,大量文本的阅读对工作人员而言是一个巨大的工作量,通过文本摘要技术的改进,将表达相近主题的文章聚类,在判断一个类别下的一篇文章之后,该类别其他文章自动归到相同类别下,这样可以极大提高工作效率,而且减少工作人员因个人判断2 第一章绪论而造成的误判。1.2文本摘要研究现状2015年3月,Yahoo和Google先后以3000万美元左右的价格收购了相互竞争的新闻摘要App公司Summly和Wavii,更使文本摘要成为热门技术。如何从数量庞大的文本集合中分析产生高质量的摘要,成为了不仅只是实验室的课题,而是互联网公司角力的重要技术手段。文本摘要技术的研究可以追溯到上个世纪,相关学者结合当时技术发展水平,进行着不同方式的研究与探索,也不断取得了一个又一个进步。1.2.1技术分类文本摘要技术在不同应用场景、不同应用目的、不同实现方式上可以有多个不同的分类。通常,有如下几种分类:(1)摘要句子的来源;(2)处理的文档数量;(3)有无用户查询;(4)实现算法的不同。根据摘要句子的来源,可以分为抽取式和合成式。抽取式文摘:摘要的句子全部来自原始文档,按照摘要大小选择一定比例的句子来代表文章。一般方法是按照某个算法给每篇文章中的每个句子计算权重,然后将句子按照权重大小从高到低进行排序,根据摘要大小的要求去选择权重较大的句子作为文档的摘要内容;合成式文摘:区别于抽取式文摘的句子都是来源于文章,合成式文摘需要将文中的句子根据所表达的主题改写,模仿人们的归纳习惯,依据文章表达的中心思想选择主题,生成可读的句子作为文章的摘要;受限于自然语言分析技术的发展,目前大多数生产应用环境下使用的都是抽取式,合成式作为一种理想型的文摘方式,实现难度极大,只有部分研究型场景下使用。[3,4]根据处理文档数量,可以分为单文档摘要和多文档摘要,两者的主要区别在于所需分析文本的数量不同。多文档摘要指的是对表达某一类主题的若干篇文章,通过选择中心句来表达多篇文档的中心思想;而单文档只对一篇文章进行摘要选择。多文档摘要方式的难度相对较高,与单文档摘要方式相比,需要考虑更多。比如,句子顺序的问题,单文档方式在生成摘要时,摘要句子的顺序与文章中出现的顺序相同,而在多文档中摘要句子的来源可能不是一篇文章,所以如何确定摘要句子的先后顺序需要考虑更多的因素,直接关系到文摘的可读性。指代消解问题:单文档摘要和多文档摘要中都需要考虑的一个问题,相对而言,多文档的代词比较容易混淆,很可能将一篇文章中的指示代词错误地替换成另外一篇文章的实体词,多文档摘要的指代消除问题更为困难;冗余度问题:单文档摘要3 电子科技大学硕士学位论文和多文档摘要都需要解决的问题,通常文本摘要的候选句的内容相似度很高,如何降低冗余信息是一个研究重点;压缩率问题:压缩率可以通过用户人为指定,也可以按照文章篇幅根据一定的比例确定摘要的大小。根据文本摘要生成过程中,使用算法的不同,可以分为一下几类:统计学方法摘要,机器学习方法摘要,图模型方法摘要,主题模型方法摘要。[5]根据是否有用户查询,可以分为查询相关和查询无关。查询相关的摘要方法相比与查询无关摘要方法,用户需要输入检索句,查询相关方法选择的文摘不仅能够概括文章思想,而且能够匹配检索句,在检索句与文章主题之间达到一种平衡。查询相关的摘要技术可以应用到搜索引擎中,这样用户检索到的内容不再是包含更多冗余信息的原始文档,而是精炼的文章摘要。1.2.2国外研究现状20世纪50年代,统计学的兴起促使了文本摘要技术的萌芽,统计学的方法仅仅局限于文章的表层特征。比如依据句子在段落中的位置(第一句或者最后一句),段落在文章中的位置(第一段或者最后一段),词频与逆文本词频的大小,句子与标题的相似度等特征评估句子的重要性。Luhn于1985年发表的一篇论文[6]中认为,出现次数多的词语与文章表达主题的关系相对比较密切,因此可以根据在文章中出现的次数计算词语权重,基于词语权重得到句子权重,选择权重较大的句子作为文章的摘要。该思路也成为了后来文本摘要技术发展的一个基石,虽然原理看似简单,但实现结果却有很高的准确率,甚至超过后来很多更复杂的[7]算法。后来Baxendale提出文章中的一些总结性的词语也表征文章的主题,应给与更高的权重。Edmundson根据线索词、关键词、所在位置三个因素衡量句子的[8]重要程度,选择权重较大的句子作为文摘。统计学中认为文本是句子的线性序列,句子是词语的线型序列,在对文本分析的时候就可以最终归结到对词语的分析,通过分析词语的特征得到句子的权重。近几年学术界进一步提出了基于整数[46][47][48][49][50]线性规划的方法以及次模函数最大化的方法,可以在句子选择的过程中同时考虑句子冗余性。4 第一章绪论特征提取根据特征权值计算分词(词频)句子权值根据权重对句子排文摘连贯文摘句子序图1-2统计学摘要算法的基本步骤通常文本摘要算法中使用如下几种特征:(1)文章标题:标题的内容通常是文章主旨最直接的体现,如果文章中的某个句子和标题内容相似,比如词语的共现,表达主题相似等等,都可以将该句子看成是能够表达文章主题的候选句;(2)位置因素:根据写作习惯中一个段落中越靠前的句子表达段落中心思想的可能越大的特点,句子在段落中位置的区别同样能够作为句子重要性的一个判断依据;(3)段落位置:新闻类或者说明类文章的写作,更加会在文章开始的段落点明文章中心思想,段落位置越靠前,一般认为越重要,越有可能表达中心思想;(4)统计特性:为精确描述词语的重要性,通常使用TF-IDF(词频-逆文本词频)方法来统计词语的词频特征,统计的主旨是发现一些能够表达文章主旨的词汇列表,通常情况下,一个词语在文章中出现的次数越多,越有可能表达文章的主要思想,同时TF-IDF排除了连接词语气词等常用词的影响,是一个很重要的基本特征;(5)启发词汇:文章中会出现一些归纳性的句子,比如“可见”,“总之”,“综上”等等,这种启发词汇列表需要归纳;(6)句子长度:以一定的长度作为标准,比如所有句子长度的平均值,过长的或者过短的就要增加惩罚因素,特别要对过长句子进行惩罚。(7)冗余程度:由于文本摘要对篇幅有很大的限制,需要在尽可能少的句子中包含尽可能多的内容,这就要求选择的文摘句表达的内容尽可能丰富。所以在选择文摘句时,选择表达主题尽可能多的句子,表达的内容相同时选择尽可能短的句子;5 电子科技大学硕士学位论文20世纪90年代,随着互联网的兴起,文章数量成几何倍数增长,同时机器学习的兴起在自然语言处理方面有了长足发展,给文本摘要技术有了新的启发,在统计学的基础之上,Kupiec提出使用朴素贝叶斯分类模型选择文章摘要句。Kupiec论文中,假设F1,F2,…,Fn表示文章的n个主题,s表示文章中的某个句子,S表示文本摘要所包含的句子集合,n个主题独立,则有以下公式:npFs(j|)j1ps()Sn(1-1)pF()jj1通过公式计算出文章中的每一个句子的权重,从而得到权重由高到低排序的句子顺序。Aone在1999年基于贝叶斯分类方法开发出一个系统Dimsim,该系统不仅基于贝叶斯模型,同时还添加了更多的文章特征进行计算,也是首次在统计词频的基础之上,添加了逆文本词频的特征,消除了一些常用连接词对词频的影响。随着机器学习的发展,更多的机器学习方法被应用到文本摘要技术中,比如决策树模型、隐马尔科夫模型,条件随机场模型,神经网络等等。Conroy基于隐[10]马尔科夫模型对词汇之间的关联性,基于相互的依赖关系进行计算,Osbome[11]使用线性回归模型建模取得了不错的效果,Svore提出的基于神经网络的摘要[12]方法也取得了不错的效果。机器学习方法主要关注如何将文本摘要问题转化为机器学习问题,其主要策略是选取文本特征、确定使用的机器学习方法以及在语料库上进行学习训练,最终得到模型。虽然使用机器学习方法得到的文本摘要取得了不错的效果,但是这方面语料库的匮乏很大程度上制约了训练效果。随着图模型理论的发展,出现了基于图模型的文本摘要技术。基于图模型的文本摘要方法的基本思路是把文章的句子或者段落作为一个分析对象,每一个分析对象作为图中的一个点,点与点之间的关系通过寻找两个分析对象是否在某个特征上相似或者重合来确定是否连接,如果判断有关系,则在两点之间添加一条边。建立完基础的图之后,通过图模型上的迭代算法(PageRank,TextRank,HITS)来迭代计算图中各个节点的权值,按照权值的大小排序之后选择权重大的分析对[13][14][15]象(句子或者段落)作为文摘。HyperSum,TextRank和LexRank作为主流的基于图模型的算法被广泛应用。HyperSum算法中,每条边可以连接的节点多余两个,节点之间可以组成群组关系,整合节点的成对关系进行计算。TextRank算法的核心思想类似于Google提出的PageRank算法,基于一种推荐评分的方式,通常的做法是将文章中的句子看做分析对象,每个句子包含的词作为提取对象间6 第一章绪论关系的分析基础,首先计算出每个词的TF-IDF(词频-逆文本词频)值作为词的权重,如果两个句子含有相同的词,则在这连个句子对应的节点上添加一条边,同时每个节点的初始权重为该句子包含的词的权重之和,以任意节点为起始点,将当前节点的权重评分平分给与该节点有边连接的节点,直到每个节点的权重改变的大小小于阈值停止计算,从而得到每个句子的打分,这种方法试图挖掘出句子之间的词语层次的联系。空间向量模型利用代数方法进行文本摘要,所谓的空间向量模型,是把文章中的词语给看作一个方向上的维度,而词频看作其大小,转化成了向量,这样文章中的词语以及词语的词频可以看成是文章的空间向量图(有多少词就对应多少维),但是这样便把每个词独立化,忽略了词语之间的相关性,单纯表示成了一个维度。语义无关的假设显然忽略了文章很多深层次的信息。LSA(潜在语义分析)基于向量空间模型,同时也挖掘出了词与词间的语义关联,LSA通过将文章表达成空间向量,然后对其奇异值分解计算,去除不同词语的同义现象,去除同义词的影响。去除文本的冗余信息,将文本表示在一个低维度空间中,不仅降低了计算量,同时更加表明了潜在的语义信息和语义关联。隐含语义分析以向量空间模型为基底,注重消除同义现象,表达词与词潜在关联,常以词-文件矩阵表示词与文件间的关联,以列代表文件〈document〉,以行代表字词〈term〉。而在矩阵中每个元素通过计算TF-IDF得到权重值。主题模型以文章中的单个词语作为分析对象,挖掘词语背后的信息进而得到主题之间的关联关系,分析出文章潜在的主题分布。相比于空间向量模型的语义无关假设,主题模型更善于利用词与词的共现(同时出现在一篇文章或者段落中)来判断词的具体含义,如此一来,一词多义的现象就得到了有效解决。比如“苹果”和“种植”出现在一起,就表示水果,如果和“互联网”出现在一起则表示苹果公司。主题模型在文本摘要方面的发展,最初由Gong和liu提出使用LSA[17]进行文本摘要,试图在潜在语义中寻找词对应的主题,将文章归结为若干主题,选择主题维度上索引值最大一个作为代表。Jezek计算句子向量的长度,然后根据[18]句子长度作为选择摘要的依据,Ozsoy提出了一种使用交叉方法来改进Jezek[19][16]的方法,将低于平均索引值的归位零作为主题的选取的依据。2003年,DBlei等人在PLSA模型基础上使用狄里克雷先验分布的概念,解决了PLSA模型中参数随着文章数量的增加而增加的问题,形成了当前应用广泛的产生式概率主题模型LDA。7 电子科技大学硕士学位论文1.2.3国内研究现状由于中文自然语言处理方面的研究起步较晚,而且中文的语法结构不同于英文以空格为单词的分界点,分词技术的限制,使得文本摘要方面的研究相对滞后。而且相比于自动翻译、智能问答、情感分析等热门研究方向,文本摘要的研究没有多少发展。在汉语形式上,一个有意义的单位不是字而是词,所以相比英文的研究多了自动分词的任务,同时汉语博大精深,一个词有多个含义的现象很常见,一个意思也可以由很多不同的词来表示,这给基于统计学的研究带来了很多不方便。汉语的特殊语法也限制着不能照搬英文文摘的技术。研究员们结合汉语的诸多特性,潜心研究,取得了可喜的成绩。上世纪80年代,上海交通大学王永成教授最早开始研究自动文本摘要技术,1997年开发出了中文文献自动摘要系统。其关键技术有三:构造关键词词典;从文献的有关部位中选择包含关键词语句子作为候选文摘句,考虑候选文摘句中关键词数、距离大小、句子的位置特征等特征,计算的到句子的权重,从大到小排序后,按照文摘篇幅的大小来选择权值相对较大的句子作为摘要句;而后对摘要[20][21][22][23]句语句进行通顺化处理得到最终的文摘。其后文本摘要研究在国内逐渐被重视起来。哈尔滨工业大学的信息检索实验室、北京大学计算机科学技术研究所、清华大学智能技术与系统国家重点实验室、北京大学计算语言所等研究部门参与到文本摘要技术的研究中。北京大学计算机科学技术研究所在自动文本摘要上的研究卓有成效,提出了多种基于图模型的自[24][25][26][27][28]动文本摘要方法,2015年提出了压缩式摘要方法,取得了很好的效[35][36][37]果。并且在比较式摘要、跨语言摘要、演化式摘要等多类型摘要任务上有长足进展。在学术文献摘要方面,则分别提出基于有监督学习和整数线性规划模型[51][52]的演示幻灯片的自动生成方法与学术论文相关工作章节的自动生成方法。在文本摘要标准数据集方面,曾经举办过单文档摘要任务评测会议,但训练集、测试机规模相对较小,而且没有一个完整客观的自动化评价体系。2015年CCF中文信息技术专委会组织的NLPCC会议包含三个任务,其中第三个任务时面向微博的新闻摘要任务,提供了新浪网各个专题下的较大规模的文本摘要训练数据和测试数据,并采用DUC会议的自动评价工具ROUGE,吸引很多队伍参加,而且这些数据可以通过官方网站获得。这一定程度上促进了中文文本摘要的发展,但NLPCC的评测任务只针对单文档摘要,目前还没有被广泛认可的多文档中文摘要数据集,所以在文本摘要的发展上,需要更多的支持与关注。真正应用文本摘要技术到实际系统包括方正智思、海亮科技以及百度在内的少数公司,文本摘8 第一章绪论要通常被看成是系统的附属功能,而且相对封闭,其性能不得而知。信息时代的快速发展,信息资源的持续增长,对于自动文摘的科研人员既是机遇也是挑战。回顾自动文摘的发展历程,中文文摘取得了不错的成绩,但是相比于国外在这方面的创新显然还有很大差距,中文文摘的发展方向应该是结合中文的语言特性,利用国外先进的摘要方法,做出更适合中文的文摘系统。1.3本文的主要工作本文主要研究了如何利用潜在狄里克雷分析进行单文本的摘要任务。本文首先介绍了文本摘要任务的一般做法,并给出了一个基于主题模型的文本摘要算法,然后提出了一个可以在语义层面进行句子相似度计算的方法,和一种改进的图模型构造方法,结合统计学特征,实现了文本的摘要技术。论文在第一章叙述了文本摘要技术发展状况的基础上,在第二章详细介绍了主题模型在文本摘要方面的应用并对LDA模型进行了详细的介绍。在LDA模型基础之上,给出了基于LDA模型的文本摘要方法通用框架。将LDA模型的输出结果词-主题的概率分布用于文本摘要的一个关键点是将主题分布迁移到句子之上,因为句子是文本摘要的基本单元。从而首先给出了一种计算主题-句子概率分布的计算方法,而后使用相对熵来衡量句子与句子、句子与文章在主题层面的相似度,并在NLPCC的文本摘要任务上做了比对实验,证实了方法的可行性,实验效果高于基准线。结合当前在文本摘要众多方法里模型简单而且效果理想的图模型,使用主题模型在图模型建边和边的权重计算两个方面进行改进。建边的条件从原来的词语层面迁移到主题层面,杜绝了词语层面的很多弊端,同时使用了新的边的权值计算方法,结合句子的统计学特征作句子的初始权重,在进行图模型的迭代贡献权值计算之后得到文摘的候选句子。在DUC2004数据集和DUC2006数据集上,与基于LDA的算法、本文改进的算法及数据集上成绩最高算法进行结果比较,以ROUGE评价方法作为指标,实验结果证实了利用新的句子权重计算模型以及与图模型的结合,能够得到更高的ROUGE分数。同时为了方便使用,同时基于Struts2、Hibernate框架,结合sitemesh、JQuery、CSS、JSP、HTML等技术,实现了一个文本摘要演示系统。可以通过在输入框中输入文本实时进行文本摘要的分析,同时可以得到计算过程中分词、指代消除等中间结果,也可以批量导入需要进行文本摘要的文档由系统在后台处理。9 电子科技大学硕士学位论文1.4论文结构论文首先对文本摘要的技术分类以及国内外研究现状做了深入的了解及介绍,再次基础之上,提出新的语句相似度计算方法以及改进图模型用于文本摘要技术的实现,论文主要结构如下:第一章:绪论,首先介绍了文本摘要的课题背景以及研究意义,然后在介绍技术分类的基础之上详述了国内外研究现状,并对本文的主要工作以及论文结构作概括性描述。第二章:相关技术介绍,特别对主题模型在文本摘要以及LDA模型在文本摘要方面的应用进行了详细介绍,并对LDA模型的模型表示以及模型求解有更全面的说明和分析。第三章:提出一种计算主题在句子上的概率分布的方法以及衡量句子相关性的方法,并从写作习惯的角度分析,将文章分成三个层次的内容,并在NLPCC数据集上对所提出概念正确性进行了验证。第四章:结合主题模型以及图模型,在分析了主流图模型算法的弊端与不足之后,在主题模型的基础之上,利用主题在句子上的分布,提出了新的文本摘要计算方法,并在DUC数据集上进行实验。第五章:根据第二章的基础框架结合第三章和第四章的改进,着重介绍了算法的实现细节,同时为了方便算法的使用以及效果演示,开发了一个文本摘要系统原型。第六章:对本文所研究内容进行了总结,分析当前研究内容的缺陷,对下一阶段的工作进行了展望。10 第二章相关技术基础第二章相关技术基础本章介绍了文本摘要相关的技术内容,首先介绍了文本摘要的相关概念,简述文本摘要的基本要求;然后介绍主题模型的基本概念,以及他在文本摘要方面的应用,并介绍了一种基于主题模型进行文本摘要的基本框架;介绍主题模型中重要的算法LDA算法,以及基于LDA算法的文本摘要基本框架;最后介绍了指代消除的概念,用于对待摘要文本的预处理。2.1文本摘要及主题模型2.1.1文本摘要文本摘要是一种从原始文本中通过一定的策略选择部分句子或者归纳总结出该段文本表达大意的技术,最终得到一段相比原文篇幅更小,且能表达主要思想的摘要段落。与其把文本摘要看成是压缩了原始文本的内容,不如把他看成是一种取其精华的过程。文本摘要的过程是通过对原文内容分析处理,把文章所要表达的基本思想找出来,并且提取出承载这些中心思想的句子,将摘要句子可读化,最后呈现给用户,以方便用户在最短的时间内了解到文章所要表达的最核心的思想。在计算机技术还没有被使用到文本摘要领域的时候,摘要的工作通常由手工完成,需要通读文章再咬文嚼字归纳总结,这不失为一种学习知识提高自身阅读能力的手段,但是这仅限于将有什么的文章,有层次的名著精读并摘要。随着网络时代的来临,特别是阅读习惯从书本迁移到电脑再迁移到手机的过程中,阅读习惯和阅读内容已经有了极大的改变,手机端阅读更加多的是利用碎片化的时间,同时阅读内容变成越来越娱乐化新闻化的快餐文化,如此一来手工摘要显得没有意义,而且效率低下,如何借助计算机技术的发展进行自动文本摘要显得越来越重要。自动文本摘要是一种使用算法实现去糟粕取精华,言简意赅表述文章内容的技术。将文章铺垫修饰类语句尽可能的排除,同时将文章重要内容尽可能包括,从而传达给用户效率最高的原始文章替代品。目前自动文本摘要的实现方法仅限于抽取式,即从原文中找到最能代表文章主旨思想的若干句子,用来概括原始文本的主要内容。文本摘要的基本要求包括两点:篇幅上远远小于原文;同时包括原文的最主11 电子科技大学硕士学位论文要内容。篇幅大小可以由用户指定,不大于文章的百分比,或者自行调节文摘包含的句子多少,也可以由算法自行设定,文摘句的多少取决于文章所包含观点的多少,以尽可能少的句子囊括文章所有主题即可。包含文章的最主要内容需要通过具体的评价方法来评判算法摘取的句子是否为文章的中心句,文本摘要的评价方法会在第五章中作介绍,这里主要说明一下对于文本摘要的几个评价准则:(1)主题覆盖率。文章主题通常不止一个,摘要应尽可能的覆盖文章所要表达的主题,如果受到篇幅影响,应该至少包含核心的主题;(2)摘要可读性。文本摘要最终是要面向用户的,摘要的最终目的就是为了让用户能一目了然,所以对于摘要的可读性决定了摘要方法的好坏,可读性好比于一个礼物的包装盒,给用户的第一印象很重要。通顺易读,表达逻辑清晰,没有明显语法错误是最基本的要求。(3)冗余最小化。文本摘要的过程就是尽最大可能去掉冗余信息的过程,冗余的多少不仅决定了摘要的篇幅还决定了摘要的可读性,将冗余信息减少到最少,才能突出主题强化观点达到言简意赅的目的。(4)文本压缩比。篇幅大小可以由用户指定,不大于文章的百分比,或者自行调节文摘包含的句子多少,也可以由算法自行设定,文摘句的多少取决于文章所包含观点的多少,以尽可能少的句子囊括文章所有主题即可。2.1.2主题模型早起的文本摘要在统计语言模型和空间向量模型上取得了不错的成绩,这些模型简单易懂而且实际效果不错,在很多方面得到了极大应用。但是随着人们对于文本的认识,希望挖掘出语义层面的关联,从而更好的理解文本。为了挖掘出更富“表达力”表达方式,潜在语义的分析进入了文本摘要领域。以潜在语义分析(Latentsemanticanalysis)为代表开始了主题模型,后来的主题模型也基本借鉴于潜在语义分析的基本思想,LSA突破了以往科研人员对于文本的理解:文本是表示在词典空间上的。而LSA在文本和词典之上添加了语义维度,语义维度揭示的是文章主题层面的浓缩,文章是语义维度的一个扩展。简而言之,以往模型中提取特征为文章-词语的映射,LSA引入语义维度之后变成了文章-语义-词语的映射关系,潜在语义分析是一种词袋模型,将文章中词看成最直接的分析单位,忽略语句、段落的特征,所以它研究的是一种词共现现象,同时主题的数目相对词语数目小很多,将文章映射为主题层面的向量,在大小上小很多,实现了降维,在语义空间上进行低维表示。低维表示使得数据根据表达力,提供更有效的数据,降低数据表示成本,通常也是向量表示时所追求的目标。后来LSA从线性代数的12 第二章相关技术基础分析模式逐渐提升到概率统计的分析模式,即pLSA、pLSI模型,主题模型在自然语言处理领域中应用广泛,可以根据文章中的词语挖掘出潜在表达的主题。从写作的角度来看,一篇文章为了表达某个主题,作者一定会使用和这个主题相关性强的词语,也就使得这些词在文中更加频繁的出现。比方说,假设一篇文章的中心思想是在表达环保相关的,文中“大自然”、“森林”这类和环保相关的词多次出现。假设另一篇文章中心思想是在表达饮食习惯相关的,文中“川菜”、“麻辣鲜香”这类饮食相关的词多次出现。从另一个角度来看,每篇文章表达的主题通常不止主题,主题也会在文章所占比例也不同,假设文章30%内容表达环境保护,60%表达饮食习惯,那么在文中表达环境保护的词语数目大致会是表达饮食习惯词汇数目的二分之一。基于这种特点,主题模型就是尝试从数学角度出发,用数学框架描述文章中主题与词语分布有关联的特点。主题模型通过统计文章中词的信息以及词共现来推断文档所要表达的主题,进而可以统计出文章表达主题的比例大小。主题模型相比于传统的统计学或者图模型算法最大的不同是,他们关注的特征是从词语、位置这些表象特征中提取,而主题模型是一种“词袋模型”,其分析的基本单元是词语,但是提取到的特征是词语背后的主题,也就是更关注哪些词出现在一起会表达什么样的内容,真正使用到了语义层次的特征来进行文章的分析。这里简单介绍一下主题模型相关的概念:统计语言模型。研究一段文本序列的生成概率的问题,例如给定一个文本序列S=WWWW...去估计概率P(S)。概率的计算使用特征的概率值,123n得到这个序列的生成概率。N元语言模型,统计语言模型中P(S)的求解,常用的一个模型就是N元语言模型,根据前一个状态与后一个状态出现在一起的概率求解,即P(S)=PWPWWPWWW()(|)(|)...(PWWWW|...)。这个计算量非常大,随121312nn12着N的增大,其概率需要关联的前面的状态越来越多,数据就会变得很稀疏,所以通常在自然语言处理中能用到的N就是1,2或者3。直到最近Google才发布了一个N=4的语料库。一元混合语言模型,常见的如高斯模型,高斯模型把每一个组合都看成高斯分布。对于一个文档把它看成K个堆,根据分布选择一个堆,每个堆都是一个一元语言模型,然后由该堆生成对应的文档。概率图模型,将概率和传统的图模型结合在一起,能够更加清晰直观的表现出概率的分布和生成方式13 电子科技大学硕士学位论文ZWNM图2-1一元语言模型示意图WNM图2-2一元混合语言模型示意图一元语言模型假设整个文档只有一个语言模型,一元混合语言模型假设整个文档集合有若干个语言模型,但是这些语言模型都符合同一个概率分布。2.2文本摘要通用框架基本的文摘生成框架如图2-3所示,在语义模型的基础之上进行文本摘要的分析,将预处理后的文档结合语义空间的特点,转换成一个数学描述的模型;同样依据每个基本分析单位在语义空间上的关联建立联系并计算其重要程度,从而选择出能够代表文档的基本分析单位作为候选,最后结合文本摘要任务的其他要求比如篇幅、冗余信息、连贯性等特点生成最终的文本摘要作为输出。14 第二章相关技术基础自动文本摘要系统文档摘要文档文摘预处理候选文摘句转换生成语义模型图2-3自动文本摘要系统框架图下面对过程进行一个详细描述,文摘式文本摘要方法指的是从一篇完整的文章(或者多篇文章构成的文档集)中以句子为单位,从中选择最能体现文章中心思想的句子作为文章摘要。其一般步骤,首先需要对文档进行预处理,包括分词、指代消解、段落划分、句子划分、确定文本分析的基本单位等过程。将文档重新用数学化表示,然后将文章中的句子根据某种算法确定每个句子的权重,权重大小体现了这个句子表达文章中心思想的重要程度,并根据权重从高到低依次排序;根据设定的文本摘要篇幅大小从高权重到低权重选择合适数量的句子作为待选摘要;将选择的待选摘要合理安排调节顺序添加连接词,使得文摘通顺可读,使读者读起来顺畅不晦涩。这其中第一步决定这一个文摘质量的好坏,是本文主要的关注点。假设文档D有SSS,,,...,S这15个句子,需要根据算法确定每个句子的权12315值大小,根据选择的特征(统计学方法会选择句子所含词语为特征,主题模型方法会选择句子所含主题为特征)来计算句子的权值大小,假设文档D主要表达了3个思想,其中句子Si包含其中的两个思想,Sj包含了其中的两个思想,Sk包含了其中的三个思想,Si和Sj包含的两个中心思想不完全相同,这种情况下给与SSij的权重大还是Sk的权重大,SSij的权重是否等大小?这需要根据不同情况确定每个句子的大小,首先需要确定文章主要表达几个思想,其次确定每个句子包含多少某个思想的词语或者主题,同时也就可以确定每个句子表达了几个思想了,计算出文章表达几个思想分别占有多大的比重,提取到这些特征之后,再来确定每个句子的权重,句子权重由两点决定:①这个句子表达了几个思想,②表达的15 电子科技大学硕士学位论文思想在文章中所占的比重是多大。比如文档D包含的3个思想比重分别为10%、30%、60%。句子Si包含的两个思想比重之和为40%,句子Sj包含的两个思想比重之和为70%,句子S包含的三个思想比重之和为100%,那么这三个句子权重k之比就是4:7:10。文摘算法中的另一个问题是对于冗余信息的排除。对于文档D的两个句子SS他们表达的意思基本相同,包含的思想个数相同,但是S的长度比S的长度ijji大,是否将这两个句子赋予相同的权重?这样做显然是不合理的,文摘在保证质量(包含尽可能多的文章思想)的同时,还是考虑到对于冗余信息的去除,以及文摘易读性。所以需要对过长或者过短的句子都进行惩罚,一个可行的方法是首先求出文章中所有句子长度的中值(不选择均值的原因是为了避免过长句和过短句的影响),以此确定文摘句长度基准,然后对过长句和过短句进行惩罚,影响到句子的权值大小。基于上述理论总结出一般的文本摘要算法的基本框架算法2-1抽取式文本摘要算法框架输入:文本D={𝑺𝟏,𝑺𝟐……𝑺𝒏},文摘大小L输出:文本摘要𝛀1.词语集合R={𝑾𝟏𝑾𝟐……𝑾𝒌}2.主题集合T={𝒕𝟏,𝒕𝟐,……𝒕𝒎}3.Whilei

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭