基于语义重构的文本摘要算法

基于语义重构的文本摘要算法

ID:35070433

大小:6.22 MB

页数:68页

时间:2019-03-17

上传者:U-24835
基于语义重构的文本摘要算法_第1页
基于语义重构的文本摘要算法_第2页
基于语义重构的文本摘要算法_第3页
基于语义重构的文本摘要算法_第4页
基于语义重构的文本摘要算法_第5页
资源描述:

《基于语义重构的文本摘要算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

、.y》..I可.苗作秦V業-,吾.戀,警!邊.s古V識苗,'義'豁一托;縣奮誦扣气户、.究‘壤f驚,觀雞>裝.言.>..’磬養,.;攻..勞e.:画琴.皆?;?蹲r.琴5讓^寒告動巧武妄草:書I終Y扣.>\说拜.藝V^、曼>;拜旅,與譲篇片塗皆;雪葦泻J片;己裳藻.奪舞謬'->八..雜鑛絮.槪节^..?,/若^京乂、苗後攀;一;..:揭論.,.满'电霉n叩,'義结d\X和;;究生-L论文心.净譯驚;身.赏辦>餐批-蔥;^為/拉壬声0节'巧啡S请舅讀.%'iv...‘.>;<讓壤犧*l八'.;越^;甚'i.静V雜;-‘.:f聲載'f.蠢Jy%:-人.'文基知L5减賊參冰空一^皆者賊.脊沸株巧^抑城林系?^捂掘研究向指导巾魏授吴雜讲:../.;...-.,,..韓:,巧>V莉C>放务.謹吟给亡游實費巧孽辞義与ft..議晏?的.吟-必‘^‘:皮V聽巧f一魂若杉洩化譯趕rUV'.辨哪^,繁;嚇,;.-真::‘4..:.^輸,.-4苗謂‘或參舅讀樣八‘ 学号:MG1333075论文答辩日期:2016年5月27曰指导教师:雕(签字) 曝南京大学申请硕去学位论文基于语义重构的文本摘要算法作者:张弛专业:计算机科学与技术研究方向:数据挖掘指导教师:王榮駿教授、吴駿讲师南京大学计算机科学与技术系2016年5月 TextSummarizationBasedonSemanticReconstructionPresentedByZhanChigSupervisedbyProf-.WangChonJungWuunjADISSERTATIONFORTHEAPPLICATIONOFMASTERDEGREESUBMITTEDTOTHEDEPARTMENTOFCOMPUTERSCfiNCEANDTECHONOLOGYOFNANJINGUNIVERSITYMay2016 声明本人声明所呈交的论文是我个人在导师指导下、在南京大学及导师提供的研巧环境(含标明的项目资助)下作为导师领导的项目组项目整体的组成部分而完成的研巧工作及取得的研究成果。除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果一。与我同工作的同志对本研巧所做的任何贡献均己在论文中作了明确的说明并表示了谢意。,南京大学及导师所有权保留:送交论文的复印件允许论文被查阅和借阅;公布论文的全部或部分内容;可W采用影印、缩印或其它复制手段保存该论文。学生签名::日期靈曰畑‘調1DeclarationImakeadeclarationherethatthethesissubmittediscomposedoftheresearchingworkbymselfanditscorresondinresearchinresultsfinishedasaconstituentartofthewholeypggpproectin化£roectteamleadbmadvisor.The化esisiscomletedwi比也euidanceofjpjyypgmadvisorandundertheresearchincircumstancesofferedbNaninUniversitandmy,gyjgyy注dvisor打eludintheroectsuortindicated.(igpppj)T'hethesisdoesnotincludeotherpeoplesresearchingresultseverpublishedorcomosedexcet化atareseciallannotatedandacknowlededsomewherei打化earticle.p,ppygAnycontributio打madetol:heresearchbymyworkingpartnersisdeclaredexplicitlyandacknowledgedinthethesis.NaninUniversitandtheadvisorretainthecorihtasfbllows:submi打inthecoiesjgypyggpofthethesisallowinthethesistobeconsultedandborrowedublicizinthewholeorart,g;pgp,ofthethesiscontentkeeinthethesisbhotocomicrocoorothercomethods.;pgy,ppypypyAuthorSignature:Date:AdvisorSignature:Date: ^摘要互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语言处理任务,自动摘要技术的挑战在于摘要的评价指标无法精准量化,极具主观性,而且自动摘要往往深受兀余信息的困扰。目前主流的自动摘要算法是通过-,对所有句子进行打分,tok作为生成摘要预先定义某个指标然后对句子排序并抽取p。一然而这些抽取排序模型方面对句子独立打分,孤立了句子之间的联系,忽略了文章的一结构信息,;方面选取的评分指标通常是词素级别或者统计特征缺乏语义信息。针对一这些缺点,我们设想个高质量的摘要能够很好地还原原文的语义,进而提出了语义重构模型:通过寻找能够最小损失重构原文语义的句子集作为最后的生成摘要。本文的王作主要包括两个方面:1针对词袋模型的高维稀疏、缺乏语义信息的现象,设计了两种简单有效的语义()向量化方式表示文本,分别是基于神经语言模型的词嵌入加权方法和基于多层自编码网络的深度降维方法。并通过句子分类实验证明了这两种向量化方式都能得到紧凑且具有语义的文本表示。(2)分别设计了基于二次规划的线性重构策略和更为平滑灵活的非线性重构策略,^^1得到能最佳还原原文的句子并作为结果摘要。另外通过冗余消减手段在改进了重构策略并提高了摘要质量。最后在DUC标准数据集上的摘要实验对比,证明了本文的语义重构模型的合理性和有效性。关键词;自动摘要语义重构词嵌入语义表示I AbsracttAbstractWith化erapiddevelopmentofweb1;echnology,herecomestheproblemofdataexlosionandinformationoverload.Thereforethe化chnologyofautomatictextpsummarizationbecomesthehotspotincomterscience.IncontrastwithotherNLPtaskspu,thechallenesthatautomaticsummarizationfacewitharethatl;heudeissueofsummarisgjgy*tithlltsdanliithlt.Mtiti!:〇〇subecveandereawasoofredunc打打eiesusummarosexsnjyyygygmode-lsscorese打tencebredefi打i打somefeaturesandselectthetokse打tencesasresultypgpsummary.HowevertheserankingmodelsscoreeachseiUenceindeendentlwithoutpyconsiderintherelationshisbetweensentences.Ontheotherhandtheseredefinedfeaturesgp,pusuallarelexicalorstatisticalwhichcan打otcaturethesemanticmea打i打softextToy,pgcounter化eseshortcominsweassume化ataoodsummarcanreconstructtheoriinalg,gygdocumenta打dweroosethesemanticreconstructionmodelbasi打onthisassumtion.,ppgpTheroosedmodelselectstihesentencesthatcanbestreconstructtheoriinaldocumentasppgtheresultsummary.Ourworkinthisaerconsistsoftwoarts:ppp--1.Semanticrepresentationsofsenbnce.Givent;hat1;hebagofwordsvectorcannotcapturethesemanticmeanings,weusetwoapproachestoleamcompactandsemanticreresentationsforsentenceweihdmeanfwordembeddindedin.h:lteos2ecoTep()gg;()pgsemanticrepresentationscanbeusedastheinputofreconstructionmodel.2i.民econstmctio打s化ategyisthekeyofsemantcreconstructionandaimstofindthemo巧relevantsentences.Thereco打structio打strategyi打thisaerincludesasimlelinearpppfunctionand打exiblenonlinearfunction,respectivelybasino打uadraticroramminandgqpgg打euralnetwork.反esides,redu打da打tsentencescanbereducedbyredu打dancyreductionalorithmtoimrove1;hesummarualit.A打dthesummarexerimentsbasinonthegpyqyypgDUCdatasetsvalidate1:heefectivenessofourmodel.Kewords:automatcsummarzatonsemanticreconstructionrdembeddinsemanticyiiiwo,,g,representationII 目录一第胃绪ife1.11自动摘要的研巧背景11.2自动摘要的分类21.3自动摘要的挑战31.4本文工作和组织结构5第二章文本備要的相关研充72.1句子排序抽取法72.1.1基于统计信息72.1.2句子聚类和图模型.92.13机器学习.102.2基于语言学方法112.2.1词汇链112.2.212LSA2.23互参信息和修辞结构122.3特殊文体或领域的摘要方法1323.1医学摘要.132.3.2期刊摘要.142.3.3.14邮件摘要23A网.页摘要15第H章文本的语义表示173.1引H173.218词嵌入加权3.3深度降维213.4实验对比巧3.5本章小结27第四章原文语义重构策略站4.1线性重构策略284.1.1目标函数.294.1.2优化方法.334.2非线性重构策略344.2.1.模型结构及训练354.2.2摘要提取.404.3冗余消减414.4实验对比434A1数据集和评测工具434.4.2对比实验介绍454.4.3实.验结果及分析454.5本章小结49III 第五章结与展望505.1工作总结505.2未来展望51##文献52致谢57臟58IV 第一章绪论第一章绪论随着互联网技术的发展和产生数据的快速膨胀,信息过载脚formationOverload)的问题变得日益严重,让;同时现代社会的生活节奏变得越来越快更多的用户提出了快速获取知识的需求omaticSummarization,因此自动文摘(Aut技术便应运而生。文摘又可)W称为文本摘要(TextSummarization)或者文档摘要(DocumentSummarization)。自动文摘技术是通过电脑程序从文本集合中自动提炼出简洁连贯的语言段落,并保留原文的主旨思想,W达到信息浓缩的目的。移动通信的发展让更多用户选择从手机端获取资讯,然而由于博客、新闻等文章篇幅往往很长,手机屏幕尺寸严重制约了阅读效率。2013年雅虎W3000万美元收购了17kD’A岁德国学生Nklosio基于IOS平台开发的新闻自动摘要应用Summly,W利用其适配移动设备体验的自动摘要技术来加强公司内部产品,如雅虎财经和雅虎体育。从这个备受关注的事件可看出,自动摘要技术是个蕴含商机的前沿研究热点。w一关键词提取(KeyordExtraction)是种和文本摘要思路类似的NLP任务,目的是一组和原文话题最为相关的单词或短语从文档中找到。关键词提取任务可W通过文本挖掘TextMinin信息检索脚formationRetrieval技术解决,比如文档主题模型Toic(g)和)(pModell或者随机游走模型2。文本摘要和关键词提取任务形式上都类似特征选择)[][](FeatureSelection)问题,前者找特征句,后者找特征词饱语)。然而文本摘要任务的难度更高,因为相比词语,句子的文本粒度更大,不能用单个特征表示,因、信息更丰富此不能用简单的特征选择算法如卡方检验直接求得;此外,文本摘要还要考虑摘要冗余问题,,句子之间的兀余信息会使摘要质量很差。但是关键词提取往往可W作为文本摘,进而用关键词的包含情况来衡量句子重要性要的早期步骤。1.1自动摘要的研究背景随着PC和手机的普及,及互联网技术和移动通信技术的迅猛发展,人类社会进,201042,入了大信息时代。据中国互联网发展统计报告称截至年我国网民数量近.亿2.77k手机用户达亿,网络普及率不断提高。同时,WFaceboo、Twiter为代表的社交网络巧ocialNetworkingServices,SNS)风靡全球,让越来越多的网民依赖于从网络媒体I 第一章绪论获取或发布信息,使得互联网己经成为最大的信息集散地。随之出现的现象就是信息过ll载,或称为信息爆炸,据worldwidewebsize统计世界最大的搜索引擎公司Googe所存450100PB储索引的网页数量超过了亿,每天处理近的数据;根据数字宇宙研究报告840ZB=40万G。称,未来年里人类将产生超过亿海量的数据再加上远快(巧的数据量一于人类消化的更新速度,方面需要谷歌等搜索引擎公司利用庞大的计算机集群建立索一弓,;IW提供个性化检索服务另方面需要高效的自动摘要技术来对大规模文本进行关,W提供快速浏览功能键信息提取。Luhn一自1958年巧在旧MJournal上发表的第篇自动文摘领域的论文已近六十年,期间自动摘要技术得到了广泛研巧和长足发展。然而自动摘要技术在处理速度和摘要质量上依然有诸多不足,包括;1处理速度太慢,赶不上数据产生和信息传播的速度。口())摘要质量在组织性,工业界对成熟高效的、可读性等方面相比人工摘要相去甚远。因此一自动摘要技术有急迫的需求。此外在些特定领域,自动摘要技术的研究严重不足。比如医学摘要和基因摘要(GeneSummarization,对摘要质量的专业性和准确性要求极高。)因此,文本摘要技术依然是NLP领域的热点分支。12自动.摘要的分类所有文本摘要的思路都是对文档进行压缩W提炼出能反映原文主旨的简短段落。但从不同角度不同需求出发,文本摘要可yA有多种分类方式。总体上,摘要的类型可分为抽取式文摘ExtractiveSummar和生成式文摘(y)AbstractiveSummar。抽取式摘要从原文最具有代表性的句子或段落而并不改变原句,(y)直接组成文摘;相反的,生成式摘要通过对原文进行语义理解并分析主旨,然后通过语言模型来重新组织语言来形成文摘,两;。简而言之者区别是前者直接选择现存的句子后者通过NLP技术生成新句。高质量的生成式摘要能够贴近人类给出的摘要,更具有可读性,。然而受限于实现难度,绝大部分的摘要研究包括本文提出的模型都是基于抽取式摘要。il-从处理的文本数量的角度,自动摘要系统又可W分为单文本摘要巧ngedocument-doSummaMultitSry)和多文本摘要(cumenummary)。多文本摘要每次从若干篇相关的文’'1wvA ̄htt://V.、Y〇rldwklevve!Kize.co閒/…p2 第一章绪论一一一档中生成份摘要,这些文档通常围绕同个主题各有侧重又相互联系,构成个主题ToDts。,文档群(picGroupocumen)多文档摘要的难度要远远大于单文本摘要因为多文^档文摘通常存在非常严重的冗余性问题,主题文档群里的所有文档都围绕同主题,因此容易提取到大量重复信息;此外每个文培各自的侧重点也很难把握。iSumm从用户需求角度,摘要可W分为普通摘要(Genercary和基于查询摘要)-basedSummar,(Queryy)。普通摘要就是不考虑任何用户需求即生成的摘要能让任何人看懂原文的大概含义。而查询相关摘要是面向用户的,针对用户提出的特定需求去生成和其查询相关的摘要。输入的用户查询可W是句子、词组,甚至话题,因此查询相关摘一一要任务相比之下更容易些,生成摘要的质量也通常更高。个理想的自动摘要系统应该既能处理普通摘要,也能面向特定用户生成查询相关摘要,而且当给出查询信息越丰富时,生成的摘要质量更高,如TextRank4]yi?及最大边界相关模型(MaximalMarginal[Relevance,MMR)[5]〇摘要从内容可W分为指示性摘要脚dicativeSummary)和信息型摘要脚formativeSummar。指示性摘要能够给出诸如长度,提供快速浏览功y)、写作风格等文章信息便用户大概了解文章结构相关,进而深入原文进行选择性阅读。而信息性摘要就是原文,可W直接代替原文而不影响阅读体验提炼出来的短文。此外一,还有些特殊类别的摘要,如更新式摘要UateSummar会根据用户的历(pdy)d一lin史阅读记录来对摘要进行更新;而头条式摘要(HeaeSummary只给出个句子作为)摘要;辅助式摘要(AidedSummary)依赖人工对自动摘要进行后处理;基因摘要是对基因相关信息如基因产物、突变表型和基因集合等生成摘要。1.3自动摘要的挑战自动文摘技术己经发展了近六十年,期间得到了广泛研究和长足进步。然而机器生成的摘要依然差强人意,无法完全代替人王摘要W满足人们快速、准确获取信息的需iii求。相比于分词(WordSegmentation、命名实体识别(NamedEntlyeconton等早己在)Rg)工业界成熟应用的NLP任务,,自动文本摘要依然步履蹤珊面临不少困雄和挑战。自动文本摘要技术目前遇到的挑战主要存在下几个方面:3 第一章绪论一(1)摘要本身没有个准确量化的定义。摘要算法的设计思路往往是通过预先定义一个评价指标,然后提出相应的优化方法来得到指标得分最高的句子集合作为最后生成的摘要。同样的流程在社团发现CommuniDetection中也有体现,社团在概念上是在(巧)、网络中的联系紧密的节点簇,并没有客观量化的定义,可W通过侧面定义模块度、中屯度等指标衡量节点簇的结构强度W寻找社团。但是社团结构可W通过在空间中的物理分布情况来评价,而相比之下摘要的评价是个主观复杂的过程,难度更高。口。无论是人王摘要还是机器摘要,凸显性、覆盖)文本摘要的评价指标过于复杂度、切题性、兀余度、组织性、流畅性等都是要考虑的方面。其中较为重要的几个评价指标如下:凸显性(Salience):又称切题性,高质量的摘要必须契合文章的主旨,每个句子都和原文高度相关,不重要的信息显然要丢弃;C一覆盖度(overage);在凸显原文主题的同时,要涵盖尽可能多的话题点,不能挂漏万、舍本逐末;冗余度(艮edimdancy):冗余性是自动摘要最容易出现的问题,即句子之间存在大量的重复信息(OverlappingInformation)。兀余性问题在多文本自动摘要中尤其突出,因为一主题主题文档群都是围绕着同,部分内容高度相似;组织性F山ency:指生成摘要的句子顺序能够读起来逻辑顺畅、条理分明。对于自()动摘要来说可W通过人工后处理实现;R—可读性eadability:般是人工摘要及生成式自动摘要的目标。生成式摘要往()一往依赖个优秀的语言模型,让生成的新句语法正确、结构自然。(3)文本摘要的评价过于主观。摘要评价的主观性体现在,对文章的主题理解本身就是个主观的过程,因此人王摘要W及自动摘要的评价也极具主观性。"一一"一所谓千个读者也中就有千个哈姆雷特,,对同篇文章的主题不同的人基于不同的立场有不同的理解。径种现象让文本摘要的质量好坏成为非常主观的评判。因此大多数NLP任务尤其是自动摘要任务所用的标准数据集都使用相对客观的热点新闻材料,因为时事新闻通常具有主题突出、立场鲜明的特点。尽管如此,当涉及到多文本4 第一章绪论一摘要时,文档主题群里的多个文档都围绕同主题引申出各有侧重的话题。对这些话题,是先主后次还是面面俱到,即使对语言专家来说也是难W定度的取舍。,直接导致了摘要评价的主观文章主题的主观性;再加上摘要的组织性、可读性等指标无法客观量化地评判摘要质量,导致即使是人工生成的摘要,其质量评价也是仁者见仁智者见智。而机器摘要的评价往往又依赖人工摘要,比如最权威的自动摘要评价指标Rouge就是将结果摘要和专家给出的参考摘要进行相似度对比。相反的,对其他诸Part--saNLP如词性标注(ofpee化Tging、分词等简单的任务来说,所得词性或者分词g),直接对比模型输出和预期结果就可W对模型表现进行评估结果是确定的、客观的。因此,缺乏客观、精准的评价指标和预期结果,也是自动摘要面临的重要挑战。(4自动摘要模型的不足。目前主流的自动摘要模型是基于某种特征给输入文档的)-k作为结果摘要句子打分,然后对所有句子按分值排序并选取top。这种排序模型存在一,两个不足:方面所选取的特征往往是词素级或统计性的简单特征不能把握句子的语一义信息,即无法分辨语义相似但表述不同的句子;另方面给句子独立打分的过程并没有考虑句子之间的联系,忽略了原文的结构信息,且容易导致冗余。一本文为了解决上述不足,方面通过模拟人脑思考的过程将文本语义向量化,提取一句子的深度表示,把握句子的语义信息,通过基于原文重构来整体选取句子,;另方面避免对原文结构信息的忽略。1.4本文王作和组织结构为了解决主流自动摘要模型中忽略句子语义信息和句子之间联系,W及词素特征或统计特征缺乏语义性的缺点,本文提出了基于语义重构的自动摘要算法。算法分为两个一步骤,方面是通过简单有效的文本向量化模型将句子和原文表示成紧凑的语义向量;一另方面,基于原文重构,找到能最有效还原文本语义主题的句子集,作为生成摘要。本文后续组织结构如下:第二章介绍当今文本自动摘要领域的相关研究和基本方法。第H章设计词嵌入加权和深度降维两种简单有效的语义表示方式对文本进行语义。向量化,生成重构模型的输入表示5 第一章绪论第四章分别介绍了线性重构策略和非线性重构策略,各自通过原文重构来得到高质量的摘要。此外通过兀余消减算法,提高摘要表现。最后辅W实验论证。第五章是总结与展望,包括对论文系统的主要工作进行总结并针对本文工作的可完善之处进行展望和探讨。6 第二章文本摘要的相关研究第二章文本摘要的相关研究,涌现出各种经典的算法和模型文本摘要发展了近六十年。最主流的自动摘要模型是句子排序抽取模型,其衡量句子重要性的方法,由最初的词频统计、对数似然比等统计信息,发展到图模型方法,再到各种有监督的机器学习方法。随着语言模型、知识图,基于语言学的各种方法也开始流行谱等技术的发展,包括词汇链和潜在语义分析LatentSemanticAnalsis,LSA等。(y)W上方法都是面向普通摘要和基于查询的摘要,对于特殊文体或领域的文章摘有其他需求,如医学摘要必须考虑严谨性、期刊摘要可利用科学论文的固有结构等。2.1句子排序抽取法句子的排序抽取是最主流的自动摘要方法,其重点是如何衡量句子的重要性,其中包括非监督的统计信息法和图模型法,W及监督的机器学习方法。2.1.1基于统计信息Luhn在自动摘要领域的开河之作3,将词素频率作为衡量重要性的标志。Luhn假[]定词频能够反映词概率(WordProb化化ty),即原文的词在生成摘要中出现的概率。词概率也是最简单的衡量词重要性的标志,计算公式为该词出现频率除输入文档中的所有=词个数p(w)^。给定输入文档的词概率分布,摘要的似然概率可W通过多项式分布计算出:nrLWm=-…1|>]p〇r)口)其中M是摘要的字数,n南词W在摘要中出现的次数。Nenkova阀分析了30个DUC主题文档群,对比了四个语言学专家给出的参考摘要和机器生成的自动摘要,发现人工一摘要的似然概率要略高些,证明了词频在衡量重要性上的价值。但正如Luhn自己指出,很多高频词和其重要性并不相称。因为所有文档中的词语总体出现情况服从齐普夫分布(ZipfianDistribution)。]:单词出现的频次与它在词频表中7 第二章文本摘要的相关研究f=的排名的常数次幕成反比。而在信息检索领域非常流行的tidf权重,正好能够解决这个问题脚9。[]计*idf=C*Z〇-2w如)9口)方公,表示词W出现过的文档数虹verse表示所有的文档。^被称为逆文档频率(DocumentFrequency,IDF),表明了该词在背景文档里的先验概率,其值越高说明该词越与某特定话题高度相关,而idf值很低的词通常为停用词(StopWords)。Lo-对数似然比likel化ood艮atio10是比t巧df,可W(g)[]更有效的词重要性衡量指标很好的找到能够高度概括原文的词,这些词在文献中普遍称为主题标志Toic(pSignatur训11]。和tWdf类似,topicsignatures也和话题高度相关,即在其他话题的文档中极少出现。但对数似然比是通过设置阔值来判断输入文挡中的词是否是主题标志。词W在所有背景文档DyA及和输入文档7中分别出现的概率比较分为两种情况:打1P/二P0;(wvvVV|)(|)(不是主题标志)2-3()H2:PwI>PwDw是主题(\)(\)(标志),输入文档和背景文档都可W看作词序列每个词的出现都符合伯努利实验,因此文档的似然值可W通过二项分布公式计算:kw-fc_6W=i_4化,P)(:)p(p)口)TV其中为文档长度,A为w出现次数:。对数似然比定义为\二些迅每口_引其中化和斯-2A,心Pd)分别从输入文档和所有背景文档计算得到。的数据2,分布在统计学被称为X分布,可W用来区分词是否为主题标志主题标志就是似然概2率比随机预期值更大的词,比如。可W通过查询Z分别表来获得某个A值所对应的概率对数似然比为10.83的概率为化001。句子的重要性就可W通过包含的主题标志数量衡8 第二章文本摘要的相关研充量,而不需要对词进行加权。Lin和Hovyll设计的SUMMARIST系统就是利用主[][巧题标志来进行自动文本摘要。而之后131415使用的摘要算法也分别利用主题标志来[][][]进行多文档摘要。主题标志相比词频和tPidf表现更好,因为它是根据实际分布给出判断词语是否具有主题代表性的界限16。[]2丄2句子聚类和图模型一在多文本新闻摘要中,由于主题文档群里的多篇新闻都是围绕着同主题的,因此重复出现的相似信息可W认为是主题相关的重要信息。不少学者ni8i[][][刮就从句子聚一,。类着手来寻找主题句种简单可行的思路是先对所有句子进行聚类,然后从每个类一一簇里挑选个代表性句子组成摘要,同时尽可能的消除冗余信息。句子聚类模型的个显著缺点是每个句子只能严格划分到一个类簇中,但实际上有些句子会阐述多个观点。因此,表现方式更加灵活的图模型开始流行起来。图模型可W兼在词和句子的层面剖析其重复性或重要性。句子之间的相似度往往通过重叠词数计算,因此高频词可W联接多个句子,而且相似的句子可W同时提高彼此的权重,,。因此基于图的方法同时拥有词频统计模型和句子聚类模型的优点。此外图模型可W直接计算句子的重要性值,而不是对词重要性的加权来给句子打分。典型的图模型中24,点代表句子,而边代表句子之间的联系,边权值为相似度。点的值又称为[][]一、中也度centrality,中屯度的概念从社会网络启发而来,将所有句子组成的图看成个()网络、,句子的中也度就是其和原文中也思想的相关性。中屯度可W通过普适的图算法解PRank一决,比如age:当所有的边权值都归化成概率分布后,从每个点出发的边权值之和为,整个图进而变成了马尔科夫链arkovChain,1M而边概率值构成了转移矩阵。()随机过程(Sto油asticProcess)算法可W计算出任意f时刻的点矩阵值,直到收敛到平稳分布(StationaryDistrib加on)。最终的收敛值越高的点,其对应的句子重要性越高,越可能选择为摘要句子。DUC04官方曾经对比话题标志算法[14]W及图模型算法的摘要结果,发现两种模型的表现都很出色一,其中话题标志算法的表现略胜筹。而图模型在通用性方面有无可比拟的优势,无论是单文本还是多文本摘要都表现良好,并且图模型无需语言处理,无论2,中文摘要还是英文摘要均可适用[巧。在多文档摘要中可W通过在同文档句子W及不9 第二章文本摘要的相关研究同文档的句子之间使用不同的权重指标给联接边赋值,来实现区分单个文档的主旨W及21多个文档反复出现的共同话题[。]2丄3机器学习越来越多的句子重要性的指示特征被提出后,机器学习方法能够有效的结合送些不同特征。KupiecP^利用了朴素贝叶斯分类器对摘要进行预测。他使用了五个特征,包括:?3心[2引提出的固定短语特征、Luhn巧提出的位置相关的段落特征、Edmundson提出的词频特征W及Kupiec本人新提出的大小写特征和句子长度特征,并假设这些特征彼此之间独立,样本文档为摘自王程信息EnineerinInformation)188(gg的篇科技文章,每篇文章的类标为由语言专家给出的参考摘要,。经过实验证明多特征结合的方法一,但其中词频这特征反而降低了摘要质量显著提高了摘要效果。之后’,Conro和0Lear25!型HiddenMarkovModelHMMyy巧J用隐马尔科夫模来,[()一,该模型不需要特征之间彼此独立这前提假设提取文本摘要。相比贝叶斯分类器。他们的模型使用了:H个特征句子在文中的位置、每个句子中的词个数和输入文档的词概率。此外,他们还探索了马尔科夫依赖性,即某句子出现在摘要中的概率依赖于它的前句是否在摘要中,。在后续的HMM模型中句子的主题标志个数也被作为特征。在普通摘要中,基于机器学习的摘要算法的表现并没有比图模型或者词频的非监督一些与结构或文体相关的摘要中模型有太大的提高,机器学习算法的表现远远。但是在,因为在这些任务中,胜出,分类器可W用来区分特定的信息种类比如科普论文中的文一学背景的句子摘要,W及会议记录中是否达成致协议。这些机器学习算法中的一个固有问题是训练文本必须带有摘要类标,而人工对文本一27890进行摘要标注非常耗时耗力P6。因此些生成式摘要的研究31致力于][]口]口]口][]将摘要和原文自动对应,即能够分辨出输入文档中的摘要句子和非摘要句子。由于不同一摘要者的摘要方式不样,因此很难直接从单篇摘要去辨别摘要度信息ummar-worth巧yyInformation。为了解决迭个问题,Chali32提出了通过相似度计算从)[]一一原文和参考摘要找出高度相似的句子对,并非完全对应。10 第二章文本摘要的相关研巧总、之,在抽取式摘要算法中,监督学习并没有显著提高普通摘要的表现。仅利用单个特征例如话题词或者图模型的中如度就能得到较好结果。然而至今并没有很好的模型能结合这些特征而不使用监督模型进行自动摘要。2.2基于语言学方法之前的方法主要是基于统计信息来对句子排序抽取。然而通过对文本的语义理解和词句结构的分析,更能发掘原文的主旨性和话题性。有些模型依赖于人工建立的语义资料库如WordNet,如词汇链方法;而有些模型从大量未注释文本推断语义信息,如LSA。2.2.1词汇链词汇链[333435试图呈现原文或段落的主旨。词汇链的原理是话题通常由若干相][][]""""""一关的词语联系起来而表达的,如汽车,轮子,公路等暗示同个话题的词序列,尽管这些词可能无法顺畅的组织成句子36。词汇链的生成极度依赖于WordN圳],一个由专家撰写的、将海量词语分口别类地梳理过后的词汇网络,网络中联接的词都是一具有话题或者类别相关性,词汇,比。此外链模型需要定程度的语言学处理如词性标11注^>及话题相关的分词处理。Barzilay和Elhadad的摘要系统[33]首先将输入文件进行分词,通过WordNet建立一词汇链,,然后给词汇链打分然后从每条高分链中选择个句子。他们的创新点在于该一""—"银模型创建词汇链的方式更合理,能够很好的处理词多义现象,例如bank词可有"""行和河边等多种意思。Barzilay的算法里将文本中所有可能的词汇链都建立之后才对多义词进行消歧处理,消歧方式为该词的实际词意选择在链中有最多联接的语境。一之后的研巧进步改进了建立词汇链的时间复杂度和消歧准确率[3735。][]一词汇链比词频等特征更能反映句子的重要性,因为很多不同的词可W指向同话题。词汇链的特征包括长度,即链中的词个数,及均匀度homoeneit,即链中不同的词(gy)的个数除W长度。通过词汇链选择句子的具体方式为每个链选出代表词,然后从文本中一个包含该词的句子即选为摘要句选择第。11 第二章文本摘要的相关研究一由WordNet推导的词汇链后来演变成概念集合((:〇11669{Set),可1^更好的避免词多义的问题。在多文本摘要系统DEMS38,用WordNet的同义词、上位词W及下位词[]关系推导概念集合。不同于词汇链只是将语义相关的词找出并相联接,DEMS系统将有五种上释义的词都剔除。概念集合建立之后,对每个集合的所有词频相加作为该概念C=6bankriverait的频度。比如集合,即,{,,化b}使每个单词的频次可能很低但是整个概念可能经常出现。然而词汇链W及概念集合都强烈依赖WordNet,导致生成摘要的表现严重受制于WNLSA是一ordet的覆盖及标注效果。因此不需要人工参考资料的种很好的选择。2.2.2LSAD一.Scot提出的LSA39是种通过观察词的共现情况来学习文本语义表示的非监[]督模型。Gong和L山[40]提出使用LSA来进行单文本和多文本的普通新闻摘要,算法一-思路是先将输入文档表示成个词句矩阵儿行表示文档的词,列表示句。^的每个项'*a表示词Z在句子中的tfidf值。然后对矩阵^进斤奇异值分解inularValuey7巧gT一一Decomost二i4=UZyiionSVD:。p,)分解成个矩阵的内积其中户的每行分别表巧一一一个话题,列表示个句子e4也提出了,而每。Ha浊y种基于SVD的算法该模型[U更接近LSA的原始思想,根据大量背景文档的词共现信息来建立初始矩阵儿而不是仅仅要摘要的输入文档。经过实验对比发现,矩阵分解可W大幅改进摘要质量,然而词共现特征并没有比tfH壯提高很多。2.2.3互参信息和修辞结构一反映同语义实体的不同语段除了词汇链、LSA,也可W通过利用输入文档的互参信息CoreferenceInformation实现。起初互参信息在文本摘要中专鬥用来衡量句子重要()性4243,但并没有得到显著提高生成摘要的效果。Steinberer在44中使用首语重复]g][][[法(Anaphora)生成互参信息并将其输入到基于LSA的摘要模型[40]中,大幅提高了摘要一效果,。实验中所有指向同个实体的所有词句都被替代为首次提到该实体的词句;然后将生成的文档输入到传统的LSA模型中产生摘要,结果发现生成的摘要质量相比传12 第二章文本摘要的相关研充统LSA模型反而变差了一个实验中每个句子的实体都被当成衡量句子重要性的。而另特征,,最终生成的摘要质量有明显提升但不改变指向实体的词句。一些研究通过分析输入文档的论述机构来产生单文本摘要另外,其中包括修辞结构Rh一理论(etoricalStructureTheory,RSn45。RS了需要将文档表示成棵树,RST中最小[]的文本分析单元是ElementarDiscourseUnitsEDUs,通常是子句从句Uy()。相邻的ED一通过修辞关系连接起来,更大的单元递归参与形成关系,直至形成个覆盖全文的多层树结构。Marcu464748证明民ST能够在单文档新闻摘要得到很好的结果。[][][]2.3特殊文体或领域的摘要方法一前面各种摘要算法都是针对般摘要而设计的,却也往往能生成较高质量的面向用户需求的摘要,比如基于查询摘要。然而,这些方法通常不适用于特殊文体或者某些特别领域的摘要。当输入文件有某种特定结构或者其他独特的特性,摘要算法可W利用这一些特性使得摘要质量进一步提高。比如期刊文章经常有个总结章节直接概括出文章的,这个总结段显然能给摘要提供很多关键信息关键信息。又比如在医学或者法律等特殊,领域,往往对摘要结果有专业性和准确性要求而且除了输入文档外通常有丰富的相关一资源来帮助自动摘要过程。本小节主要介绍些文体结构和领域不同于新闻的文本摘要研究。2.3.1医学摘要医学领域的摘要任务是不适用普通摘要算法的典型例子,。在送个领域摘要算法通一常由精确定义的需求决定,比如帮助医生对治疗手段的决策,或是去检索和些特别病症相关的最新研究。医学文章往往有固定可知的结构,而且更重要的是,医学界会有大规模的医学资料提供数百万的概念名称及相关语义信息。一些当病人等非专业人±去搜索医学信息时通常没法给出精准的需求,却可能需要专业信息。CentrifUser4950是个能帮助用户搜索信息的摘要系统,实现了多文本摘要[][]和基于查询摘要。它能够从多个文档中选择和查询问题相关的话题段落,这些段落能够给出指向原文档的导航链接,因此Centrifliser更像是指示性摘要,给用户提供了快速浏览功能。13 第二章文本摘要的相关研充医学期刊文章摘要对于医药知识的捜索极有参考意义。著名的期刊摘要TAS51[]S一是病症数字图书馆PERIVAL52的部分。TAS也是个基于查询的多文档摘要系统,[]能将根据查询捜索出来的论文集合进行摘要生成摘要。TAS的特殊之处在于它并不是抽取式摘要,而是通过从自居单元中抽取信息填充到预定义的模板,再进行排序重组生成摘要句子。此外,TAS还根据病人记录来过滤论文,给医生提供适合该病人的相关论文摘要结果。2.3.2期刊摘要期刊论文往往有较为固巧的结构形式,,有些摘要算法从结构入手来寻找关键信息比如Teufel和Moens5:3根据句子的修辞状态(RhetoricalStatus来提取摘要。[])此外,存在引用的论文通常会包含被引语段的概括信息,因此有研究者根据论文的引用链接来辅助抽取摘要。Nanba和Okumura54创建的摘要系统能够为若干篇相关科[]学论文自动生成简介,并且将论文么间的关系可视化,。通过规则匹配该系统能够识别被引用的区域,并将每个被引区域分成H类:(1巧I用的模型或者方法口巧日相关工作的3其他eihai55actSummarization,通过对比或讨论()。而M和Z[]提出了影响力摘要(Imp)寻找被大量引用的语段区域,并利用语言模型从这些区域中对句子进行排序,进而抽取一摘要itationSummarization。另外引用摘要(C促另种基于引用信息的单文本摘要模型。Qazvinian和民adev口6报出从输入文档引用的其他文档中提取出引用部分的重要语段,而这些语段很可能重复表述,2丄2作为摘要、存在兀余信息因此可能通过节中的句子聚类或图模型来抽取和提炼关键句。2.3.3邮件摘要,包括对邮箱摘要和邮件线摘要邮件摘要分为单封邮件摘要和多封邮件摘要。对每封邮件提取一,知道哪些邮件必须立刻回复^1及个话题可^帮助用户了解收件的优先级^迅速查找相关历史邮件一。而邮箱摘要可W提供个浏览界面帮助用户迅速定位感兴趣的邮件。单封邮件通常通过选择能反映邮件主题的名词短语来完成摘要。用ster5758是个[][],能够结合语言过滤W及机器学习方法来选择名词短语来组成摘要邮件自动摘要系统。14 第二章文本摘要的相关研究而微软的研究者59通过支持向量机巧uortVectorMachineSVM[,对邮件句子进行分]pp)一,些类,判断是否为任务指示。先前的全文摘要算法也可W适用于邮件摘要但是需要预处理。1^311160在对邮件摘要么前,先去掉了开头致辞、引用文本、结尾谦词^^及邮[]一61件签名,然后使用个旧M的自动摘要系统[完成摘要。]一一Em另种常见的邮件摘要任务是对个邮件线ailThread进行摘要,邮件线即主()由峭很邮件娘反复回复后形成的邮件系列。Nenkova和Bagga[62限出的摘要系统能从一,个句子邮件线中生成指示型摘要他们只对邮件线的前两封邮件各抽取:在根邮件抽取包含最多出现在邮件主题的名词的最短句子,;在后续回复邮件中提取和主邮件有最多重复词语的句子。而Rambow63从邮件的对话本质入手,使用了两种基于机器学习[]一二的抽取式摘要算法,:第种和普通摘要类似使用词频等特征;第种算法依赖邮件结构特有特征,包括回复邮件数、句子主题相似度等。而他们使用的基于规则的分类器RIPPER,并得到非常好的摘要效果。此外,对存在大量邮件、邮件线的邮箱和邮件归档的摘要是个困难的任务。Newman和削tzer64报出的多文本摘要模型能够快速浏览邮箱。而Carenini提出利用图模型来[进行群邮件摘要,并展示邮件个体之间的联系。图模型中反复出现的词被定义为线索词(aueWords),统计线索词的频率可W用来给句子的重要性评分。实验证明基于线索词的模型效果非常理想。2.3.4网巧摘要网页信息的内容越来越丰富,,为了满足人们快速从网页获取知识网页摘要的需求一2变得愈加紧迫。大部分网页摘要研究都依赖于个开放目录DMOZ来获取大规模网页摘要资源,DMOZ中网页内容和对应摘要被组织成多层结构,越是热口话题的网页节点越在上层,每个网页都有对应的人工摘要。6566Mitl65早期的网页摘要都基于网页本身去建模。Berer和a使用基于统计[][]g[]机器翻译的模型,来给DMOZ的网页和摘要肉容进行对齐,并使用了两个模型分别生。Buukkokten成摘要词及其顺序,最后生成的摘要中会用到输入网页中未出现过的词y等[66]用了基于Luhn思想的简单摘要模型,能够生成可变长度的摘要并显示在小型手2扣扣//、vwvv.d.mozor薛15 第二章文本摘要的相关研巧持设备上。而Delort[67]通过计算余弦值当作句子之间的重复率,来获取句子的网页相关性。811116利用微软的搜索引擎来获取用户对网页的请求及数据的点击流,并[刮H元组形式表示(用户,网,SA,查询页)并结合Luhn的模型和L算法提高了摘要质量。Choi等[6糾利用非监督算法提取网站摘要,来增强赞助广告的表现。在线论坛和博客博文的自动摘要也有不少相关研究。Zhou和Hovy70I」用类似语[巧音,他们注意到论坛通常包含关于多个交错的话题的、邮件摘要模型来对论坛进行摘要异步交互,通过识别回复对象和讨论话题,最终给每个话题提供子摘要。Hu[71]通过对博客博文的评论内容进行词频统计,来衡量句子重要性,最终生成博客摘要。16 第兰章文本的语义表示第H章文本的语义表示3.1弓I目一在对文本进行NLP任务时,除了诸如分词、去停用词、词根化巧temming系)等列数据清洗的必要步骤外,还需要将文本转为可计算的特征表示,作为模型的输入进行一一学习直是NLP界最热口的研究方向之,。文本的语义向量化尤其当深度学习技术的发展和普及后。文本向量的语义性在数学上主要体现在,语义越相似的文本之间的语义向量的距离也越近,包括欧式距离和夹角余弦:-23-二1欧式距离:sima占占(,)(i))SQbii別m=-—夹角余弦:a6(,)p口&a巧如J)J一文本向量化模型分为两种,种是忽略文本中的单词顺序,只保留句子的统计信息如词频、多样性。最经典的就是词袋模型(B巧orWords,BOW)。词袋向量可W作为文本,进行文本分类和情感分析等任务的特征直接输入到分类器。词袋模型的建立过程很简单,下面是两个简单的文档样本句:1Jacklikestolamusic.Roselikesmusictoo.()py(2)Jackalsolikesk)playfoo化all.一根据这两个样本建立个词典包含所有出现的单词,如果是未清洗过的原始文档,则词根建立。""""""""""""""""""Jacklike化imusic民ose化0alsoall,,化〇化{,,p巧,,,,}根据每个词语在词典的索引和在文档中的出现频次可W对W上两个句子建立词袋向量:11211211002111100001()[,,,,,,,,]()[,,,,,,,,]17 第s章文本的语义表示每个维度的权值可取例子中的词频,也可W是tpi肚,甚至可是二元值,即1表示出现0表示未出现。而词袋模型的缺点也很明显,向量表示的特征维度高、非常稀,而且缺失语义信息疏。一"""MJa浊kl另种向量化模型和单词输入顺序有关,可W区分aryloves和JacovesM"这两个句子,Rtlary。词语的顺序很难直接量化输入但循环神经网络(ecurrenNeuraNetwork,RNN)能够通过时间序列的变化,实现变长词串到语义向量的映射seuence-vector。(q)〇hih2htCo ̄ ̄ ̄ooXiX2Xt图3.1RNN结构示图X一如图,X..为输入文档的词串,RNN将文档看成个随时间变化的词序列,每输i2一一入个新词,隐含层就进行次更新;=3-3hh-X<>/(<ti>,)()tf这样,隐含层充分利用了上文的历史信息,并始终保持最新状态,直到最后输出文档的语义向量C。由于带有词序信息,RNN训练出来的文本向量相比词袋模型更具有语义,在实验上直接体现在输入到同个分类器中,带词序信息的模型在情感分类任务的表此外-72,实现了变长串到向量seceecto现更好[。(quenvr映射的模型,可yX适用更复杂])euence-vector-seence的NLP任务,,比如配合语言模型可很容易扩展成sqqu模型完成直接从源语言到目标语言的机器翻译任务[73]。然而RNN优化困难、结构复杂,且容易丢失较久之前的历史信息。本文中尝试使用了两种简单的方法学习文本的紧凑的语义表示,分别是词嵌入加权3233。和深度降维,分别在.节和.节阐述3.2词嵌入加权18 第H章文本的语义表示词嵌入(WordEmbedding)表示词语在连续空间到特征向量的态射,相当于单词的语义向量表示,。相比于文本的语义向量化问题单词的语义向量化问题简单很多。对文本,可直接作为整个文本的语义表示中所有词的语义表示进行加权平均得到的向量,用数7TC学公式表为:2wei占ht*embeddin是1(w〇5(w〇_(可S()weight(vv〇雖=1其中w,embedd化m,i是该文档中出现过的所有词巧()表示该词的语义向量(词嵌入)一e-w苗相〇为词嵌入的加权系数函数。公式34中有两个关键点,个是词的语义表示形一式,个是加权函数。一-对于词的语义表达形式来说,最简单的是onehot表示,即将每个词表示为个长一b-itii度为词汇表大小的向量,其中只有个bt为,bt0。虽然onehot能够唯1其他为一区分不同的词,但是这种简单的映射完全没有考虑词和词之间的关系,语义信息更无一。e-hot形式作为词的直观表达从谈起因此on,常常在些复杂模型中当作原始输入进行处理。词嵌入最常用的获得方式就是神经网络。Bengio74最早通过训练神经语言模型来[]计算词序列的概率一,顺便得到了份词嵌入作为副产品。如今研究者们通过神经网络来处理包括词性标注,,、机器翻译的各种自然语言处理任务时都能顺便得到词向量矩阵而且得到的语义效果通常比简单的语言模型更好,但要求训练集文本必须有词性或者译文等类标-ram语。因此本文使用最简单的基于ng言模型的前向神经网络来训练词嵌入向量矩阵。-ram的统计语言模型的思想可表示为基于ng:-ipod二nLPO?w3itK)nLiPOti為+1)(句=/其中M表示第f个词,w表示词序列f/。前半部分如^打口为t语言模型中词序列的联合概率表达形式。后半部分的?pWtWtr为(|^+l)--nram的基本假设1g,即每个词只和上文n个词有关。基于n-ramg的神经网络语言模型结构如图:19 第H章文本的语义表示?\VnW!W2…,(I5SofmaxtIXavr^1\ ̄ ̄ ̄-巧巧量XlX2Xi-1I|I|I^巧典脈DDD…??.?W1W2Wn-13-图.2基于ngram的前向网络语言模型一-W-图中W..1,onehot形式输入。矩阵D,表示前n个词用是词向量矩阵,每列i2一X都是个单词的词向量。..W...A就是W,2对应的语义向量,可W通过单词对应的li一--onehot向量点乘词典矩阵D得到是前n1,。Xaw个单词的语义向量均值输入到个一分类器中去预测下个单词。最后的输出值是每个单词的预测概率,可W通过softmax激活函数实现:w=-wW..W_3(,2,,nPjii)(句其中Y输出层单词W激活前的值,:i是iy的计算方法为=UX3-7yb+.a^r()其中W?分别为softmax激活函数的参数。对于输入文档WW..濃型的目标函数是最,{i2}大化预测概率的似然函数:L=oW-lW-W--W_38gP(tn+t,.-\ttn+2ti)()SbchastcGradentAscentSGA其中r是文档长度。用随机梯度上升ii可W求出网络中的(,)各个参数:20 第兰章文本的语义表示P(Ww-,W—W-t|t打+itn+2ti)巧。3_9()=其中0t/60。词向量矩阵D是本文所需要用到的参数。(,,)词向量的权重函数we接要能够反映词Wi在所在文段中的重要性。单词的重要=レ?。tfi,性主要体现在两个方面:统计信息和位置信息统计信息可ッ用df值衡量位置信息可W通过该词是否在标题出现过来判断:t=1-weihM+£*PW*5u/310g(。((i))(j)()其中P(W)是位置信息函数,如果Wi在标题出现值为1,反之为0;?S(w;)是统计信息函数,为W的tPkif值。f是个增益参数,用来放大在标题中出现过的词的权重,本文取值0.25。3.3深度降维通过模拟人脑大脑皮层的感知过程,深度模型可W生成人工智能级别的摘要。神经生物学表明,75,大脑皮层之所W有多种认知能力是因为其复杂的层状物理结构。当[]’W’神经语言系统中的多个脑区,包括布罗卡氏区(BrocasArea巧日韦尼克区(ernickes--Area进行即使最简单的词素语义处理LexicalsemanticProcessin,也,(g会有数十层的))7一,皮层参与其中[刮。受此启发本文使用了个无监督的多层神经网络模型来对文本进行降维,学习出文本的深度特征作为语义表示。Hinton[77]在科学杂志首先提出通过使用深度自编码网络来对样本进行维度消减来提取深度特征,并成功运用在手写识别和文件检索中。类似于PCA的非线性泛化,深一度自编码器通过个自适应的多层编码网络(EncodeNetwork)将原始输入压缩成低维紧F一凑的特征码(eatureCoding,再通过个结构相似的多层解码网络(DecodeNetwork将))特征码恢复数据。随机初始化多层神经网络中的边权值很可能导致梯度扩散和局部极值问题,用限制玻尔兹曼机(RestrictedBoltzmannMachine,RBM)进行预训练来巧始化网络可W避免这些问题。21 第H章文本的语义表示隐层h■P嗦嚴,PM\可视层V图3.3RBM双层结构视图—RBM网络在结构上有两层,下面V层为可视层VisibleLaer,般是输入层;上(y)iddenLaer。VA面A层为隐含层巧,而同y),即特征表示层层和层相互连接构成二部图一层的节点间互不连接,因此在隐藏节点巧可视层的节点分别是条件独立的:=?lp(/i|i)p(h\v)p(h2\v)...3-11()'vh=vlhv2hp(...\)p(\)p(\)’因此在输入V的时候可W通过p(hb)得到A,得到A后再通过p〇|/i)可W得到V。’RBM预训练的目的是让VV一接近,从而使得隐藏层A可W作为V层输入数据的另种特征表达。一一2000---本文中我们最终建立并训练了个800300100的多层神经网络,能够从个一句子或篇文档中学习出100维的特征码。为了训练这个网络,我们从DUC语料库中的纽约时报NewYorkTimes巧日美联社AssociatedPress中摘选了10000个句子,进行去(()2000停词、词根化等数据清洗步骤后取词频最高的个词作为词典,将每个句子表示为2000维的词袋向量作为网络的输入。底层的输入层和顶层的输出层都是2000个节点,对应句子或文档的2000维语义向量。:RBM预训练整个建模过程包括H个阶段,RBM拼接和整体调参。22 第H章文本的语义表示2000了Wi800了W三3狐了W3至GCoding?Ws300Wz800W:之000图3.4滯度网络结构,100个节点的隐层为coding层---在预训练阶段,需要训练H个RBM2000800800300300100。RBM,分别是,是个,生成模型,预训练过程是无监督的。RBM的能量函数定义为;.Eh=—av—bh—-vvwh口(,)口)一其中a、6分别是可视层V层和隐藏层&层的偏置参数,w是联接网络矩阵。RBM是-EnerbasedModelEBM种能量模型,,RBMgy,能量模型的概率分布通过能量函数定义()的联合概率分布为:一-片i巧仙)邮,)P〇二e=e-3,h)1)瓦六苗而(3Z一一A其中是个归化因子。当输入层V确定时的概率分布为:-Evh.p()—-Ph==—3M()Sh()1RBM中RBM2000-800预训练的H个,除了底端的有连续数值输入,其他的两个()RBM的隐含层和可视层的所有节点均为01二值,即Uf,咕6{0,U。每个节点被激活的概率为:-P/i=lv=a{b+Wv315(i\)ii)()23 第三:章文本的语义表示Pv=l^=(ya+Wv(j|){jj)=11+e-id其中cT的/(巧J(x))为sigmo激活函数。为了更新参数W口6,RBM采用的,G一Gibbs采样itibsSamlin。Gibbs采样可W根据个复杂概率分布生成数据进行采样,(pg)因此可根据V层采样A层,再从A层采用V层,反复迭代:?^°-P(/iv^hPvh>|),(\)3-16()i一1i一Phu片P...(|),州&)其中/<1和化分别是可视层和隐含层在第/次迭代采样的结果。利用这些样本可^^用梯度上升方法进行参数更新,具体算法可用陆nton的对比散度ContrastiveDiverence方(g)法。训练完一RBMRBM一BM个的参数之后,可W将这个的隐藏层激活值作为下个R。,RBM的的可视层输入进行训练经过逐层预训练后每个两层节点都成为特征表示,一一进而将3个RBM联接起来,并复制份进行翻转,可W拼接成个图3.4中所示的多?层网络2000-8000。其中底部及顶部的RBM()的样本输入值为1的连续值,并非01二?元值,因此在顶层输出的时候用lostic01,gi函数可得到的激活值用交叉贿作为整个网络在整体调参阶段的目标函数:——一-=P1Z〇l3-/S17ii柳6左(Ag(巧)())其中巧代表输入层节点/的强度,H代表输出层节点/的重构值强度。最小化交叉煽的优化过程可W用梯度下降求解。用交叉煽作为损失函数的原因W及梯度下降法的迭代过431,程会在..节里详细阐述。为了加快训练过程可W将样本集划分成min化atdi进行训练。一-不同于图像处理个像素向量,0255,图像输入是每个像素的取值固定为的整数。一因此只需要将像素向量除W255就能保证每个输入值在(U]么间,这时候输出层用个[iilogstc激活函数就可W拟合要重构的输入值。但是本文模型的目标是要对文本进行降维处理,输入文档样本通常是Wtf值为权重的词袋向量,然而tf值会随着文本长度变一长而增加,取值范围不确定,因此词袋向量必须除レッ文档长度,变为个词概率向量作24 第s章文本的语义表示レ为原始输入。这样会导致两个问题:lッ词概率向量作为输入时,输入层的所有节点()之和恒为1li,但是输出的ogistc激活函数没有这个约束,并不保证能理想的重构输入;0,尤其当文本很长的时候趋近于0,这将使得节点的激活值非常)词概率的值往往很小,进而导致训练出来的网络边值往往会很大,使得重构效果非常差小。-,Hintontrick是让底层的RBM2000800W词袋向量输入为了解决这个问题的,()-避免输入值太小导致无法激活,而顶端的RBM(8002000改用softmax激活函数,保)证输出层的激活值之和为,这时候只需要将目标函数改为激活值向量和输入文档的词1一概率向量的交叉赌,。而Salakhutd78就可W解决上文提到的两个问题inov使用了个[]更为复杂的约束泊松模型ConstrainedPossionModel对输入向量建模。()上述的两种模型都比较复杂softmax,且都用了作为激活函数使得计算量比较大。一Min-max本文给出的解决方法是对输入进行归化处理,将词概率向量进行离差标准化(Rescaling):X—mXi打f(),?<义"-化口)一-Minmax归化后的输入向量其实就是之前的词概率向量的线性投影,但每个维度一-的值都被放大了几倍到几十倍,并依然保持01的取值范围,。同时归化后的向量并没有各维度值之和为,li1的约束因此只需用简单的og姐C作为激活函数就能有效实现数据重构。3.4实验对比L一为了证明两种文本向量化方式的有效性AS比较两者优劣,本文做了个文句分类"的对比试验。从DUC2007语料库中我们抽取了6篇新闻,分别是AnInterviewwith’""""BURMASAunSanSuuKi,GinrichWrasuHisOficialDuties,SpainFacinitsgygppg"""OwnFearsonSeparatism,SearchforSuspectedAbortionClinicBomberStillWideOpen,"""E-CommCerceiSoontoACoShNY口NkStikDit:omngfeeopearou矛asrresssonanpCh"一ords。每篇新闻均大约有百个句子。-分别对所有句子进行两种方式向量化后,使用常见的高维数据可视化工具tSNE25 第H章文本的语义表示一--TdistributedSt:oc;hasticNeiborEmbeddin79来观测他们的分类表现(班g)[]。tSNE是种流形学习方法,通过保持数据点的相邻关系把数据从高维空间降低到二维平面,特点是数据分布的边缘呈圆形,适合实验结果作图对比。^SNE的降维原理就是让高维数据在映射到的低维空间中依旧保持和之前类似的分布。在原高维空间中两个点和;的相似性定义为:+PiPl—j=\\jpy3-91()’其中n为点的个数,表示为z的邻居的概率:PW_/exp--x'2(/2)|k,f*y—=j【|Se邱xXfcP/2fcwHl广的2X屯、?其中巧。而在映射后的低维空间,是从点i为中的高斯分布的方差点y冲3的相似性0计算公式为:+i(ib广y/r=—■-i-yIi+2…:fc*!(llyfcy!l|)通过优化算法可yA使映射后的低维空间的相似度矩阵和原高维空间的相似度矩阵相近,此时得到的映射点就是降维后的数据。-NE的降维对两个语义向量化模型学习后的所有句子样本进行tS,左侧是词嵌入加一个颜色的点代表来自同一篇新闻权模型结果,右侧是深度降维模型结果。其中同,因此聚类效果越好代表句子分类效果越好,即语义向量化的质量更高。参-?挪出"'‘—、識%鶴*?*為?二WvV娘,聲缀?.巧口**々乏?S■6(aweightedmeanofwordembeddingsrep巧汝ntaHo打化)deecodingreR泌ntation)pp图3.5语义向量化实验对比,左为词嵌入加权,右为深度降维26 第H章文本的语义表示实验结果图像表明两种向量化方式在文句分类方面的效果都很好,说明两种模型都能学习出文本的低维语义表示。而对两种方法的表现进行比较,可W发现深度降维得到一,35,的向量分类特征更加明显如图.所示每篇文章的句子集都构成了个扇形视觉上可直观的通过叙率加W区分。3.5本章小结一在实现自动摘要算法的过程中,文本的语义表示是不可或缺的重要步骤,。方面^,将原文整体1^及所有句子的语义向量化后才能为后续的重构算法提供原始输入;另方面,将文本用语义特征而不是简单的统计特征去向量化表示,可使得文本向量包含更多的语义信息,从而让生成的摘要句子更契合主题。相比于词袋模型的高特征和语义缺失,我们希望能够生成紧凑和富有语义的文本向量。当前最热口、效果最好的语义向量化是RNN,但是结构比较复杂。在本文中用了一两种相对简单的模型生成文本的语义表示,。种是词嵌入加权将复杂的句子向量化一-word-vectextvector问题转化为相对容易的词向量化tor问题,词嵌入可W通过个基()()一一-于ngram的前向神经网络训练。另种方法通过模巧大脑皮层的深度结构,训练个一多层的神经网络学习得到文本的深度特征作为语义向量,其中利用输入归化简化了模型。经过句子分类的实验论证,两种方法训练出来的语义向量表现良好都可学习出文,本的紧凑的语义表示。27 第四章原文语义重构策略第四章原文语义重构策略经过第H章的两种语义向量化方法后,可W得到每个句子甚至整个文本的语义表示,进而再输入到设计好的重构模型进行摘要提取。语义向量的意义主要在于提高了生成摘一要的凸显性,让生成的摘要能够W最小的。而本章的重点就是设计个有效的重构策略重构损失去还原原文档的语义。重构模型的基本思想是得到能够最佳还原文本的句子集作为生成的摘要,其中有效的重构策略是获得高质量摘要的关键,。重构策略包括重构函数的设计重构源和重构对,重构函数可W是线性的象的选取,也可是非线性的。重构源可W直接对。具体来说所有可能的候选句子集进行重构,找到最优句子集直接作为摘要;也可W是yA单个句子一重构-逐,得到每个句子的重构贡献度,W此排序取topk。重构对象可W对所有句子一一逐重构,累积重构误差也可W是直接对整个文档进行;次重构。He在巧0]中重构策略是利用线性重构函数对原文中的所有句子作为重构目标,逐句进行重构并累计重构误差作为目标函数,最后找到总重构误差最小的候选句集作为摘--要。Liu在巧。采取的重构策略是构建个由若干RBM找式堆叠而成的深度模型进行逐句重构,经。重构源和对象都是每个句子的词袋向量过深度网络的非线性重构后能在隐含层节点提炼出若干个原文概括性最高的关键词,再对每个句子W关键词为权重进行打o-k分选取tp。在4.2节和4.3节中,分别设计了基于线性函数和非线性函数的重构策略,对原文一.4节又从冗余消减方面语义进行重构。此外,4,对重构策略进行定程度上的优化,W提高生成摘要的质量。最后在4.5节进行实验对比论证。4.1线性重构策略He的重构策略是对原文中的所有句子,逐句进行重构并累计误差,最后找到总重。构误差最小的候选集该重构过程的目标函数为:22-沪叫+4-加打1义4巧=li化1|刈而||()28 第四章原文语义重构策略sXC:VZ=.t.m,|1*^^A=aa〇ER..,,,[^2mf其中F是所有句子集合,乂是候选句集,也是F的子集。a;是每个句子的线性组合系数,。^是正则化系数防止参数过大导致的过拟合现象。-hard该目标函数的优化过程是NP,无法在多项式时间内解决,经过二次规划后可[^等价转化为如下函数:了-。mi打7>^乂+乂〇叩X1片]4-2()■tXC二义.Vm,间该目标函数可W通过贪也算法获得近似解,最后得到的最优义就是生成的摘要。和He的原句重构策略不同,本文的重构对象是原文的语义向量,而不是重构所有一句子叠加误差,避免了复杂的泛函分析,降低了计算复杂度;另方面He的重构模型,而本文W语义表示作为输入,用的是词袋模型作为输入,W重构原文语义为目的使得生成的摘要更具语义性和凸显性。4丄1目标函数用第H章中的语义表示模型,将清洗过的文档中的所有句子W及整个文培分别用语=S..,S义向量表示,令句子集为矩阵5SS.其中每列的{i,2,3}表示第/个句子的语义向;量又令,。,重^/为整个文档的语义向量特征维度同在本文中构源是所有句子,经;&过线性组合后得到重构结果:=S卿4-3/口)咒i()其中W是句子&对应的重构系数,。重构目标是原文的语义向量并用欧式距离平方作为i重构损失:29 第四章原文语义重构策略^^-—-—Ld5=dS=S4-4(〇do),/())\\YLii11\\||(ii()6J表示线性组合系数向量,表示向量o到6的欧式距离。重构损失表示为欧式距离的平方并乘因子1/2的目的是为了求导方便计算。该目标函数在形式上同回归二ea一问题中的最小乘估计(LstSuareEstimationLSE),q,求解过程是个连续可微的凸レ优化问题,可ッ直接用梯度下降法求最优解。W中系数为0的项对应的句子被认为文档不相关句子,因为这些句子并未参与原文重构。因此最终生成的摘要只会从W中非零项对应的句子集中挑选。损失函数除了用欧式距离计算的重构误差外,生成的摘要总是有个长度限制。比如做后续对比实验的摘要测试系统DUC中,对每篇文档的摘要结果有严格的长度限制要一求,必。因此我们希望组合稀疏W中含有尽量少的非零项须在目标函数上附加个稀疏惩罚项:2m-in3加+Aw4||||。垂||||z〇(句L一其中.是〇范数形式,用来统计向量中非零维度值的个数乂是,;个正则化参数IIIliD用来平衡稀疏性和重构损失。-然而L〇惩罚项的优化过程是个NPhard问题,无法在多项式时间内解决。常用的方法是用Li正则项或者b正则项替代L〇正则项,将目标函数变成凸优化问题。k正则项的表达形式为:w=4-6l|||1(!i摧1帖)k正则项的表达形式为:=4-7IMI!2V摧()!>〇替代为k范数后目标函数变为岭回归(RidgeRegression问题,也是个连续可微的)凸优化问题。对比之前的最小二乘,k范数能够在给出最优解和求得很小的系数W之间做平衡。尽管k正则项能够实现参数收缩(VariableShrinkage的目的,但是它并没有很)直接地将系数强制为0,而是仅仅逼近为0。[82]已经证明^范数能比^范数在处理稀疏性方面更优秀,尤其当矩阵尤中存在不相关的特征的情况。30 第四章原文语义重构策略W‘l2Iw'L-normL-norm、/、\/车/图4-1L1范式相比L2范式能得到更稀疏的最优解图中模拟的是二维空间的优化过程,虚线部分表示随A变化而伸缩的范数约束域--normball,红线为损失西数等高线,红线和normball相交的点就是最优解的系数()。从-1图上也可直观地看出k能比^得到更平滑更小的系数,但是^的1101^631更容易在特征轴上相交,即能得到更稀疏的系数,,。基于W上考虑我们用山正则化作为稀疏惩罚并得到对应的目标函数:2加打d-加+A-山畫l|||IMlii48()一二其中A是个用来平衡稀疏性和重构损失的参数。带^范式正则项的次回归问题曾经分别独立的表达为LeastAb…1山eSelectionandShrinkageOperator(LASSO)回归问题[83]as-及BisPursuitDenoisingBPDN84问题。公式48称为Lasso的拉格朗日形式或者()[]consFo=非约束形式(Untrainedrmulation)。非约束形式Lasso是个凸优化问题,但对0时的Wi并不可微,无法用类似最小二乘估计或者岭回归问题的方法去求全局最优解。因此更多地被写成约束形Lasso(ConstrainedLasso)去求解:-2m化d56jWJ||||4-9()s.t.|M|!i一约束形Lasso的目标函数是个凸函数,而且约束条件定义了个凸集,因此是个凸一,而且任何满足约束的局部最小值都是全局最小值优化问题。在般的Lasso回归模型Cro-中,参数又的取值需要通过交叉验证ssValidation方法去确定,因为乂值太大会让回()31 第四章原文语义重构策略归系数过于稀疏导致拟合不足;而A太小会导致过拟合(overfiting)现象。但是在本文中一并不需要学习出个能精准预测类标的回归模型,而是通过给定的5、d优化目标函数;W得到最优的W,通I,可。因此过手动或设定程序自动调整的值W获得理想的W进而生成满足篇幅要求的摘要。此外当生成摘要的原文档比较短的时候,即文档的句子数n远小于语义向量的维度一W时,用山范数正则项可能会遇到退化现象,即当存在组相互高度相关的句子,Lasso一会倾向于只从中选择个句子而忽略其他几句。原Lasso表达式附加k范式惩罚的弹ltN85可性网络巧asicet^^克服这个缺点:)[]2加打d-SWWl|II^4-10()S-<t1q..+a义(〇|M|!ilMIk一==其中a是个平衡参数,当a0和al时目标函数分别变成Lasso和岭回归,因此L一一可W看出弹性网络是asso和岭回归的种折中。a往往是个接近1的值,使得弹性网络既有Lasso的稀疏功能,又能避免由于句子间高度相关而导致的选择退化。弹性网络适用于文档句子数《远小于语义向量维数的情况m,而本文实验所用的标准测试集DUC每篇文档都有300个句子W上,远大于语义向量淮度100,因此对比实验所用模型更适用Lasso算法。4-公式10通过手动调整A的值,可W获得理想的W进而生成满足要求的摘要。摘要的篇幅限制包括句数限制和字数限制。当限制句数时:2加n-Sw"垂IM||4-11()S.t.<A,<tlMI!IMI!!。其中/的值为摘要结果的限制句数:。当限制生成摘要字数时-2d5w4-m化12W||)(卽32 第四章原文语义重构策略<°<St6jCi..X()I|||l,Yi\\j^^i0C?其中表示第/个句子的长度,/表示摘要结果的字数限制,表示求0,此处.||次方值t0定义〇=0。4丄2优化方法L是一二asso种典型的凸优化及次规划问题,可W求得全局最优解。学术界对Lasso问题已经给出多种解法。Efron的最小角度回归(LeastAngle民egression,LA民S)巧6]算法不仅发现了Lasso和boosting么间紧密的数学联系,还通过结合前向逐段回归(ForwardStagewiseRegression将求解过程优化至相当于最小二乘法的复杂度。而)Friedman87的坐标下降法(CoordinateDescent是最快的Lasso解法。[])用LARS算法求解约束性Lasso的步骤:=.^初始化〇)为0,此时残差5^/。找到与/相关性最大的自变量5;.S=-和(5,若正相关则增加对应系数的值反之减小,同时更新残差5dd。j直到另有Sk与S的相关性与s同样大;?在(S加(OJW),直S与当前残差S也有,却,到另有)的联合最小二乘方向同时增fci;y同样大的相关性.迭代直到所有S都被激活一一、数据处理也是重要的个步骤,化和归化。在进行优化之前包括数据中屯,文本--0、1-矩阵5的各列都要标准化为均值方差,而文档向量^^将中也化为0均值。通过中也化为0--,可从消除截距,均值。通过对X进行1方差可W呆证S中的所有列都处于一范围一相同的数值尺度进而让所有的系数也处于同,这样避免了个高范数的列倾向得到很小的系数。可心:^正明稀疏参数^值变大,得到的最优系数W的非零项越多,而且将包含较小的参数得到最优解的所有非零项,因此得到的摘要字数更长:33 第四章原文语义重构策略乂<乂^"'单〇E0)单o12|1}y2!|yj4-13()0〇<'=>'巧=1。|=巧|而巧1与jIl其中&是在给定^下用LARS或者坐标下降算法求得的最优解。生成摘要的长度关于变量^单调增,因此可W用二分迭代法确定^的取值。算法4.1:线性重构生成摘要I山&生成摘要的/np:文档的语义向量A文档中所有句子的语义表示集合矩阵字数限制ou:ummartp山生成摘要句子的索引集合sy化scription:从文档中通过语义重构的思想找到线性重构损失最小的句子集作为生成的摘要10--将S的所有列及向量d中也化为均值,另将S的所有列标准化为1方差()文的大小极值A=0=n口)初始化,!〇w4邮=-<5WWW口;A5输出i0。5是义的取值精度0.0001口)如果*,本文取。!〇w如邮,〇{崎}||否则继续步骤4)(4乂取中值义=+义LARSCD()?h,并用算法或者算法求出对应的最优解S^^^化。VV邮)0=5计算生成摘要的字数长度Z,如果?</,表明组合系数S过于稀疏,即^直偏()巧&临|小=■乂义=乂,因此更新极小值新Abw来缩小又取值范围;反之值偏大,更新Wh。^。0返回步骤3()4.2非线性重构策略一在4.2节的重构策略中,我们采用了个线性的重构函数,通过从候选句子集合进行线性组合,对原文档的语义向量进行重构。而在本节的重构策略中,采用的是非线性重构函数。相比于线性模型,非线性模型通常更加灵活、更加平滑,对数据的拟合更加,精确,;同时从人脑决策的角度分析人工生成摘要的过程是个大脑皮层中多层神经参与活动认知的过程一过,而非线性的模型通过学习更高层、更抽象的表达,能够模拟这程。最简单常用的非线性模型就是采用非线性激活函数的神经网络。L一iu在81采用了个思路类似重构的深度模型。该模型通过由多个RBM堆叠而成[]的多层神经网络,对输入的文本进行概念提取(ConceptsExtraction),因而隐含层也被称为概念层,。隐含层节点经过计算可切获得输入文档的关键词进而作为句子的重要性评价进行排序抽取。34 第四章原文语义重构策略4.2.1模型结构及训练一--0080,本文使用了个1100的两层神经网络去模拟了文本的重构过程结构包括H、。C、、C原文重构网络也和输出层y了输入层话题提取网络!隐含层;utoututinppn图4-2前向重构网络结构示图100个神经元。输入层:,包含;C输入文档(句子)的语义向量H1,可W得到相:对输入文档句子进行概念提取,由于经过了非线性函数的激活()比输入层更为抽象的持征表示。一A入层压缩后的抽象表示个话题,每,每个神经元可W理解成隐含层:相当于输个输入文本都映射成80维的话题向量。一。iidH2,对隐含层的话题向量进行原文重构激活函数是smo;构成个重构网络g函数。,W达到非线性重构的目的输出层重构得到的结果。,每次输入的样本是文档的句子在该重构神经网络的训练阶段JC。该网络尝试学习i一(〇一()出个/wx)?X的重构函数,因此对于每个句子的重构过程x一/wbO)S来说,b(,i?(0重构误差可W用输入X和输出克欧式距离来表示:35 第四章原文语义重构策略2(t)(【)(i)—(。=-14^b;c克x《14八,,)叫(4)||2t2用均方误差(MeanSuareErrorMS:q,巧衡量该网络原始状态下的损失函数为W=WX阳阳/r(,的,6,,《+econs扣左i/()九刪W4-15()=仍-批+.)2沾=1非<读=心,;(<)其中/weit为权重衰减项(WeightDecay),用来防止网络边权值过大造成的过拟合现象,w又是权重衰减参数,用来平衡重构误差和权重衰减。表示网络H/中节点/和节点y的联接边权值。隐含层C模拟的是输入文本的话题分布,而每个输入的句子通常都只是涵盖很少的,话题,因此除了重构误差外我们为这个网络另外加上隐藏神经元的稀疏限制,这样能够让隐含层学习到每个句子的侧重话题,而不是仅仅实现降维压缩。稀疏限制的思路是抑制隐含层神经节点的激活值imoid函数作为激活函。在使用sg数的时候,隐层神经元的激活值接近1时认为该节点处于激活状态,而激活值接近于0的时候认为该节点处于抑制状态。因此稀疏性限制就是让隐藏层神经元尽量处于抑制状态,即激活值接近0,是因。这种稀疏性限制从模拟人脑的角度分析为神经元-语义分析时被激活是需要能量的,只有小部分神经,每次大脑皮层对输入文本的词素元工作,其他都处于被抑制状态。,?用〇乂=表示隐藏神经元在输入样本J下的激活值,在训练集U..X上隐(句yi乃。}/藏神经元〇的平均激活度表示为:/=〇仍4-16己1[(>)]()扣/一为了实现隐藏神经元的稀疏限制,在我们的优化目标中加入个额外惩罚因子。但是该惩罚不是简单的将隐藏神经元的每次激活值直接累加,因为理想中的激活值是个接〇^〇〇近于的个很小的值,却又不完全等于。因为所有点激活值为训练出来的网络会一导致连接边极大,导致重构效果极差。因此,我们定义个稀疏性参数7。通常是接/36 第四章原文语义重构策略近0的较小值,如0.05。通过鼓励隐藏神经元的激活值都尽量接近,可W抑制隐藏神经元的激活程度。因此稀疏限制的关键就是惩罚显著偏离yO的情况。量化区别两个分布的指标有互.信息,此处平和7,KL、卡方检验、KL散度等均激活度凤/都是离散序列散度是个最合适的选择:=—KLplo+1lo4-(、咕)pg(p)g(17)長請因此整个网络的稀疏惩罚用KL散度表示为:二-/+1pZ〇岛4-sparse巧=1()18告赛()=其中A为隐层节点个数,在本文模型中A80。整个神经网络的损失函数包括重构误差(^^及稀疏惩罚:W6—W&+/,,cost()/recons()片/sparse4-19闲。2()二W6x/辦++=i(,,,)=l:)试麵i"喊峭=iKL(pApj)而总损失画数对各层网络参数W和6的偏导数分别是:阳的!)/W6=^占X克+乂cost(,)左,,,命扣1命八)哨4-20()W占==免阳/c〇"(,)j扣fi)贵贵其中W,6,x(〇,挪是单个样本(X?妒)的重构损失的偏导值,需要用反向^/())传播(BackPropagation,B巧算法计算得到。,为了方便计算定义单个样本在网络中的流程如下:37 第四章原文语义重构策略=口)输出层y輸}^難yaa口J=z口)W)22zW=wWa+bW()()网络HW,6,2(餐)隐含层aii()()=()a<pz()(i)=。)…zW!+占;:i1W()()网络H,6i(,知)XI、输入层X、;I今]I#\图4-3重构网络每个样本计算流程其中Z表示网络加权值,a表示激活值,例3表示激活函数,在本文中是sigmoid函数一二。隐含层为第次激活值,输出层为第次激活值。整个网络的计算过程简写为*fw°b(),后向反馈算法的具体流程描述如下:对每个输入样本,进行前向传播并计算网络中所有的激活值。然后对网络中第/层?的每个节点/计算其传播残差A,表示该节点占输出层残差的比重。其中输出层的残差表示的是激活值瓜6的和预期值X的差距,可W用欧式距离计算:,>-=X=—X。/w皆赤創'bWlIb)命扣如j严)4-21())2--)=-=.<PXaT扣^的i皆))i批蜡)洁(巧其中m为输入层、输出层的节点个数,本文中为100。如果不考虑稀疏限制,隐藏层的残差为:422()3));-=X=X.咚頭1广獅端1广徊知快亦())())倚38 第四章原文语义重构策略)>=.巧.=..恥妒诗I=1巧喘皆如悼考虑了稀疏限制后,隐藏层的残差改为:)=-SZLW++4-23尸JiPC)如皆、()(f皆y表請1得到输出层和激活层的残差公式后,就可^计算单个样本批,巧重构损失分别对边权值W和偏置项6的导数:—1!))W=八6x〇^,,,巧{皆4-24()【)=jQV.b.x.巧S[j^其中/为0或1,分别计算是隐藏层和激活层关于W,6的偏导。网络的训练过程,首先巧始化网络参数(W6),将每个参数Wif和赋值为接近02=的极小值,可W通过正态分布Norrnal(0,e)随机生成e化05。随机初始化而不是全0()初始化的目的是实现对称失效(SmmetrBreakin,防止所有的边权重学习到相同值。^yyg)初始化后,参数可W通过梯度下降法进行优化,由于损失函数/c〇st(W,6)非凸,可能得不到全局最优解,但是对于层数较浅的神经网络来说局部最优解也足够理想,也能实现一文本重构功能,,迭代。梯度下降算法每次迭代时将文本的所有句子逐输入进行训练到/c〇st(W,6)很小。每次迭代的具体过程:==1初始化梯度4W0Z160),2=)对于/1;n阳【BP文()和阳《阳用算法计算偏导数,,,并更新计算))阳(。阳阳證一澀+/W,6,X,克和46一Z16+术,M,文為()竞八)3更新参数占)39 第四章原文语义重构策略———一—^?一t'V\lWItW及b占IAb(()其中/r是学习率。梯度下降迭代训练完后,模型网络已经能够模拟原文重构的过程,并在隐藏层实现了话题分布的提取。本文的摘要模型和33节中用于语义向量化的深度模型在结构上有几点区别:1网络结构上:向量化模型用的多层神经网络,摘要模型是个浅层神经网络()2参数初始化:向量化模型需要用RBM预训练,防止梯度弥散;而摘要模型层()数较浅,可W随机初始化网络参数3隐含层:向量化模型的隐含层即编码层节点个数较少,目的是实现深度降维;()而摘要模型的隐层节点数相对较多,但有稀疏限制,目的是实现话题提取(4)损失函数:向量化模型的损失函数为输入输出的交叉煽,而摘要模型的损失函数为输入输出的重构误差加上稀疏惩罚4.2.2摘要提取—在线性摘要模型中,可W次对多个句子进行组合重构,因此可W直接通过优化重一构误差来直接获得最优句子集,作为生成的摘要。而神经网络每次只能处理个句子,一因此最理想的摘要策略是用该网络模型给每个句子,逐1^原文重构效果为标准打分并一排序取to-k作为摘要个量化单个句子重构原文p。因此非线性重构策略的关键是定义效果的指标。一一重构原文的效果体现在两个方面,个是重构损失,个是话题契合度。和训练时一样,句子5的重构损失用欧式距离计算候:2-A=w-d(42叫b切,||/||其中J是整个文档的语义向量,/w,b(s)是句子5的语义向量在网络模型中的输出。话题契合度是指句子的话题分布和文档主旨的相似度,用相对贿计算:40 第四章原文语义重构策略/=h4-262切||)()口一&其中口^对应的第层激活值,即隐藏层向量/乂句表示输入句子。表示文档^对应的隐藏层向量。然后对文档所有句子求总损失:—/=a+1〇4-27cost/i(〇/2()对句子的排序人。St值排序并取最小的个句子作为生成的摘要。整个算法的流程:算法4.2:非线性重构生成摘要虹P山:文档的语义向量d,文档中所有句子的语义表示集合矩阵&生成摘要的字数限制/Outp山:摘要句子的集合訊mw幻呼Descrion:ti从文档中通过语义重构的思想找到非线性重构最好的句子集作为生成的摘要p--S的所也、01)将有列和d中化为均值,另将S的所有列标准化为1方差(立稀疏2口自编码神经网络,参数(W^i随机初始化为Normal00.01)建,O(,)55..:8口.训练,并用梯度下降法优化得到(^4饼W句子集{1,2,53}为样本进行4/挡^输入网络,得到隐藏层向量々为文档主题分布()文'=5for!l:?()iscore=a--机()i+1aah[]/w,6〇i)()(Oi)II)||別2巧scoreA)将数组中最小的个句子输出为4.3冗余消减能W最小重构损失还原文档的句子,被认为是与文档主题联系最紧密的句子,因此一重构策略抽取出来的句子满足了凸显性这指标。此外,本节通过加入冗余消减功能,来完善重构策略。兀余就是句子之间的重叠信息。生成式摘要可W通过句子的融合重组,提炼出互不一冗余的新句。然而对于抽取式摘要模型来说,冗余消减的实现非常困难。方面,兀余41 第四章原文语义重构策略,i?i度难^计算^^最经典的基于差异最大化(maxmal出versityMM民5为例:)的摘要算法[]MMR省Arg百畫4_2(刊摧巧是?C其中W刪^是文本相似度函数。表示所有句子的集合,S是己经选中的句子集合,c\s;£C和S的差集即未选中句子集合。MMR算法的思想就是初始化&然后每次挑选在剩余句子找到和集合S最不相关最大边际相关的句子并添加到S,反复迭代至达到长度限制,()得到的集合S即为生成摘要。可W看出,冗余度往往要么在己选中的摘要句子集之间计算,,或者通过待定的候选句和已选中的句子之间计算前者通常是用于对摘要模型的改进,而后者依赖贪也模型逐句选择并迭代更新候选句集。一fo另方面过度的兀余消减可能导致信息损失(InrmationDistortion。比如下图出现)一的情况,H个句子S,SS示,i2,每个点表个话题每个句子都插盖了部分话题。如果选,3择句1和句2组成结果摘要,能够涵盖了更广的话题,却存在信息冗余;如果单选句3,则会导致信息损失。摘要算法必须在冗余消减和信息损失之间做出衡量,力求W最小的信息损失消减最多的兀余信息。S,kjiJin5<1齊戀戀HP■S2亀m亀mm亀始壽?雖靖.#辨聲一图4-4对H个句子进行兀余消减示,每个点表个话题,尤其在多个文本摘要任务中,主题衍生的分话题更广各个话题高度相似,而重复率最高的信息往往是最重要的信息。消除所有的兀余信息很难通过算法直接实现。因此一,本小节只是在定程度上消除冗余信息并进行探讨,W完善重构策略。在线性重构策略中,我们认为组合系数非零的句子参与了重构,而零系数对应的句。子未参与重构但在参与重构的句子中,负系数对应的句子可W理解为是被消减的部分,而正系数对应的句子才是真正提供话题参与重构的部分-。因此,在公式412的基础上加上系数非负的限制,可W强制让所有的句子参与正重构进而减少冗余句子的产生;2mmd-如-"||||429垂()42 第四章原文语义重构策略〇s.t.</1"含0Cw</|M|,,巧|l!iii系数非负限制的Lasso又叫PositiveLasso,可W通过修正的LA艮S算法求解。求得的最优化系数W中的正项所对应的句子将被选为摘要句。-k而在非线性重构策略中,摘要是通过选择重构度top的句子集合生成,在排序提取-k的top过程中,每个候选句和之前选中的句子都进行相似度对比,可W通过欧式距离,或者夹角余弦计算。如果相似度大于预先设定的阔值则认为该句子为兀余句,不被加入候选句集。4.4实验对比4.4.1数据集和评测工具3本文米用的文本摘要数据集为DUC(DocumentUnderstandingConference)数据集。DUC会议是美国国家标准与科学研巧院(National虹stituteofStandardsandTechnolog乂一NIS巧自2001年起主持组织的,每年举办次,自2008年起更名为文本分析会议Text(AnalysisConference,TAC)。DUC/TAC先后启动了单文档、多文档、面向查询、动态摘要W及更新式摘要等多个不同类型的摘要评测系统。每年都有超过20支队伍参加摘要一直在持之W恒的改进摘要评估的方法系统比赛,而且会议组织者也。DUC数据集已经成为自动文摘领域最普遍也是最权威的标准评测数据集,DUC。在本文中采用了会议在2006年和2007年的数据集,都是关于复杂话题的多文档摘要任务,分别包含50个和45个主题文档群。每个主题文档群各包含有25篇摘自纽约时报NewYorkTimes()A一或美联社(ssociatedPress偉媒体的短新闻,同文档群里的短新闻都是围绕同主题而"报道,例如DUC2007的第6个文档群的25个新闻都是由细甸军政府延长昂山素季"一"""软禁期这事件延伸出来的,具体包括素山昂季与诺贝尔奖和平奖、反对派示威"""者遭大规模逮捕、英美法等国家及人权组织纷纷谴责铜甸军政府等相关新闻。每篇短新闻约有十几个句子共300多个单词一250。最终要从每个主题文档群生成个字W内的摘要,即3%左右的压缩率。此外每个主题文档群会提供四份由语言学专家给出的人工摘要作为评测参考。'3’v’ncx!iU://、vwv、-nist.g〇.htmlic!p…—43 第四章原文语义重构策略一自动摘要算法的评测指标般是通过与人工文摘对比,在给定粒度文本单元的共现一情况来计算。DUC/TAC对参赛队伍提交的摘要般有4种不同的评测方式,分别是BasicElementB、Pyramid、RougeW及专家评分。其中BE系统的文本单元粒度是Basic(巧、Element,即名词动词等中屯词W及中也词与修饰词之间的关系,通过对比自动摘要和专家摘要的BasicElement来给出评分。Pyramid评测系统的文本粒度是摘要内容单元一语义的词集ummarizationContentUnitU,,评测过程比较复杂费时。而巧,SC即同)Rouge是使用最方便最广泛的摘要评测系统,也是本文中所使用的评价方法。ROUGE(民ll-OecarientedUnderstud化rGEvalLin巧8istin朋tion)是由yg等人提出]-的自动摘要评测方法,原理是基于统计自动摘要和参考摘要之间的重复单元,如ngram、-次序列和词对ram:。其中Wng为文本单元粒度的计算公式为乙SEReZaramnE5CoUTUmatchCgramn)/ROUNG-N=件30),公S巨巧e/完岛ram打E5巧)-其中巧却表示专家摘要,Coimt的ram?表示专家摘要中出现的ngram个数,)表示在专家摘要和测试摘要中共同出现的n-ram次数g。除了臥一-R-N之外ngram为文本粒度的ouge,民0U畑系统还提供了其他些常用评价指标:1民o-LLontCSLCS()ixge:最长公共子序列(gesommonequence,)为评测单元粒度Roue-WLCS为评口g:W加权测单元粒度)"--Roue-iS:切skibiram为评测粒度ibram,tomorro口gpg,skpg表不不相邻的两个词例如w)"""""一-isano化erdatomorrow和da可1^姐成kibiram中的yy:对spg4R-U4k--oueSii24;评测粒度结合sbram和ram并且间隔距离不超过()gpggoue-N是个基于召回率recal,oue可看出Rgl的评测指标但Rg系统可给出所有指标()-ecision、recal日F-measure分数。RoueL为例的pr巧:!:UgLCS义yn_()P=4-31.S()^21+/?/?P()!cs(cs_P_R+Pics口ics其中巧分别是专家摘要和测评摘要,w和Mny的长度S7日y的分别为巧。LC巧表示巧)DUC中-最长公共子序列长度,,。因此Fscore。在片是个很大的值接近于无穷在数值上很接近于召回率recall。这样设置的原因是高质量的自动摘要的关键不仅要准更在于全。一一因为根据公式4-30,比,,个很短的摘要如只选择文档首句往往能得到个高得离谱44 第四章原文语义重构策略的准确率值。因此在自动摘要研究中,使用Rouge测评系统的研究者们都会使用recallf-score值做评分对比值或者。DUC0DUC07-N--本文中采用6和数据集,^Roue、RoueLRoueSU4(gg和g作为评测F-measure值进行对比指标冷出各个算法的。4.4.2对比实验介绍为了证明本文提出的语义重构模型的有效性,我们另外找了几个代表性的摘要算法PSRSelf-PtSRresenentenceelevance9进行实验对比,两个。包括排序抽取模型S()巧]选择模型D泌R[80]和TopicDSDR[90拟及两个由NIST提供的Baseline:?Baseline1:NIST称之为简单参照SimleBaseline,对每个主题文档群Baselinel(p)只是将每篇新闻的首句加入到摘要中,直到生成的摘要凑满250字。由于首句在,Baselinel的效果远好于随机选取句子作为摘要文档尤其是新闻中的重要性。.Baseline2:NIST在DUC2007评测系统中给出的泛式参考GenericBaseline。该()一CLASSY04UC04的基准是由个名为的自动摘要系统生脱该系统是D优胜者,CLASSY04基于隐马尔科夫模型,用了5个状态表示隐含的摘要句或非摘要句子,用标志词元SinatureTokens作为观察序列的特征g。()?SPSR;通过最小化文档结构的隐模糊相关性LatentImlicitRelevance来给句子(p)-tk打分,并选择op作为摘要.DSDR过重构原文选择重构损失最小的句子集作为生成摘要,通过二次规划:通和泛函分析进行复杂运算.Topi瓜SDR:DSD民的改进型,将DSDR中每个句子的向量表示由词袋模型改为由隐狄利克雷(LatentDirkhletAllocation,LDA)山主题模型生成的话题向量4.4.3实验结果及分析各算法在DUC06和DUC07数据集的跑分结果分别在表中呈现,其中LR表示线性重构模型--d表示,NR表示非线性重构模型,W表示使用了词嵌入加权的向量化方式,民民--使用了深度降维的向量化方式〇116〇1161艮〇1162&〇1163民〇〇61^^及。§指标包括3,3,§,§Roue-U4F-measuregS的平均值。45 第四章原文语义重构策略表4.1a各算法在DUC06上的平均F值,LR和NR为线性和非线性重构模型()-----Method民ouee1Rouge2民ouge3RougeL民ougeSU4Baselinel0.320820.05%70.013720.297260.104080-3839220.3SPSR0.350.0501555.13540-DSD民0.29850.331680060470.01482.-0TopicDSDR0373650.07073.341720.13190.LR-3扮650.071420.02001034113012944w0...LR-384630068260014940d0.34785012831....-w083680.062640.0.NR.301435.33841012384-2NRd0.384770.063810.3413401210.0144.62表4.1b各算法在DUC07上的平均F值,LR和NR为线性和非线性重构模型()-化odRouge----Me1Rouge2Rouge3Rqu口eLRougeSU4Baselinel0.334750064900.018560310740.11278..Baseline20.400590.092720.03058Q.%3170.14467-SPSR0.370700.067160.01844032704DSDR0-.395730.074390.019650.35335-T.onicDSDR0.398490.082000361640.14562-LR.095580w0.414310.031060.37355Q.14%1LR-d0.411240.095880.031520.386360.15061-.3998200..NRw0.092640.0293533841014384-d0NR.410080093810029420.34134014621...其中粗黑字体的数字表示所有算法中表现最好的跑分。从实验结果可W看出本文的线性重构模型LR和非线性重构模型NR的表现都比较理想,除了DUC06数据集的Roue-SU4ToicDSDRFg指标在p算法的表现更好外,其他评测指标的平均值都是最高的。除了LR和NR模型外,综合表现最好的是TopicDSD民和Baseline],其中TopicDSDR是基于DSD民的重构算法,但是该算法用LDA模型生成的话题向量作为文本表示,提高了句子表示的语义性,因此较DSDR模型的表现提高不少:而Baseline2的CLASSY04一算法是个基于隐马尔科夫的监督模型,并得益于通过多次提交来获得表现反馈,大幅提高了摘要质量。而Baselinel和SPSR模型表现较差,因为Baselinel只是简单挑选每一、篇新闻首句并凑成摘要,虽然效果远好于随机抽取,但肯定差于任何个精屯设计的算SPSR,,法;而是个排序模型给句子打分的时候孤立了句子之间的联系而且该模型的46 第四章原文语义重构策略思想是最小化隐文档相关性,但是由于文本表示的词袋向量很难掌握句子么间的相似度和相关性,导致算法效果并不理想。一为了具体观察每篇新闻的表现,在DUC06数据集随机抽取了23个主题文档群,LR和C-并对比线性重构模型lass04在每个主题上的R0UGE1跑分y。斜线上的点表示L艮的表现更好,斜线下的点表示Classy04的表现更好。可科看出使用了词嵌入加权方式和深度降维方式向量化的LR模型的表现都比Classy04明显出色。0.5「 ̄ ̄ ̄ ̄+Ctes巧04扣蜡避砖.I。-铅0L快留货皆I"0-9—地〇#〇044-牛..〇牛〇^芳微每'巧。0■装.42〇呈〇卢。,'/I+'038■-資夺I'一.牛I〇''沈Q-;汪34■4-.'0-.321''I0I30.30.报汪40.450.5ClassyCM韵Roel組峭4-W图.5aLRClass04DUC07的民ouel()模型和y算法在g值对比0.55r ̄ ̄Class辨4斜裝輕巧I0LR苗知報舉韓,:法5■錢人/驟i/卸■立/-节己〇〇止致化化■/+〇/牛g〇'9。+〇/+含0.可.4/^Q:〇ty0■'.35f-牛L11?0-3..350.40.4505030.C'lassy04fR1it!]ougei-d图4.5bL民模型和Classy04算法在DUC07的Rougel值对比()47 第四章原文语义重构策略通过对表4.1和表4.2中跑分数据横向对比本文提出的两种重构策略,可W发现NR模型除了DUC07中的Rougel值比化略高外,其他指标都不如化。为了分析非线性重构模型表现不济的原因-,在公式427中调整重构误差及话题契合度的平衡系数a的值。——0.390.3850^—.巧f-.麵^〇—..争NRw.巧5?**?*?*-NRdQ-37 ̄--0.36rT;;00.2040.60.8.1图4.6aNR模型在DUC06的民ouel均值随a的变化情况()g-0.42|_____0.4■-識0.巧拿嫁W4"?***^#^NR-w…—0?"**-.38*^*NRd037—.?— ̄"0.360.35\11?1100.20..40.6081图4.6脚NR模型在DUC07的民0鸣el均值随a的变化情况斗8 第四章原文语义重构策略,民。可见损失如图所示a值越大,即重构误差项所占比重越大ouge值均趋于下降2-27-函数公式4中只有话题契合度起作用,而考虑重构误差/w6〇d反而降低了摘)||,||要质量一。因此能找到个衡量重构误差并且能提高摘要质量的指标意义重大。4.5本章小结在第H章学习到文本的语义表示后,本章的目的就是建立重构模型,让生成的模型能够最小损失的重构原文语义。一重构模型的关键是高效的重构策略,。本章中用两种重构策略种是线性的组合重一构,加上稀,另种是非线性的電构。线性重构法的目的是找到线性重构原文的句子集一疏限制并辅W冗余消减;非线性重构相比线性函数更平滑也更灵活,实现方法是训练,计算出每个句子的重构效果值,通过个重构神经网络,进行排序抽取。此外冗余消减一能够在定程度上优化摘要的结构性,完善了重构策略。经过对比实验论证,,两种重构策略的模型表现都非常出色能够提取较高质量的自动摘要。49 第五章总结与展望第五章总结与展望5.1工作总结为了满足快节奏时代人们的快速阅读需求,自动摘要技术成为研究热点。为了解决主流模型中孤立句子联系和统计特征缺乏语义的缺点,本文提出的基于语义重构模型,即假设高质量的摘要能够W最小损失重构原文。,分别是语义表示和重构策略语义重构模型分为两步。语义表示就是将文本、句子语义向量化,让句子之间的语义相似度能够通过语义向量的距离来衡量。本文使用了两种语义向量化方式:词嵌入加权和深度降维。词嵌入加权模型将文本向量化问题一N-转为相对简单的词语向量化问题,词的语义向量化可W通过训练个基于gram的神经网络语言模型来实现。而深度降维模型通过多层神经网络学习出输入文本的深度语义表示,深度网络使用了多个RBM预训练来避免随即初始化网络带来的缺点。此夕,h将输入文本的词概率向量进行离差标准化可W适应任何长度的输入文本。重构策略是重构模型有效性的关键,本文分别尝试了线性重构策略和非线性重构策略,。线性重构策略就是对所有句子进行线性组合来还原原文的语义。当重构误差最小时,参与重构的句子集就是生成摘要,重构误差要考虑重。由于摘要的长度限制构系数的稀疏性惩罚,可用L1正则项来表示。目标函数形式类似Lasso回归,可W通过LARS算法或者坐标下降法求最优解。而非线性重构策略是通过非线性激活的神经网络实现,该神经网络除了实现输入重构外,隐含层被加上了稀疏限制,因此能够提取输入文档的主题分布。通过对比每个句子和原文档的主题语义,能够计算每个句-子的摘要贡献度,进而W此进行排序提取topk。此外,机器生成的自动摘要往往存在大量冗余信息。而对于抽取式摘要模型来说一一一、兀余信息般很难去除,方面W为兀余性计算条件的苛刻过于依赖贪屯算法;另方面冗余句子的剔除容易导致信息的损失,需要在两者之间平衡,。在本文中两种重一0构模型也分别在定程度上试图消减兀余信息,重。在线性重构模型中构系数为非对应的句子被认为参与了原文重构,但其中负系数所对应的句子在重构过程中相当于是被削减的句子。,,即被认为是冗余句因此通过给目标函数加上组合系数非负的限制50 第五章总结与展望可W大大减少冗余信息的产生,针对生成摘要是对所有句子。而在非线性重构模型中一打分排序获得,可W设置个相似度阀值,每次对当前候选句相似度判断,即和当前摘要集合所有句子进行相似度计算,如果大于阀值则认为是冗余句,否则加入摘要集一一合,,。通过定程度上对兀余信息的消减可W提高摘要质量进步改进了本文的语义重构模型的改进。5.2未来展望一些不足,,没有考虑多文本摘要本文中的模型还存在比如只是针对单文本摘要、一基于用户摘要等;另方面非线性模型的表现不尽如意,主要是损失函数中重构误差项反而降低了摘要质量:。因此未来的王作将专注于两个方面1针对非线性重构策略中损失函数的表现不足,探索新的衡量重构误差的指标,()既能够反映重构误差又能提高摘要质量。(2)除了对单文本摘要算法的改进,另外探索多文本摘要、基于查询摘要甚至特殊领域摘要比如医学摘要。51 参考文献参考文献"".,1Blei,DavidMAndrewYNandMichaell.JordanLatent出richletallocation.theJournalof,,[]gmach-ineLearninresearch32003:9931022.g()"-2Erkanii..:Ghbalillin,GtnesandDraomrRRadevLexRankrasedexcacentralitassaiencetext[,]gpy"sr-ummaization.JournalofArtificialnellienceesearch2004:.ItR457479呂()""3Luhn.hiilitt.lf,HansPeterTeautomatccreatonoferaureabstractsI艮MJournaoresearchand[]-deve.lopment22(1958):159165""[4]Mihalcea,Rada,andPaulTarau.TextRank:艮ringingorderintotexts.AssociationforComputationaiLinuistics2004,g,"C-llimeGld.hefMM民divibadkinfoi5arboneJa,andJadeost;emTuseo,erstsereranrreordern[],ygg"documentsandproducingsummaries.Proceedingsofthe21stannualiMernationalACMSIGl民ment.con化renceon民esearchanddevelopi打informationretrievalACM1998.,"6NenkovaAniLucVanderwendeandKathleenMcKeown.Acomositionalcontextsensiive,,t[]y,p*"mu-]tidocumentsummarize!:exploringdiefactorst:hatinfluencesummanzation.Proceed;打gsof1;he2%hannua]internationalACMSIG!Rconferenceon民esearchanddevelopmentininformationr別rieval.ACM,2006.7Baaen,R.Harald.Wordfrequencdistributions,VoL18.SrinerScience&BusinessMedia,2001.[]yypg"8SarckJonesKaren.Astat化tatifisticalinteronotermsed巧citanditsalicationin,[]pppypp"-il.lfdocumeni.12.retrevaJournaotaton281(1972):11'9SaTerm-ltonGerardandChristoherBuckle.weihtinaroachesinautomatictext,,[]pyggpp"-retr..ievalInformationrocessin&manaement2451988:513523.pgg()""10DunninTed.Accuratemethodsforthestatisticsofsurriseandcoincidence.Com山ational[]g,pp-linguistics19.11993:6174.()"-.11LinChinYew,andEduardHovTheautomat;edacuisitionof的icsinaturesfbrtext,[]yqpg"-summar,izationProceedingsofthe18thcon耗renceonComputationaUinguisticsVolume1.AssociationforComputationalLingui巧ics2000.,"12Hov3andCh-£加化inYewLin.Automated化別summarizationandtheSUMMARIST[]y,"sstemMar-y.ProceedingsofaworkshoponheldatBaltimoreland:October13151998.Association,y,forComutationalLinguistics1998.p,""hn---13ConroJoM.el.bi/lidoritaLeftranrihtbrainmutcume打tsummazation./Voceec//巧〇e,,拼[]yg/说DocumentUnders.tandingConference(DUC2004.2004)"--..14ConroJohnM.JudkhD.SchlesinerandDiannePCVLearToicfocusedmultidocument,[]y,g,yp"summarizationusi打anaroximateoraclescore./Vocee/V/?e丘owM口gppc如备s9/如CO巧巧ceosersessons.ssociationforComuaionalinuistics2006.ptiApttLg,"''-il.H.A.iIQQAdhe[15FneLandndrewLteGISTexteratDUCProceeinsot2004Document]y,,gf’UnderstandinConference(DUC2004)Bos化nMA.2QQA.g,,".Measur16GutaSurabhiAniNenkovaandDanJurafskinimortanceanduerrelevancein,,,[]pygpqy"to--pic化cu化dmultidocumentsummarization.户race化//巧各sq/V/w45//;口/Me如/w客〇c0。/視如戶0■5化r口/〇/?说说0/w.AssociationforComutationalLinuistics2007.//pg,""17HatzivassUoiouVasileiosetal.Simfinder:Aflexibleclusterin化〇1forsummarization.2001.g()[]g,,"[18]McKeovvn,Kathleen,etal.Towardsmuitidocurnentsummarizationbyreformulation:ProgressandAAAI/IAAL1999.52 参考文献"n.19Siddharthan,AdvaitliAniNenkova,KathleeMcKeownSntacticsimHfication化rimrovin,andg[]ypp".?-conl.■t/tentseectioninmukidocumentsummarization公eZ/w昏s〇//片e20如/巧化7?幻"o巧〇/onComutationalLinuistics.AssociationforComutationalLinuistics2004.pgpg,"20M化aiceaRada,andPaulTarau-Alanuaemdeendenta!oril;hmforsi打leandmultiledocument,[]ggpggp"summarization.(2005).I'"illiasandShaf..ovin化eerformanceof化eandomwalkmodeerin21ChalYiRJotlmrilforansw,,qgg[]ypp’’,comlexuestion、Procee/扣/pq<if巧浮Vof片.斗巧,化幻(少e义soc/口f/on/br(To巧]pwfado巧幻-’I、vr口n?.w/cvvow//wHL口nw幻e/扔V;S片饥t戶ersAssociationforComutationalLinuistics如各复各各邸pg,2008."".22mm.KuiecJuiianJanPedenenandFrancineChen.Atrainabledocumentsi./Voti/"s〇,,i,uarzercee[]p貧/18thannucdiiitenuiHonalACM引GJ民confe化nccon民esearcham!developmentininformatioiir如如v(://.ACM99.,!5""23PaC.D.Cilibtsb.b&iceonstructnteratureastraccomuter/"rw口"o打Processin,[]gypygM-?化巧ewe"?261990:1711()""-New..24EdmundsonH.P.MethodsinAut;omaticExtractiny〇w/77幻16.21969:2642%.[],g()2ohn'""5JM.ConroandDianneP.Olear.TextsummarizationviahiddenMarkovmodels.Proceedins[]y,ygofthe24tharmuaiintemation幻IACMSIGI民conferenceon民eseaixh幻nddevelopmentininformationllOQ-retr1406407.ievo:""26Ulrich,Jan,etal.Aubliclavailableannotatedcorusforsuervisedemailsummarization.Pwcof[]pyppAaa.iEmailWorkshop2011()".E.27BarzilaReinaandNlhadadSentenceAlinmentforMonolinualComarable,,[]ygggp"CororsLConerenceon—EmrcalMethodsnNa化ralLanuaeProcessn20\0:25yi.pfpiiiggig"H-28iHalDaumeandD.Marcu.APhraseBasedHMMAroach/bstactt;oDocumentAr,,[]pp"At..lignmenProceedingsofthe2004ConferenceonEmpiricalMethodsinNaturalLanguageProcessin,EMNLP2004,AmeetinoSIGDAT,aSecialInterestGwuoeACLheldinggfppf化,conunct--ionwithACL20042526Jul2004BarcelonaSain2004:119126.j,y,,p"-Wr29JinHonan.UsinHiddenMarkovModelintoDecomoseHumaniten[]g,gyggp"Summar-ies.ComutationalLnuistics28.42002;527543.pig()"an-30MarcuDiel.Theauttittilarescalecorfitioniomacconsruconoforaorsummarza,g[]p"-M4h.Udmi。BHc20Wiy7.researcniversiofci,ee:皆Cfofy""-3i..biiSii..1ZhouLanandEHovAWeTranedExtractonummarzatonSs1;em/Vocee识只s2O0J,,[]gyy各Conferenceof化eNorthAmericanCha化roftheAssociationorComiAtation幻ILinuistcsonHumanipfpgLTechnolo-Volume12003-anguagegy:as,331336.pg"32ChaliYHiasS.A.HasanandS.R.Jot.Doautomaticannotation化chnieshaveanimacton[],,,yquyp"supervisedcomplexque巧ionanswering?.200PCcw於化巧ce加oW戶幻persAssociationfortt-ComuaionalLin山si2009329.tes:332pg,""ili.化.iilChinsfoii知戶roc饼如>33目arzaRenaandMEadadUsnLexcaarTextSummarzaton.7妍如,,[]ygg--the.ACLWorkshoponIrUeHientSc幻lableTextSummariz如ion2Q\Q:\Q\7g"34GalleichelandK.民.Mckeown.LexicalizedMarkovGrammarsfbrSentence,[]yM"Cress--ompion../Vocee况巧鲜07V^4CL//ZT007:180187./口)"35S....lomdiailberHGreorandKFMccoEficientCiledLexicalChainsasanIntermete,,[]gyyyp"?fo-?沁"on口/L..R巧化化ntationrAutomaticTextSummarizatio打/wgwz加心284200:487496(巧""-—36Ed..Introduction化WordNet:AnOnlineLexicalDatabase扔/化口ww3.4199:235244.[](^"37GalleichelandK.Mckeown.ImrovinWordSenseDisambiuationinLexical,[]yMpgg53 参考文献"Chai打in-..仁口/03dsotheEhteenthIdJontCoerenceong与,ProceeingfigrUernationcififArtificialilk^QQ3-Mexico\4S64SS.IrUeigence,Acapuo,,Augus:\"38Sch.NenkovK.M.iffman技airAaandckeownExerimentsinmultidocument,,,[]yp"summarization.InternationalConferenceonHumanLanguageTechnologyResearchMoranKaufmanngPublishersInc.2002.,"i'39]Scot,Deerweskr,etal.Indexingbylatentsemanticanalysis./Vocee次w护0/诚e辦eewf/zcon於rewce[?f///ewceMoranKaufmannPub-onwceW饥。lihesInc.199939140./灯口"诉口如化//各gsr:7,"40GonYihonandX.Liu.GenericSiiiTextummarzatonUsnRelevanceMeasureandLatentSemantic,,[]ggg"'dAna.lysesSIGI民01:Proceedingsof化eInternationalACMSIGI民£〇巧/£扩色巧££on民esearchan-DevelomentinInormationRetrieval20025.pf1:19"4-1HacheBenG.MurraandD民eitter.Dimensionalit民eductionAidsTermCoOccurrence目ased,[]y,,y,y"-?化麻知片-MuiDocumenii.dSummadtSummarzaton/〇戶onTaskFocuserization幻nQuestion-Answer,ing20Q6:\7-4Sa...ldwin,B..&Morton,T.S(1998,JuneDnamicCoreferenceBasedSummarization.!n左‘化YLP)([引ypp-.16)"43BouraevB.andC.Kenned.SaliencebasedContentCharacterizationofText[]g,,y"’Documents.ProceedotheAcl/eacl97WorkshoonIrUe化entScalableTextingsfpgSummarition—za1997;29.()""i巧a.fanahoii.44Sl;enbererJoseflTwousesoraresolutioninsummarzatonBiotechnolo,,[]gpgy达-公../oew复/wee/7>7g28719%):10861092(""45BatemanJ.andJ.Delin.RhetoricalStructureTheor.EnccloediaoLanuae&,,[]yypfggLnustcs2006-i:589597.gii()M""46arcuDaniel.FromDiscourseSiTuUurestoTextSummaries.尸racee决>7拼0/片e肠r柄Aoo口[],/p'illltonIQQl乂2--辦IrUeient.gScaabeTextSummarizai()""47MarcuDaniel.ToBuildTextSummariesofHihualitNuclearitisNotSufficient./"乂],g,y[QySrinSmosiumonSpgIrUellientTextumm幻rizationypg""[48]Marcu,Daniel.TheTheoryandPracticeofDiscourseParsingandSummarization.ComputationalLnustcs28-.12002:8183.igii()"化"49EadadN.etal.Customizationinaunifiedframeworkforsummarizingmedicalliterature.^灯c/f口],,诉[如化//—M沾:扔.22005:179198./ge灼ce/w化e33()""M.l.50KaninYenCombininVisuaLaoutandLexicalCohesionFeaturesforTextSementation/n,[]gygProceedinsoe31stWorksho0。GrahTheoreticConcetsinComuterSc-WGgf化ppppience2005200-1:187198.()"'51E化adadNetal.FacilitatinhsiciansaccesstoinformationviataUoredt;ext[],,gpy"summarization.....jirmuaiSymposiumproceedings/AMIASymposium.AMIA-Smos.ypium20052005:22630()"52Mckeown,Kathleen民.etal.PERSIVALaSst:emfbrPersonalizedSearchandSummarizationover[],y"—Mu...ltimediaHealthcareInfbrmation户racee抓7妍0e巧rsMcw+zeeeJc说3722001:331340./认()"-53Teufb.lSimoneandM.MoensSummarizinscientiflarticlesexerimentswithrelevanceand[],,gp"rhetor-icalstatus.ComutationalLinguistics28.42001;as.409446.p()pg"anba-54NHidesM.Okumura.owardsMuliaeSummarizationUsifetuguandTtrnRerence],,p[pg"-—%formai.历戶race化献7心/99%.82999926.Inton各5〇/7(1):1""55-MeiiaozhuandC.X.Zhai.GeneratinImactBasedSummariesforScientificLi化rature..^CL[],Q,gp2008ProceedinsoeMeetnoeAssoc-iationorComutatnalLinuisticsJime1520200S,gfi沁,,,化gf化fpg54 参考文献-Columbus.,Ohio,[/so2008:816824"56azvinianVahedandD.民.Radev.ScientificPaerSummarizationUsinCitationSummar[]Q,,pgy"Networks./巧化777口"0巧a/ConferenceonComputationalLinguisticsAssociationforComputationalL-inuisics2008:689696.tg,"57MuresanSmarandaTzoukermannEvelneandKlavansJudithL.Combininlin山Sticandmachine,,,y,,[]gg"learninechniesforemailsummarizaion.hekgt;qutTWorshoponComputationalNaturalLanguage—iif山ailiii.Le口/77/rtssocatonorComtonaLnu巧cs2001:18g,Apg"-58TzoukermannEve....lneSMuresanandJLKlavansGISTIT:summarizinemailusinlinuistic,,,[]yggg'’know.ledgeandm过chine\eami打客TheWorkshoponHuma打Lcmgu幻geTcchnology&KnowledgeA/幻打口gewew/AssociationforComputationalLingui巧ics,2001."'59Co巧o-OHverS-Trnimonetal.TaskfocusedsummarizationofemaW.Proceedthinsoeext[],,gfSummarizationBranchesOutAclWorksho2{)0A.p{)""h-60Roal.l.liimailSii.hulStevenLetaExotnEtructure化ImroveSummarzatonMassacsetts,,[]pgpInst.itiUeofTechnolo2〇〇2gy{)"".....mentat.61BouraevBKandMSNeffDiscourseseioninaidofdocumentsummarizationHawaii,,[]gg’/-/7;切7?加0/7口/on<5>^?似77沉/encesEEECompWerSociety2000:30043004.,""62NenkovaAniandA.Baa.Facilitatinemailthreadaccessbextractivesummareneration..In[],,gggyygProc-.ofRANLPW(2003):287296.""63民ambowOwen,etal.Summarizingemailthreads.戶racee加7〇;2饼祝oW[],沪/饼Paersifttiiisti.AssociatonorComuaonalLnucs2004ppg,山""64NewmanPaaS.andJ.C.Blitzer.SummarizinArchivedDiscuss.仇化/"ions:ABeinnineW[,,]ggggUser-Interfaces20於\111>216.-"W"’65区ereiAdamL.andV化huO.Mittal.OCELOT:asstemforsummarizinebaes./Voceec/如s,,[]gygpg《merna-othe23rdormualtonalS!GIRconerenceon民ese幻fxh幻nddeve!omeminormaonfiiACMintifpf化价.CM2000.如幻/A"66艮uukkoktenOrkutetal.Efficientwebbrowsingonhandhelddevicesusinaeandform[]y,,gpg"-i..扔口灼..summarizaton*?幻灼幻/如ns化ws2012002:82115邱()"-67DelortJ.乂良.BouchonMeunierandM.民ifi.Enhancedwebdocumentsummarizationusin,,,[]qg"her-yplinks.FourteenthAcmConferenceonHypertext&Hypermedia2003:208215.""-68SunJ.Web.ianTaoetalaesummarizationusinclickthrouhdata57G//?2005:Proceedinsothe,[],pggggf28thAnmi幻IIrHernationalACMSIGI民ConferenceonResearchandDevelopmentinInformationRtlSaldoBlAst15-1920052QQ5-erievamzi:\942Q\,v幻r,,ugu,.""69ChoiYeinetal.Usinlandinaesforsonsoredsearchadselection..70;/巧/e/77口r/ow口/[],j,ggpgp-Co巧如e巧ce。巧脈rW趴冰脈620260.y10:251"70ZhouL..ianandEduardHHovOntheSummarizationofDnamicallIntroducedInfbrmation:,,[]gyyy‘ii,vA’OnlineDiscussionsandBlogs./^^乂/、皆?7>?客S>wS7w?r化y4na/z/n/>gWeblogs.2006."7-1HuMeishanA.SunandE.P.Lim.Commentsorientedblosummarizationbsentence[],,,gy"extreiCtion.Proceedingsofthesix化enthACMconerenceonConerenceoninorm幻tion幻ndknowledefffgCM200790-904ement.manaA:1g,""72LeuocV.andT.M..nn/ikolovDistributed民eresentationsofSen化ncesandDocuments,,邸[]Qp-1.^rx/v42014:1188巧6()"73SutskeverIlaO.Vinalsand.V.Le.Seuence化SeuenceLearninwUhNeural[],y,y,Qqqg"Networks-.^(^vw?cesw>7Wewra//nyb?7W(3f/cwP_race^/ng5Wew542014:31043n2.)()55 参考文献""ioshueta.alobabiliticlanuaemodel.lach74BenoYalAneurrsJournaoineLearnin,,ggfM[]gpgh-Researc3.62m.{:\Ul\\SSs)""’75Ta..?九wrna/0iSinLeeandDMumfordHierarchicalBaesianinferencein化evisual7片enc口/,,[]gy/邸-SocietoAmer..yicaAOticsImaeScience&Vision2072003:14341448fpg()"76LeubaG-.a打d民.Kraftsik.ChanesinvolumesurfaceestimatethreedimensionalshaeandtcHal[],,g,,pnumb''erofneuronsofthehumanrimarvisualcortexfrommidestationuntilolddiQ.Anaompyggty&Eolo-mbrg\90A{20\2:65l\.yy)"77HintonGEand民.R.Salakhui.educinthedimilidihnltdnovR:ensonatofatawteura[],,,gy"%-networksiS...c/ence313.572015:504507()""78SaiakhutdinovRuslan,andGeoffreHinton.Semantichashin./Nff?r"G/7cw?a/J(""7/,7c[]ygReason-ing50.72009:969978.()"iLsVaDeMtG-V79aurennraaenand.HiWon.ViualizindatausintSNE-o/Am足z/A77co/ce6口77?/巧[],,,gg/M各W/9-ese幻.260500825巧2605./r;口:)"80HeZ.etal.Documentsummarizationbasedondatareconstruction.ConferenceonArtificial,,[]IrUellience2Q.g\2"--8.1ZhonShenHuaetaluerorient;edunsuervisedmultidocumentsummarizationviadeelearnin,,[]ggQyppg"mode-l■扮化ws口42.212015:81468155.()""Mark-82Schmidt.Leastsuaresotimizationwkh11normn^uiarization.CSJ42公/V却//巧wW2005):[],qpg(-1418.""83T化shiraniRobert.ReressionShrinkaeandSelectionviatheLasso.7oftheRoalStatistical[,gg]y8-旅5.996672%.1(1:2)"84ChenSco打Shaob.L...Saunders.inDDonohoandMAAtomicDecomositionbBasis,,,[]gpy"Pursu-it.义口w巧ev/ew43.12001:3361.()""85HuiZouandH.Trevor.Reularizationandvariableselectionvia比eelasticnet.Jown?口/07片e巧0口/[],,g/少沉如舶ce67-口地舱/印.2(2005):301320.""6d-EfronBralei.li..4(/,32.2200407.巧,etaLeastanereresson77?e內/7?y0口妃"打:4499],ygg/別()"87Fr...liiiedmanJTHastieandRT化shiraniReuarzatonPathsforGeneralizedLinearModelsvia,,,[]g"?.-Coord..加加.i.inateDescentJow/T?幻/0/沉c幻/次3301010::122口)""巧8CarlosFlick.民OUGE:APackaefbrAutomaticEvaluationofsummaries.77?e脈成s片07ow把姑]g/Summar—izationBranchesOut20QA:2526,"89L-iXiaodonetal.DocumentSummarizationviaSelfPresentSentenceRelevance[],g,"Mode-l.DASFAA2013:309323..hanh.90ZZimmH.LiandL.Huan.7b.C0w6m/7cZ0wiZzcDiSZ)i?ngr0/)ec?ay///o?(3;7()a^[]g,g,,gp//-Reconstruct.ionorSumm幻riz幻fionJVebAeInorm幻fionMan幻emenLSri打erBerVmHeidelberfgfgp径g-20.13:33835056 ?致谢,不知不觉中H年的研究生生活即将划上句号,过春去秋来、时光匆匆。这H年里得紧张却又充实,是人生中重要又难忘的王年。首先感谢我的导师王崇验教授和吴驗老师,在H年的研究生生活中给了我莫大的指导和帮助,在我科研迷茫的时候指点我,在我就业不顺的时候安慰我,他们是我在学生时期更是今后人生的指路人。同时要感谢我的家人父母,,他们永远是我最坚强的后盾在我经济困难1^及遇到挫,让我顺利完成学业折的时候毫不犹豫、全也全意的帮助我。一感谢实验室的小伙伴们在最后的H个月里陪我在起查资料,、做实验、悠论文他们有刘勇、王涛、陈厚兵、戴恒宇、肖雨奇、李红、王茜和韩军华等,也希望他们能在509-今后的工作中大展宏图1,。并感谢我在的舍友许涵斌和赵斐在生活上给了我很大一的帮助,起苦中作乐、其乐融融,苟富贵必不相忘。57 ^附录研究生期间论文发表"ZhaChil.TeSitiBtltiihSemantic1n,etaxtummarzaonasedonSenenceSeeconwt[]g"Representation.IEEEInternationalConferenceonToolswithArtificialInteWigenceIEEE,-2014.:584590研究生期间参与项目1江苏银行贷后风险网络预警系统[]58 ^附件二《学位论女出版授权书》"本人完全同意《中国优秀博硕±学位论文全文数据库出版章程》(>[^1下简称章"""程),愿意将本人的学位论文提交中国学术期刊(光蟲版)电子杂志社在《中国博±学位论文全文数据库》、《中国优秀硕±学位论文全文数据库》中全文发表。《中国博±学位论文全文数据库》、《中国优秀硕±学位论文全文数据库》可电子、网络及其他数字媒体形式公开出版,并同意编入《中国知识资源总库》,""在《中国博硕±学位论文评价数据库》中使用和在互联网上传播,同意按章程规定享受相关权益。是^《作者签名:张弛2016年5月27日基于语义重构的文本摘要算法论文题名I成内件口Mgl333075所在院计算机科学与技学位年7/研巧生化争^III0>/^I系I术度 ̄ ̄si壯□硕±专业学位论文级别□博:t□博±专业学位(请在方框内画钩)作者Em汹王崇骇教授、吴驗讲师论文涉密情况:^不保密□保密,保密期(年日至年月日)月一注:请将该授权书填写后装订在学位论文最后页(南大封面)。59

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭