基于语义重构的文本摘要算法

ID：35070433

大小：6.22 MB

页数：68页

时间：2019-03-17

上传者：U-24835

资源描述：

《基于语义重构的文本摘要算法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

、．ｙ》．．Ｉ可．苗作秦Ｖ業－，吾．戀，警！邊．ｓ古Ｖ識苗，＇義＇豁一托；縣奮誦扣气户、．究‘壤ｆ驚，觀雞＞裝．言．＞．．’磬養，．；攻．．勞ｅ．：画琴．皆？；？蹲ｒ．琴５讓＾寒告動巧武妄草：書Ｉ終Ｙ扣．＞＼说拜．藝Ｖ＾、曼＞；拜旅，與譲篇片塗皆；雪葦泻Ｊ片；己裳藻．奪舞謬＇－＞八．．雜鑛絮．槪节＾．．？，／若＾京乂、苗後攀；一；．．：揭論．，．满＇电霉ｎ叩，＇義结ｄ＼Ｘ和；；究生－Ｌ论文心．净譯驚；身．赏辦＞餐批－蔥；＾為／拉壬声０节＇巧啡Ｓ请舅讀．％＇ｉｖ．．．‘．＞；＜讓壤犧＊ｌ八＇．；越＾；甚＇ｉ．静Ｖ雜；－‘．：ｆ聲載＇ｆ．蠢Ｊｙ％：－人．＇文基知Ｌ５减賊參冰空一＾皆者賊．脊沸株巧＾抑城林系？＾捂掘研究向指导巾魏授吴雜讲：．．／．；．．．－．，，．．韓：，巧＞Ｖ莉Ｃ＞放务．謹吟给亡游實費巧孽辞義与ｆｔ．．議晏？的．吟－必‘＾‘：皮Ｖ聽巧ｆ一魂若杉洩化譯趕ｒＵＶ＇．辨哪＾，繁；嚇，；．－真：：‘４．．：．＾輸，．－４苗謂‘或參舅讀樣八‘ 学号：ＭＧ１３３３０７５论文答辩日期：２０１６年５月２７曰指导教师：雕（签字） 曝南京大学申请硕去学位论文基于语义重构的文本摘要算法作者：张弛专业：计算机科学与技术研究方向：数据挖掘指导教师：王榮駿教授、吴駿讲师南京大学计算机科学与技术系２０１６年５月 ＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎＢａｓｅｄｏｎＳｅｍａｎｔｉｃＲｅｃｏｎｓｔｒｕｃｔｉｏｎＰｒｅｓｅｎｔｅｄＢｙＺｈａｎＣｈｉｇＳｕｐｅｒｖｉｓｅｄｂｙＰｒｏｆ－．ＷａｎｇＣｈｏｎＪｕｎｇＷｕｕｎｊＡＤＩＳＳＥＲＴＡＴＩＯＮＦＯＲＴＨＥＡＰＰＬＩＣＡＴＩＯＮＯＦＭＡＳＴＥＲＤＥＧＲＥＥＳＵＢＭＩＴＴＥＤＴＯＴＨＥＤＥＰＡＲＴＭＥＮＴＯＦＣＯＭＰＵＴＥＲＳＣｆｉＮＣＥＡＮＤＴＥＣＨＯＮＯＬＯＧＹＯＦＮＡＮＪＩＮＧＵＮＩＶＥＲＳＩＴＹＭａｙ２０１６ 声明本人声明所呈交的论文是我个人在导师指导下、在南京大学及导师提供的研巧环境（含标明的项目资助）下作为导师领导的项目组项目整体的组成部分而完成的研巧工作及取得的研究成果。除了文中特别加Ｗ标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果一。与我同工作的同志对本研巧所做的任何贡献均己在论文中作了明确的说明并表示了谢意。，南京大学及导师所有权保留：送交论文的复印件允许论文被查阅和借阅；公布论文的全部或部分内容；可Ｗ采用影印、缩印或其它复制手段保存该论文。学生签名：：日期靈曰畑‘調１ＤｅｃｌａｒａｔｉｏｎＩｍａｋｅａｄｅｃｌａｒａｔｉｏｎｈｅｒｅｔｈａｔｔｈｅｔｈｅｓｉｓｓｕｂｍｉｔｔｅｄｉｓｃｏｍｐｏｓｅｄｏｆｔｈｅｒｅｓｅａｒｃｈｉｎｇｗｏｒｋｂｙｍｓｅｌｆａｎｄｉｔｓｃｏｒｒｅｓｏｎｄｉｎｒｅｓｅａｒｃｈｉｎｒｅｓｕｌｔｓｆｉｎｉｓｈｅｄａｓａｃｏｎｓｔｉｔｕｅｎｔａｒｔｏｆｔｈｅｗｈｏｌｅｙｐｇｇｐｐｒｏｅｃｔｉｎ化£ｒｏｅｃｔｔｅａｍｌｅａｄｂｍａｄｖｉｓｏｒ．Ｔｈｅ化ｅｓｉｓｉｓｃｏｍｌｅｔｅｄｗｉ比也ｅｕｉｄａｎｃｅｏｆｊｐｊｙｙｐｇｍａｄｖｉｓｏｒａｎｄｕｎｄｅｒｔｈｅｒｅｓｅａｒｃｈｉｎｃｉｒｃｕｍｓｔａｎｃｅｓｏｆｆｅｒｅｄｂＮａｎｉｎＵｎｉｖｅｒｓｉｔａｎｄｍｙ，ｇｙｊｇｙｙ注ｄｖｉｓｏｒ打ｅｌｕｄｉｎｔｈｅｒｏｅｃｔｓｕｏｒｔｉｎｄｉｃａｔｅｄ．（ｉｇｐｐｐｊ）Ｔ＇ｈｅｔｈｅｓｉｓｄｏｅｓｎｏｔｉｎｃｌｕｄｅｏｔｈｅｒｐｅｏｐｌｅｓｒｅｓｅａｒｃｈｉｎｇｒｅｓｕｌｔｓｅｖｅｒｐｕｂｌｉｓｈｅｄｏｒｃｏｍｏｓｅｄｅｘｃｅｔ化ａｔａｒｅｓｅｃｉａｌｌａｎｎｏｔａｔｅｄａｎｄａｃｋｎｏｗｌｅｄｅｄｓｏｍｅｗｈｅｒｅｉ打化ｅａｒｔｉｃｌｅ．ｐ，ｐｐｙｇＡｎｙｃｏｎｔｒｉｂｕｔｉｏ打ｍａｄｅｔｏｌ：ｈｅｒｅｓｅａｒｃｈｂｙｍｙｗｏｒｋｉｎｇｐａｒｔｎｅｒｓｉｓｄｅｃｌａｒｅｄｅｘｐｌｉｃｉｔｌｙａｎｄａｃｋｎｏｗｌｅｄｇｅｄｉｎｔｈｅｔｈｅｓｉｓ．ＮａｎｉｎＵｎｉｖｅｒｓｉｔａｎｄｔｈｅａｄｖｉｓｏｒｒｅｔａｉｎｔｈｅｃｏｒｉｈｔａｓｆｂｌｌｏｗｓ：ｓｕｂｍｉ打ｉｎｔｈｅｃｏｉｅｓｊｇｙｐｙｇｇｐｏｆｔｈｅｔｈｅｓｉｓａｌｌｏｗｉｎｔｈｅｔｈｅｓｉｓｔｏｂｅｃｏｎｓｕｌｔｅｄａｎｄｂｏｒｒｏｗｅｄｕｂｌｉｃｉｚｉｎｔｈｅｗｈｏｌｅｏｒａｒｔ，ｇ；ｐｇｐ，ｏｆｔｈｅｔｈｅｓｉｓｃｏｎｔｅｎｔｋｅｅｉｎｔｈｅｔｈｅｓｉｓｂｈｏｔｏｃｏｍｉｃｒｏｃｏｏｒｏｔｈｅｒｃｏｍｅｔｈｏｄｓ．；ｐｇｙ，ｐｐｙｐｙｐｙＡｕｔｈｏｒＳｉｇｎａｔｕｒｅ：Ｄａｔｅ：ＡｄｖｉｓｏｒＳｉｇｎａｔｕｒｅ：Ｄａｔｅ： ＾摘要互联网技术的快速发展产生了数据爆炸和信息过载的问题，同时现代生活节奏的加快催生了用户快速阅读的需求，使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语言处理任务，自动摘要技术的挑战在于摘要的评价指标无法精准量化，极具主观性，而且自动摘要往往深受兀余信息的困扰。目前主流的自动摘要算法是通过－，对所有句子进行打分，ｔｏｋ作为生成摘要预先定义某个指标然后对句子排序并抽取ｐ。一然而这些抽取排序模型方面对句子独立打分，孤立了句子之间的联系，忽略了文章的一结构信息，；方面选取的评分指标通常是词素级别或者统计特征缺乏语义信息。针对一这些缺点，我们设想个高质量的摘要能够很好地还原原文的语义，进而提出了语义重构模型：通过寻找能够最小损失重构原文语义的句子集作为最后的生成摘要。本文的王作主要包括两个方面：１针对词袋模型的高维稀疏、缺乏语义信息的现象，设计了两种简单有效的语义（）向量化方式表示文本，分别是基于神经语言模型的词嵌入加权方法和基于多层自编码网络的深度降维方法。并通过句子分类实验证明了这两种向量化方式都能得到紧凑且具有语义的文本表示。（２）分别设计了基于二次规划的线性重构策略和更为平滑灵活的非线性重构策略，＾＾１得到能最佳还原原文的句子并作为结果摘要。另外通过冗余消减手段在改进了重构策略并提高了摘要质量。最后在ＤＵＣ标准数据集上的摘要实验对比，证明了本文的语义重构模型的合理性和有效性。关键词；自动摘要语义重构词嵌入语义表示Ｉ ＡｂｓｒａｃｔｔＡｂｓｔｒａｃｔＷｉｔｈ化ｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｗｅｂ１；ｅｃｈｎｏｌｏｇｙ，ｈｅｒｅｃｏｍｅｓｔｈｅｐｒｏｂｌｅｍｏｆｄａｔａｅｘｌｏｓｉｏｎａｎｄｉｎｆｏｒｍａｔｉｏｎｏｖｅｒｌｏａｄ．Ｔｈｅｒｅｆｏｒｅｔｈｅ化ｃｈｎｏｌｏｇｙｏｆａｕｔｏｍａｔｉｃｔｅｘｔｐｓｕｍｍａｒｉｚａｔｉｏｎｂｅｃｏｍｅｓｔｈｅｈｏｔｓｐｏｔｉｎｃｏｍｔｅｒｓｃｉｅｎｃｅ．ＩｎｃｏｎｔｒａｓｔｗｉｔｈｏｔｈｅｒＮＬＰｔａｓｋｓｐｕ，ｔｈｅｃｈａｌｌｅｎｅｓｔｈａｔａｕｔｏｍａｔｉｃｓｕｍｍａｒｉｚａｔｉｏｎｆａｃｅｗｉｔｈａｒｅｔｈａｔｌ；ｈｅｕｄｅｉｓｓｕｅｏｆｓｕｍｍａｒｉｓｇｊｇｙ＊ｔｉｔｈｌｌｔｓｄａｎｌｉｉｔｈｌｔ．Ｍｔｉｔｉ！：〇〇ｓｕｂｅｃｖｅａｎｄｅｒｅａｗａｓｏｏｆｒｅｄｕｎｃ打打ｅｉｅｓｕｓｕｍｍａｒｏｓｅｘｓｎｊｙｙｙｇｙｇｍｏｄｅ－ｌｓｓｃｏｒｅｓｅ打ｔｅｎｃｅｂｒｅｄｅｆｉ打ｉ打ｓｏｍｅｆｅａｔｕｒｅｓａｎｄｓｅｌｅｃｔｔｈｅｔｏｋｓｅ打ｔｅｎｃｅｓａｓｒｅｓｕｌｔｙｐｇｐｓｕｍｍａｒｙ．ＨｏｗｅｖｅｒｔｈｅｓｅｒａｎｋｉｎｇｍｏｄｅｌｓｓｃｏｒｅｅａｃｈｓｅｉＵｅｎｃｅｉｎｄｅｅｎｄｅｎｔｌｗｉｔｈｏｕｔｐｙｃｏｎｓｉｄｅｒｉｎｔｈｅｒｅｌａｔｉｏｎｓｈｉｓｂｅｔｗｅｅｎｓｅｎｔｅｎｃｅｓ．Ｏｎｔｈｅｏｔｈｅｒｈａｎｄｔｈｅｓｅｒｅｄｅｆｉｎｅｄｆｅａｔｕｒｅｓｇｐ，ｐｕｓｕａｌｌａｒｅｌｅｘｉｃａｌｏｒｓｔａｔｉｓｔｉｃａｌｗｈｉｃｈｃａｎ打ｏｔｃａｔｕｒｅｔｈｅｓｅｍａｎｔｉｃｍｅａ打ｉ打ｓｏｆｔｅｘｔＴｏｙ，ｐｇｃｏｕｎｔｅｒ化ｅｓｅｓｈｏｒｔｃｏｍｉｎｓｗｅａｓｓｕｍｅ化ａｔａｏｏｄｓｕｍｍａｒｃａｎｒｅｃｏｎｓｔｒｕｃｔｔｈｅｏｒｉｉｎａｌｇ，ｇｙｇｄｏｃｕｍｅｎｔａ打ｄｗｅｒｏｏｓｅｔｈｅｓｅｍａｎｔｉｃｒｅｃｏｎｓｔｒｕｃｔｉｏｎｍｏｄｅｌｂａｓｉ打ｏｎｔｈｉｓａｓｓｕｍｔｉｏｎ．，ｐｐｇｐＴｈｅｒｏｏｓｅｄｍｏｄｅｌｓｅｌｅｃｔｓｔｉｈｅｓｅｎｔｅｎｃｅｓｔｈａｔｃａｎｂｅｓｔｒｅｃｏｎｓｔｒｕｃｔｔｈｅｏｒｉｉｎａｌｄｏｃｕｍｅｎｔａｓｐｐｇｔｈｅｒｅｓｕｌｔｓｕｍｍａｒｙ．Ｏｕｒｗｏｒｋｉｎｔｈｉｓａｅｒｃｏｎｓｉｓｔｓｏｆｔｗｏａｒｔｓ：ｐｐｐ－－１．Ｓｅｍａｎｔｉｃｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｏｆｓｅｎｂｎｃｅ．Ｇｉｖｅｎｔ；ｈａｔ１；ｈｅｂａｇｏｆｗｏｒｄｓｖｅｃｔｏｒｃａｎｎｏｔｃａｐｔｕｒｅｔｈｅｓｅｍａｎｔｉｃｍｅａｎｉｎｇｓ，ｗｅｕｓｅｔｗｏａｐｐｒｏａｃｈｅｓｔｏｌｅａｍｃｏｍｐａｃｔａｎｄｓｅｍａｎｔｉｃｒｅｒｅｓｅｎｔａｔｉｏｎｓｆｏｒｓｅｎｔｅｎｃｅｗｅｉｈｄｍｅａｎｆｗｏｒｄｅｍｂｅｄｄｉｎｄｅｄｉｎ．ｈ：ｌｔｅｏｓ２ｅｃｏＴｅｐ（）ｇｇ；（）ｐｇｓｅｍａｎｔｉｃｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｃａｎｂｅｕｓｅｄａｓｔｈｅｉｎｐｕｔｏｆｒｅｃｏｎｓｔｒｕｃｔｉｏｎｍｏｄｅｌ．２ｉ．民ｅｃｏｎｓｔｍｃｔｉｏ打ｓ化ａｔｅｇｙｉｓｔｈｅｋｅｙｏｆｓｅｍａｎｔｃｒｅｃｏｎｓｔｒｕｃｔｉｏｎａｎｄａｉｍｓｔｏｆｉｎｄｔｈｅｍｏ巧ｒｅｌｅｖａｎｔｓｅｎｔｅｎｃｅｓ．Ｔｈｅｒｅｃｏ打ｓｔｒｕｃｔｉｏ打ｓｔｒａｔｅｇｙｉ打ｔｈｉｓａｅｒｉｎｃｌｕｄｅｓａｓｉｍｌｅｌｉｎｅａｒｐｐｐｆｕｎｃｔｉｏｎａｎｄ打ｅｘｉｂｌｅｎｏｎｌｉｎｅａｒｆｕｎｃｔｉｏｎ，ｒｅｓｐｅｃｔｉｖｅｌｙｂａｓｉｎｏ打ｕａｄｒａｔｉｃｒｏｒａｍｍｉｎａｎｄｇｑｐｇｇ打ｅｕｒａｌｎｅｔｗｏｒｋ．反ｅｓｉｄｅｓ，ｒｅｄｕ打ｄａ打ｔｓｅｎｔｅｎｃｅｓｃａｎｂｅｒｅｄｕｃｅｄｂｙｒｅｄｕ打ｄａｎｃｙｒｅｄｕｃｔｉｏｎａｌｏｒｉｔｈｍｔｏｉｍｒｏｖｅ１；ｈｅｓｕｍｍａｒｕａｌｉｔ．Ａ打ｄｔｈｅｓｕｍｍａｒｅｘｅｒｉｍｅｎｔｓｂａｓｉｎｏｎｔｈｅｇｐｙｑｙｙｐｇＤＵＣｄａｔａｓｅｔｓｖａｌｉｄａｔｅ１：ｈｅｅｆｅｃｔｉｖｅｎｅｓｓｏｆｏｕｒｍｏｄｅｌ．Ｋｅｗｏｒｄｓ：ａｕｔｏｍａｔｃｓｕｍｍａｒｚａｔｏｎｓｅｍａｎｔｉｃｒｅｃｏｎｓｔｒｕｃｔｉｏｎｒｄｅｍｂｅｄｄｉｎｓｅｍａｎｔｉｃｙｉｉｉｗｏ，，ｇ，ｒｅｐｒｅｓｅｎｔａｔｉｏｎＩＩ 目录一第胃绪ｉｆｅ１．１１自动摘要的研巧背景１１．２自动摘要的分类２１．３自动摘要的挑战３１．４本文工作和组织结构５第二章文本備要的相关研充７２．１句子排序抽取法７２．１．１基于统计信息７２．１．２句子聚类和图模型．９２．１３机器学习．１０２．２基于语言学方法１１２．２．１词汇链１１２．２．２１２ＬＳＡ２．２３互参信息和修辞结构１２２．３特殊文体或领域的摘要方法１３２３．１医学摘要．１３２．３．２期刊摘要．１４２．３．３．１４邮件摘要２３Ａ网．页摘要１５第Ｈ章文本的语义表示１７３．１引Ｈ１７３．２１８词嵌入加权３．３深度降维２１３．４实验对比巧３．５本章小结２７第四章原文语义重构策略站４．１线性重构策略２８４．１．１目标函数．２９４．１．２优化方法．３３４．２非线性重构策略３４４．２．１．模型结构及训练３５４．２．２摘要提取．４０４．３冗余消减４１４．４实验对比４３４Ａ１数据集和评测工具４３４．４．２对比实验介绍４５４．４．３实．验结果及分析４５４．５本章小结４９ＩＩＩ 第五章结与展望５０５．１工作总结５０５．２未来展望５１＃＃文献５２致谢５７臟５８ＩＶ 第一章绪论第一章绪论随着互联网技术的发展和产生数据的快速膨胀，信息过载脚ｆｏｒｍａｔｉｏｎＯｖｅｒｌｏａｄ）的问题变得日益严重，让；同时现代社会的生活节奏变得越来越快更多的用户提出了快速获取知识的需求ｏｍａｔｉｃＳｕｍｍａｒｉｚａｔｉｏｎ，因此自动文摘（Ａｕｔ技术便应运而生。文摘又可）Ｗ称为文本摘要（ＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ）或者文档摘要（ＤｏｃｕｍｅｎｔＳｕｍｍａｒｉｚａｔｉｏｎ）。自动文摘技术是通过电脑程序从文本集合中自动提炼出简洁连贯的语言段落，并保留原文的主旨思想，Ｗ达到信息浓缩的目的。移动通信的发展让更多用户选择从手机端获取资讯，然而由于博客、新闻等文章篇幅往往很长，手机屏幕尺寸严重制约了阅读效率。２０１３年雅虎Ｗ３０００万美元收购了１７ｋＤ’Ａ岁德国学生Ｎｋｌｏｓｉｏ基于ＩＯＳ平台开发的新闻自动摘要应用Ｓｕｍｍｌｙ，Ｗ利用其适配移动设备体验的自动摘要技术来加强公司内部产品，如雅虎财经和雅虎体育。从这个备受关注的事件可看出，自动摘要技术是个蕴含商机的前沿研究热点。ｗ一关键词提取（ＫｅｙｏｒｄＥｘｔｒａｃｔｉｏｎ）是种和文本摘要思路类似的ＮＬＰ任务，目的是一组和原文话题最为相关的单词或短语从文档中找到。关键词提取任务可Ｗ通过文本挖掘ＴｅｘｔＭｉｎｉｎ信息检索脚ｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ技术解决，比如文档主题模型Ｔｏｉｃ（ｇ）和）（ｐＭｏｄｅｌｌ或者随机游走模型２。文本摘要和关键词提取任务形式上都类似特征选择）［］［］（ＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎ）问题，前者找特征句，后者找特征词饱语）。然而文本摘要任务的难度更高，因为相比词语，句子的文本粒度更大，不能用单个特征表示，因、信息更丰富此不能用简单的特征选择算法如卡方检验直接求得；此外，文本摘要还要考虑摘要冗余问题，，句子之间的兀余信息会使摘要质量很差。但是关键词提取往往可Ｗ作为文本摘，进而用关键词的包含情况来衡量句子重要性要的早期步骤。１．１自动摘要的研究背景随着ＰＣ和手机的普及，及互联网技术和移动通信技术的迅猛发展，人类社会进，２０１０４２，入了大信息时代。据中国互联网发展统计报告称截至年我国网民数量近．亿２．７７ｋ手机用户达亿，网络普及率不断提高。同时，ＷＦａｃｅｂｏｏ、Ｔｗｉｔｅｒ为代表的社交网络巧ｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅｓ，ＳＮＳ）风靡全球，让越来越多的网民依赖于从网络媒体Ｉ 第一章绪论获取或发布信息，使得互联网己经成为最大的信息集散地。随之出现的现象就是信息过ｌｌ载，或称为信息爆炸，据ｗｏｒｌｄｗｉｄｅｗｅｂｓｉｚｅ统计世界最大的搜索引擎公司Ｇｏｏｇｅ所存４５０１００ＰＢ储索引的网页数量超过了亿，每天处理近的数据；根据数字宇宙研究报告８４０ＺＢ＝４０万Ｇ。称，未来年里人类将产生超过亿海量的数据再加上远快（巧的数据量一于人类消化的更新速度，方面需要谷歌等搜索引擎公司利用庞大的计算机集群建立索一弓，；ＩＷ提供个性化检索服务另方面需要高效的自动摘要技术来对大规模文本进行关，Ｗ提供快速浏览功能键信息提取。Ｌｕｈｎ一自１９５８年巧在旧ＭＪｏｕｒｎａｌ上发表的第篇自动文摘领域的论文已近六十年，期间自动摘要技术得到了广泛研巧和长足发展。然而自动摘要技术在处理速度和摘要质量上依然有诸多不足，包括；１处理速度太慢，赶不上数据产生和信息传播的速度。口（））摘要质量在组织性，工业界对成熟高效的、可读性等方面相比人工摘要相去甚远。因此一自动摘要技术有急迫的需求。此外在些特定领域，自动摘要技术的研究严重不足。比如医学摘要和基因摘要（ＧｅｎｅＳｕｍｍａｒｉｚａｔｉｏｎ，对摘要质量的专业性和准确性要求极高。）因此，文本摘要技术依然是ＮＬＰ领域的热点分支。１２自动．摘要的分类所有文本摘要的思路都是对文档进行压缩Ｗ提炼出能反映原文主旨的简短段落。但从不同角度不同需求出发，文本摘要可ｙＡ有多种分类方式。总体上，摘要的类型可分为抽取式文摘ＥｘｔｒａｃｔｉｖｅＳｕｍｍａｒ和生成式文摘（ｙ）ＡｂｓｔｒａｃｔｉｖｅＳｕｍｍａｒ。抽取式摘要从原文最具有代表性的句子或段落而并不改变原句，（ｙ）直接组成文摘；相反的，生成式摘要通过对原文进行语义理解并分析主旨，然后通过语言模型来重新组织语言来形成文摘，两；。简而言之者区别是前者直接选择现存的句子后者通过ＮＬＰ技术生成新句。高质量的生成式摘要能够贴近人类给出的摘要，更具有可读性，。然而受限于实现难度，绝大部分的摘要研究包括本文提出的模型都是基于抽取式摘要。ｉｌ－从处理的文本数量的角度，自动摘要系统又可Ｗ分为单文本摘要巧ｎｇｅｄｏｃｕｍｅｎｔ－ｄｏＳｕｍｍａＭｕｌｔｉｔＳｒｙ）和多文本摘要（ｃｕｍｅｎｕｍｍａｒｙ）。多文本摘要每次从若干篇相关的文’＇１ｗｖＡ￣ｈｔｔ：／／Ｖ．、Ｙ〇ｒｌｄｗｋｌｅｖｖｅ！Ｋｉｚｅ．ｃｏ閒／…ｐ２ 第一章绪论一一一档中生成份摘要，这些文档通常围绕同个主题各有侧重又相互联系，构成个主题ＴｏＤｔｓ。，文档群（ｐｉｃＧｒｏｕｐｏｃｕｍｅｎ）多文档摘要的难度要远远大于单文本摘要因为多文＾档文摘通常存在非常严重的冗余性问题，主题文档群里的所有文档都围绕同主题，因此容易提取到大量重复信息；此外每个文培各自的侧重点也很难把握。ｉＳｕｍｍ从用户需求角度，摘要可Ｗ分为普通摘要（Ｇｅｎｅｒｃａｒｙ和基于查询摘要）－ｂａｓｅｄＳｕｍｍａｒ，（Ｑｕｅｒｙｙ）。普通摘要就是不考虑任何用户需求即生成的摘要能让任何人看懂原文的大概含义。而查询相关摘要是面向用户的，针对用户提出的特定需求去生成和其查询相关的摘要。输入的用户查询可Ｗ是句子、词组，甚至话题，因此查询相关摘一一要任务相比之下更容易些，生成摘要的质量也通常更高。个理想的自动摘要系统应该既能处理普通摘要，也能面向特定用户生成查询相关摘要，而且当给出查询信息越丰富时，生成的摘要质量更高，如ＴｅｘｔＲａｎｋ４］ｙｉ？及最大边界相关模型（ＭａｘｉｍａｌＭａｒｇｉｎａｌ［Ｒｅｌｅｖａｎｃｅ，ＭＭＲ）［５］〇摘要从内容可Ｗ分为指示性摘要脚ｄｉｃａｔｉｖｅＳｕｍｍａｒｙ）和信息型摘要脚ｆｏｒｍａｔｉｖｅＳｕｍｍａｒ。指示性摘要能够给出诸如长度，提供快速浏览功ｙ）、写作风格等文章信息便用户大概了解文章结构相关，进而深入原文进行选择性阅读。而信息性摘要就是原文，可Ｗ直接代替原文而不影响阅读体验提炼出来的短文。此外一，还有些特殊类别的摘要，如更新式摘要ＵａｔｅＳｕｍｍａｒ会根据用户的历（ｐｄｙ）ｄ一ｌｉｎ史阅读记录来对摘要进行更新；而头条式摘要（ＨｅａｅＳｕｍｍａｒｙ只给出个句子作为）摘要；辅助式摘要（ＡｉｄｅｄＳｕｍｍａｒｙ）依赖人工对自动摘要进行后处理；基因摘要是对基因相关信息如基因产物、突变表型和基因集合等生成摘要。１．３自动摘要的挑战自动文摘技术己经发展了近六十年，期间得到了广泛研究和长足进步。然而机器生成的摘要依然差强人意，无法完全代替人王摘要Ｗ满足人们快速、准确获取信息的需ｉｉｉ求。相比于分词（ＷｏｒｄＳｅｇｍｅｎｔａｔｉｏｎ、命名实体识别（ＮａｍｅｄＥｎｔｌｙｅｃｏｎｔｏｎ等早己在）Ｒｇ）工业界成熟应用的ＮＬＰ任务，，自动文本摘要依然步履蹤珊面临不少困雄和挑战。自动文本摘要技术目前遇到的挑战主要存在下几个方面：３ 第一章绪论一（１）摘要本身没有个准确量化的定义。摘要算法的设计思路往往是通过预先定义一个评价指标，然后提出相应的优化方法来得到指标得分最高的句子集合作为最后生成的摘要。同样的流程在社团发现ＣｏｍｍｕｎｉＤｅｔｅｃｔｉｏｎ中也有体现，社团在概念上是在（巧）、网络中的联系紧密的节点簇，并没有客观量化的定义，可Ｗ通过侧面定义模块度、中屯度等指标衡量节点簇的结构强度Ｗ寻找社团。但是社团结构可Ｗ通过在空间中的物理分布情况来评价，而相比之下摘要的评价是个主观复杂的过程，难度更高。口。无论是人王摘要还是机器摘要，凸显性、覆盖）文本摘要的评价指标过于复杂度、切题性、兀余度、组织性、流畅性等都是要考虑的方面。其中较为重要的几个评价指标如下：凸显性（Ｓａｌｉｅｎｃｅ）：又称切题性，高质量的摘要必须契合文章的主旨，每个句子都和原文高度相关，不重要的信息显然要丢弃；Ｃ一覆盖度（ｏｖｅｒａｇｅ）；在凸显原文主题的同时，要涵盖尽可能多的话题点，不能挂漏万、舍本逐末；冗余度（艮ｅｄｉｍｄａｎｃｙ）：冗余性是自动摘要最容易出现的问题，即句子之间存在大量的重复信息（ＯｖｅｒｌａｐｐｉｎｇＩｎｆｏｒｍａｔｉｏｎ）。兀余性问题在多文本自动摘要中尤其突出，因为一主题主题文档群都是围绕着同，部分内容高度相似；组织性Ｆ山ｅｎｃｙ：指生成摘要的句子顺序能够读起来逻辑顺畅、条理分明。对于自（）动摘要来说可Ｗ通过人工后处理实现；Ｒ—可读性ｅａｄａｂｉｌｉｔｙ：般是人工摘要及生成式自动摘要的目标。生成式摘要往（）一往依赖个优秀的语言模型，让生成的新句语法正确、结构自然。（３）文本摘要的评价过于主观。摘要评价的主观性体现在，对文章的主题理解本身就是个主观的过程，因此人王摘要Ｗ及自动摘要的评价也极具主观性。＂一一＂一所谓千个读者也中就有千个哈姆雷特，，对同篇文章的主题不同的人基于不同的立场有不同的理解。径种现象让文本摘要的质量好坏成为非常主观的评判。因此大多数ＮＬＰ任务尤其是自动摘要任务所用的标准数据集都使用相对客观的热点新闻材料，因为时事新闻通常具有主题突出、立场鲜明的特点。尽管如此，当涉及到多文本４ 第一章绪论一摘要时，文档主题群里的多个文档都围绕同主题引申出各有侧重的话题。对这些话题，是先主后次还是面面俱到，即使对语言专家来说也是难Ｗ定度的取舍。，直接导致了摘要评价的主观文章主题的主观性；再加上摘要的组织性、可读性等指标无法客观量化地评判摘要质量，导致即使是人工生成的摘要，其质量评价也是仁者见仁智者见智。而机器摘要的评价往往又依赖人工摘要，比如最权威的自动摘要评价指标Ｒｏｕｇｅ就是将结果摘要和专家给出的参考摘要进行相似度对比。相反的，对其他诸Ｐａｒｔ－－ｓａＮＬＰ如词性标注（ｏｆｐｅｅ化Ｔｇｉｎｇ、分词等简单的任务来说，所得词性或者分词ｇ），直接对比模型输出和预期结果就可Ｗ对模型表现进行评估结果是确定的、客观的。因此，缺乏客观、精准的评价指标和预期结果，也是自动摘要面临的重要挑战。（４自动摘要模型的不足。目前主流的自动摘要模型是基于某种特征给输入文档的）－ｋ作为结果摘要句子打分，然后对所有句子按分值排序并选取ｔｏｐ。这种排序模型存在一，两个不足：方面所选取的特征往往是词素级或统计性的简单特征不能把握句子的语一义信息，即无法分辨语义相似但表述不同的句子；另方面给句子独立打分的过程并没有考虑句子之间的联系，忽略了原文的结构信息，且容易导致冗余。一本文为了解决上述不足，方面通过模拟人脑思考的过程将文本语义向量化，提取一句子的深度表示，把握句子的语义信息，通过基于原文重构来整体选取句子，；另方面避免对原文结构信息的忽略。１．４本文王作和组织结构为了解决主流自动摘要模型中忽略句子语义信息和句子之间联系，Ｗ及词素特征或统计特征缺乏语义性的缺点，本文提出了基于语义重构的自动摘要算法。算法分为两个一步骤，方面是通过简单有效的文本向量化模型将句子和原文表示成紧凑的语义向量；一另方面，基于原文重构，找到能最有效还原文本语义主题的句子集，作为生成摘要。本文后续组织结构如下：第二章介绍当今文本自动摘要领域的相关研究和基本方法。第Ｈ章设计词嵌入加权和深度降维两种简单有效的语义表示方式对文本进行语义。向量化，生成重构模型的输入表示５ 第一章绪论第四章分别介绍了线性重构策略和非线性重构策略，各自通过原文重构来得到高质量的摘要。此外通过兀余消减算法，提高摘要表现。最后辅Ｗ实验论证。第五章是总结与展望，包括对论文系统的主要工作进行总结并针对本文工作的可完善之处进行展望和探讨。６ 第二章文本摘要的相关研究第二章文本摘要的相关研究，涌现出各种经典的算法和模型文本摘要发展了近六十年。最主流的自动摘要模型是句子排序抽取模型，其衡量句子重要性的方法，由最初的词频统计、对数似然比等统计信息，发展到图模型方法，再到各种有监督的机器学习方法。随着语言模型、知识图，基于语言学的各种方法也开始流行谱等技术的发展，包括词汇链和潜在语义分析ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｓｉｓ，ＬＳＡ等。（ｙ）Ｗ上方法都是面向普通摘要和基于查询的摘要，对于特殊文体或领域的文章摘有其他需求，如医学摘要必须考虑严谨性、期刊摘要可利用科学论文的固有结构等。２．１句子排序抽取法句子的排序抽取是最主流的自动摘要方法，其重点是如何衡量句子的重要性，其中包括非监督的统计信息法和图模型法，Ｗ及监督的机器学习方法。２．１．１基于统计信息Ｌｕｈｎ在自动摘要领域的开河之作３，将词素频率作为衡量重要性的标志。Ｌｕｈｎ假［］定词频能够反映词概率（ＷｏｒｄＰｒｏｂ化化ｔｙ），即原文的词在生成摘要中出现的概率。词概率也是最简单的衡量词重要性的标志，计算公式为该词出现频率除输入文档中的所有＝词个数ｐ（ｗ）＾。给定输入文档的词概率分布，摘要的似然概率可Ｗ通过多项式分布计算出：ｎｒＬＷｍ＝－…１｜＞］ｐ〇ｒ）口）其中Ｍ是摘要的字数，ｎ南词Ｗ在摘要中出现的次数。Ｎｅｎｋｏｖａ阀分析了３０个ＤＵＣ主题文档群，对比了四个语言学专家给出的参考摘要和机器生成的自动摘要，发现人工一摘要的似然概率要略高些，证明了词频在衡量重要性上的价值。但正如Ｌｕｈｎ自己指出，很多高频词和其重要性并不相称。因为所有文档中的词语总体出现情况服从齐普夫分布（ＺｉｐｆｉａｎＤｉｓｔｒｉｂｕｔｉｏｎ）。］：单词出现的频次与它在词频表中７ 第二章文本摘要的相关研究ｆ＝的排名的常数次幕成反比。而在信息检索领域非常流行的ｔｉｄｆ权重，正好能够解决这个问题脚９。［］计＊ｉｄｆ＝Ｃ＊Ｚ〇－２ｗ如）９口）方公，表示词Ｗ出现过的文档数虹ｖｅｒｓｅ表示所有的文档。＾被称为逆文档频率（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ，ＩＤＦ），表明了该词在背景文档里的先验概率，其值越高说明该词越与某特定话题高度相关，而ｉｄｆ值很低的词通常为停用词（ＳｔｏｐＷｏｒｄｓ）。Ｌｏ－对数似然比ｌｉｋｅｌ化ｏｏｄ艮ａｔｉｏ１０是比ｔ巧ｄｆ，可Ｗ（ｇ）［］更有效的词重要性衡量指标很好的找到能够高度概括原文的词，这些词在文献中普遍称为主题标志Ｔｏｉｃ（ｐＳｉｇｎａｔｕｒ训１１］。和ｔＷｄｆ类似，ｔｏｐｉｃｓｉｇｎａｔｕｒｅｓ也和话题高度相关，即在其他话题的文档中极少出现。但对数似然比是通过设置阔值来判断输入文挡中的词是否是主题标志。词Ｗ在所有背景文档ＤｙＡ及和输入文档７中分别出现的概率比较分为两种情况：打１Ｐ／二Ｐ０；（ｗｖｖＶＶ｜）（｜）（不是主题标志）２－３（）Ｈ２：ＰｗＩ＞ＰｗＤｗ是主题（＼）（＼）（标志），输入文档和背景文档都可Ｗ看作词序列每个词的出现都符合伯努利实验，因此文档的似然值可Ｗ通过二项分布公式计算：ｋｗ－ｆｃ＿６Ｗ＝ｉ＿４化，Ｐ）（：）ｐ（ｐ）口）ＴＶ其中为文档长度，Ａ为ｗ出现次数：。对数似然比定义为＼二些迅每口＿引其中化和斯－２Ａ，心Ｐｄ）分别从输入文档和所有背景文档计算得到。的数据２，分布在统计学被称为Ｘ分布，可Ｗ用来区分词是否为主题标志主题标志就是似然概２率比随机预期值更大的词，比如。可Ｗ通过查询Ｚ分别表来获得某个Ａ值所对应的概率对数似然比为１０．８３的概率为化００１。句子的重要性就可Ｗ通过包含的主题标志数量衡８ 第二章文本摘要的相关研充量，而不需要对词进行加权。Ｌｉｎ和Ｈｏｖｙｌｌ设计的ＳＵＭＭＡＲＩＳＴ系统就是利用主［］［巧题标志来进行自动文本摘要。而之后１３１４１５使用的摘要算法也分别利用主题标志来［］［］［］进行多文档摘要。主题标志相比词频和ｔＰｉｄｆ表现更好，因为它是根据实际分布给出判断词语是否具有主题代表性的界限１６。［］２丄２句子聚类和图模型一在多文本新闻摘要中，由于主题文档群里的多篇新闻都是围绕着同主题的，因此重复出现的相似信息可Ｗ认为是主题相关的重要信息。不少学者ｎｉ８ｉ［］［］［刮就从句子聚一，。类着手来寻找主题句种简单可行的思路是先对所有句子进行聚类，然后从每个类一一簇里挑选个代表性句子组成摘要，同时尽可能的消除冗余信息。句子聚类模型的个显著缺点是每个句子只能严格划分到一个类簇中，但实际上有些句子会阐述多个观点。因此，表现方式更加灵活的图模型开始流行起来。图模型可Ｗ兼在词和句子的层面剖析其重复性或重要性。句子之间的相似度往往通过重叠词数计算，因此高频词可Ｗ联接多个句子，而且相似的句子可Ｗ同时提高彼此的权重，，。因此基于图的方法同时拥有词频统计模型和句子聚类模型的优点。此外图模型可Ｗ直接计算句子的重要性值，而不是对词重要性的加权来给句子打分。典型的图模型中２４，点代表句子，而边代表句子之间的联系，边权值为相似度。点的值又称为［］［］一、中也度ｃｅｎｔｒａｌｉｔｙ，中屯度的概念从社会网络启发而来，将所有句子组成的图看成个（）网络、，句子的中也度就是其和原文中也思想的相关性。中屯度可Ｗ通过普适的图算法解ＰＲａｎｋ一决，比如ａｇｅ：当所有的边权值都归化成概率分布后，从每个点出发的边权值之和为，整个图进而变成了马尔科夫链ａｒｋｏｖＣｈａｉｎ，１Ｍ而边概率值构成了转移矩阵。（）随机过程（Ｓｔｏ油ａｓｔｉｃＰｒｏｃｅｓｓ）算法可Ｗ计算出任意ｆ时刻的点矩阵值，直到收敛到平稳分布（ＳｔａｔｉｏｎａｒｙＤｉｓｔｒｉｂ加ｏｎ）。最终的收敛值越高的点，其对应的句子重要性越高，越可能选择为摘要句子。ＤＵＣ０４官方曾经对比话题标志算法［１４］Ｗ及图模型算法的摘要结果，发现两种模型的表现都很出色一，其中话题标志算法的表现略胜筹。而图模型在通用性方面有无可比拟的优势，无论是单文本还是多文本摘要都表现良好，并且图模型无需语言处理，无论２，中文摘要还是英文摘要均可适用［巧。在多文档摘要中可Ｗ通过在同文档句子Ｗ及不９ 第二章文本摘要的相关研究同文档的句子之间使用不同的权重指标给联接边赋值，来实现区分单个文档的主旨Ｗ及２１多个文档反复出现的共同话题［。］２丄３机器学习越来越多的句子重要性的指示特征被提出后，机器学习方法能够有效的结合送些不同特征。ＫｕｐｉｅｃＰ＾利用了朴素贝叶斯分类器对摘要进行预测。他使用了五个特征，包括：？３心［２引提出的固定短语特征、Ｌｕｈｎ巧提出的位置相关的段落特征、Ｅｄｍｕｎｄｓｏｎ提出的词频特征Ｗ及Ｋｕｐｉｅｃ本人新提出的大小写特征和句子长度特征，并假设这些特征彼此之间独立，样本文档为摘自王程信息ＥｎｉｎｅｅｒｉｎＩｎｆｏｒｍａｔｉｏｎ）１８８（ｇｇ的篇科技文章，每篇文章的类标为由语言专家给出的参考摘要，。经过实验证明多特征结合的方法一，但其中词频这特征反而降低了摘要质量显著提高了摘要效果。之后’，Ｃｏｎｒｏ和０Ｌｅａｒ２５！型ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＨＭＭｙｙ巧Ｊ用隐马尔科夫模来，［（）一，该模型不需要特征之间彼此独立这前提假设提取文本摘要。相比贝叶斯分类器。他们的模型使用了：Ｈ个特征句子在文中的位置、每个句子中的词个数和输入文档的词概率。此外，他们还探索了马尔科夫依赖性，即某句子出现在摘要中的概率依赖于它的前句是否在摘要中，。在后续的ＨＭＭ模型中句子的主题标志个数也被作为特征。在普通摘要中，基于机器学习的摘要算法的表现并没有比图模型或者词频的非监督一些与结构或文体相关的摘要中模型有太大的提高，机器学习算法的表现远远。但是在，因为在这些任务中，胜出，分类器可Ｗ用来区分特定的信息种类比如科普论文中的文一学背景的句子摘要，Ｗ及会议记录中是否达成致协议。这些机器学习算法中的一个固有问题是训练文本必须带有摘要类标，而人工对文本一２７８９０进行摘要标注非常耗时耗力Ｐ６。因此些生成式摘要的研究３１致力于］［］口］口］口］［］将摘要和原文自动对应，即能够分辨出输入文档中的摘要句子和非摘要句子。由于不同一摘要者的摘要方式不样，因此很难直接从单篇摘要去辨别摘要度信息ｕｍｍａｒ－ｗｏｒｔｈ巧ｙｙＩｎｆｏｒｍａｔｉｏｎ。为了解决迭个问题，Ｃｈａｌｉ３２提出了通过相似度计算从）［］一一原文和参考摘要找出高度相似的句子对，并非完全对应。１０ 第二章文本摘要的相关研巧总、之，在抽取式摘要算法中，监督学习并没有显著提高普通摘要的表现。仅利用单个特征例如话题词或者图模型的中如度就能得到较好结果。然而至今并没有很好的模型能结合这些特征而不使用监督模型进行自动摘要。２．２基于语言学方法之前的方法主要是基于统计信息来对句子排序抽取。然而通过对文本的语义理解和词句结构的分析，更能发掘原文的主旨性和话题性。有些模型依赖于人工建立的语义资料库如ＷｏｒｄＮｅｔ，如词汇链方法；而有些模型从大量未注释文本推断语义信息，如ＬＳＡ。２．２．１词汇链词汇链［３３３４３５试图呈现原文或段落的主旨。词汇链的原理是话题通常由若干相］［］［］＂＂＂＂＂＂一关的词语联系起来而表达的，如汽车，轮子，公路等暗示同个话题的词序列，尽管这些词可能无法顺畅的组织成句子３６。词汇链的生成极度依赖于ＷｏｒｄＮ圳］，一个由专家撰写的、将海量词语分口别类地梳理过后的词汇网络，网络中联接的词都是一具有话题或者类别相关性，词汇，比。此外链模型需要定程度的语言学处理如词性标１１注＾＞及话题相关的分词处理。Ｂａｒｚｉｌａｙ和Ｅｌｈａｄａｄ的摘要系统［３３］首先将输入文件进行分词，通过ＷｏｒｄＮｅｔ建立一词汇链，，然后给词汇链打分然后从每条高分链中选择个句子。他们的创新点在于该一＂＂—＂银模型创建词汇链的方式更合理，能够很好的处理词多义现象，例如ｂａｎｋ词可有＂＂＂行和河边等多种意思。Ｂａｒｚｉｌａｙ的算法里将文本中所有可能的词汇链都建立之后才对多义词进行消歧处理，消歧方式为该词的实际词意选择在链中有最多联接的语境。一之后的研巧进步改进了建立词汇链的时间复杂度和消歧准确率［３７３５。］［］一词汇链比词频等特征更能反映句子的重要性，因为很多不同的词可Ｗ指向同话题。词汇链的特征包括长度，即链中的词个数，及均匀度ｈｏｍｏｅｎｅｉｔ，即链中不同的词（ｇｙ）的个数除Ｗ长度。通过词汇链选择句子的具体方式为每个链选出代表词，然后从文本中一个包含该词的句子即选为摘要句选择第。１１ 第二章文本摘要的相关研究一由ＷｏｒｄＮｅｔ推导的词汇链后来演变成概念集合（（：〇１１６６９｛Ｓｅｔ），可１＾更好的避免词多义的问题。在多文本摘要系统ＤＥＭＳ３８，用ＷｏｒｄＮｅｔ的同义词、上位词Ｗ及下位词［］关系推导概念集合。不同于词汇链只是将语义相关的词找出并相联接，ＤＥＭＳ系统将有五种上释义的词都剔除。概念集合建立之后，对每个集合的所有词频相加作为该概念Ｃ＝６ｂａｎｋｒｉｖｅｒａｉｔ的频度。比如集合，即，｛，，化ｂ｝使每个单词的频次可能很低但是整个概念可能经常出现。然而词汇链Ｗ及概念集合都强烈依赖ＷｏｒｄＮｅｔ，导致生成摘要的表现严重受制于ＷＮＬＳＡ是一ｏｒｄｅｔ的覆盖及标注效果。因此不需要人工参考资料的种很好的选择。２．２．２ＬＳＡＤ一．Ｓｃｏｔ提出的ＬＳＡ３９是种通过观察词的共现情况来学习文本语义表示的非监［］督模型。Ｇｏｎｇ和Ｌ山［４０］提出使用ＬＳＡ来进行单文本和多文本的普通新闻摘要，算法一－思路是先将输入文档表示成个词句矩阵儿行表示文档的词，列表示句。＾的每个项＇＊ａ表示词Ｚ在句子中的ｔｆｉｄｆ值。然后对矩阵＾进斤奇异值分解ｉｎｕｌａｒＶａｌｕｅｙ７巧ｇＴ一一Ｄｅｃｏｍｏｓｔ二ｉ４＝ＵＺｙｉｉｏｎＳＶＤ：。ｐ，）分解成个矩阵的内积其中户的每行分别表巧一一一个话题，列表示个句子ｅ４也提出了，而每。Ｈａ浊ｙ种基于ＳＶＤ的算法该模型［Ｕ更接近ＬＳＡ的原始思想，根据大量背景文档的词共现信息来建立初始矩阵儿而不是仅仅要摘要的输入文档。经过实验对比发现，矩阵分解可Ｗ大幅改进摘要质量，然而词共现特征并没有比ｔｆＨ壯提高很多。２．２．３互参信息和修辞结构一反映同语义实体的不同语段除了词汇链、ＬＳＡ，也可Ｗ通过利用输入文档的互参信息ＣｏｒｅｆｅｒｅｎｃｅＩｎｆｏｒｍａｔｉｏｎ实现。起初互参信息在文本摘要中专鬥用来衡量句子重要（）性４２４３，但并没有得到显著提高生成摘要的效果。Ｓｔｅｉｎｂｅｒｅｒ在４４中使用首语重复］ｇ］［］［［法（Ａｎａｐｈｏｒａ）生成互参信息并将其输入到基于ＬＳＡ的摘要模型［４０］中，大幅提高了摘要一效果，。实验中所有指向同个实体的所有词句都被替代为首次提到该实体的词句；然后将生成的文档输入到传统的ＬＳＡ模型中产生摘要，结果发现生成的摘要质量相比传１２ 第二章文本摘要的相关研充统ＬＳＡ模型反而变差了一个实验中每个句子的实体都被当成衡量句子重要性的。而另特征，，最终生成的摘要质量有明显提升但不改变指向实体的词句。一些研究通过分析输入文档的论述机构来产生单文本摘要另外，其中包括修辞结构Ｒｈ一理论（ｅｔｏｒｉｃａｌＳｔｒｕｃｔｕｒｅＴｈｅｏｒｙ，ＲＳｎ４５。ＲＳ了需要将文档表示成棵树，ＲＳＴ中最小［］的文本分析单元是ＥｌｅｍｅｎｔａｒＤｉｓｃｏｕｒｓｅＵｎｉｔｓＥＤＵｓ，通常是子句从句Ｕｙ（）。相邻的ＥＤ一通过修辞关系连接起来，更大的单元递归参与形成关系，直至形成个覆盖全文的多层树结构。Ｍａｒｃｕ４６４７４８证明民ＳＴ能够在单文档新闻摘要得到很好的结果。［］［］［］２．３特殊文体或领域的摘要方法一前面各种摘要算法都是针对般摘要而设计的，却也往往能生成较高质量的面向用户需求的摘要，比如基于查询摘要。然而，这些方法通常不适用于特殊文体或者某些特别领域的摘要。当输入文件有某种特定结构或者其他独特的特性，摘要算法可Ｗ利用这一些特性使得摘要质量进一步提高。比如期刊文章经常有个总结章节直接概括出文章的，这个总结段显然能给摘要提供很多关键信息关键信息。又比如在医学或者法律等特殊，领域，往往对摘要结果有专业性和准确性要求而且除了输入文档外通常有丰富的相关一资源来帮助自动摘要过程。本小节主要介绍些文体结构和领域不同于新闻的文本摘要研究。２．３．１医学摘要医学领域的摘要任务是不适用普通摘要算法的典型例子，。在送个领域摘要算法通一常由精确定义的需求决定，比如帮助医生对治疗手段的决策，或是去检索和些特别病症相关的最新研究。医学文章往往有固定可知的结构，而且更重要的是，医学界会有大规模的医学资料提供数百万的概念名称及相关语义信息。一些当病人等非专业人±去搜索医学信息时通常没法给出精准的需求，却可能需要专业信息。ＣｅｎｔｒｉｆＵｓｅｒ４９５０是个能帮助用户搜索信息的摘要系统，实现了多文本摘要［］［］和基于查询摘要。它能够从多个文档中选择和查询问题相关的话题段落，这些段落能够给出指向原文档的导航链接，因此Ｃｅｎｔｒｉｆｌｉｓｅｒ更像是指示性摘要，给用户提供了快速浏览功能。１３ 第二章文本摘要的相关研充医学期刊文章摘要对于医药知识的捜索极有参考意义。著名的期刊摘要ＴＡＳ５１［］Ｓ一是病症数字图书馆ＰＥＲＩＶＡＬ５２的部分。ＴＡＳ也是个基于查询的多文档摘要系统，［］能将根据查询捜索出来的论文集合进行摘要生成摘要。ＴＡＳ的特殊之处在于它并不是抽取式摘要，而是通过从自居单元中抽取信息填充到预定义的模板，再进行排序重组生成摘要句子。此外，ＴＡＳ还根据病人记录来过滤论文，给医生提供适合该病人的相关论文摘要结果。２．３．２期刊摘要期刊论文往往有较为固巧的结构形式，，有些摘要算法从结构入手来寻找关键信息比如Ｔｅｕｆｅｌ和Ｍｏｅｎｓ５：３根据句子的修辞状态（ＲｈｅｔｏｒｉｃａｌＳｔａｔｕｓ来提取摘要。［］）此外，存在引用的论文通常会包含被引语段的概括信息，因此有研究者根据论文的引用链接来辅助抽取摘要。Ｎａｎｂａ和Ｏｋｕｍｕｒａ５４创建的摘要系统能够为若干篇相关科［］学论文自动生成简介，并且将论文么间的关系可视化，。通过规则匹配该系统能够识别被引用的区域，并将每个被引区域分成Ｈ类：（１巧Ｉ用的模型或者方法口巧日相关工作的３其他ｅｉｈａｉ５５ａｃｔＳｕｍｍａｒｉｚａｔｉｏｎ，通过对比或讨论（）。而Ｍ和Ｚ［］提出了影响力摘要（Ｉｍｐ）寻找被大量引用的语段区域，并利用语言模型从这些区域中对句子进行排序，进而抽取一摘要ｉｔａｔｉｏｎＳｕｍｍａｒｉｚａｔｉｏｎ。另外引用摘要（Ｃ促另种基于引用信息的单文本摘要模型。Ｑａｚｖｉｎｉａｎ和民ａｄｅｖ口６报出从输入文档引用的其他文档中提取出引用部分的重要语段，而这些语段很可能重复表述，２丄２作为摘要、存在兀余信息因此可能通过节中的句子聚类或图模型来抽取和提炼关键句。２．３．３邮件摘要，包括对邮箱摘要和邮件线摘要邮件摘要分为单封邮件摘要和多封邮件摘要。对每封邮件提取一，知道哪些邮件必须立刻回复＾１及个话题可＾帮助用户了解收件的优先级＾迅速查找相关历史邮件一。而邮箱摘要可Ｗ提供个浏览界面帮助用户迅速定位感兴趣的邮件。单封邮件通常通过选择能反映邮件主题的名词短语来完成摘要。用ｓｔｅｒ５７５８是个［］［］，能够结合语言过滤Ｗ及机器学习方法来选择名词短语来组成摘要邮件自动摘要系统。１４ 第二章文本摘要的相关研究而微软的研究者５９通过支持向量机巧ｕｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＳＶＭ［，对邮件句子进行分］ｐｐ）一，些类，判断是否为任务指示。先前的全文摘要算法也可Ｗ适用于邮件摘要但是需要预处理。１＾３１１１６０在对邮件摘要么前，先去掉了开头致辞、引用文本、结尾谦词＾＾及邮［］一６１件签名，然后使用个旧Ｍ的自动摘要系统［完成摘要。］一一Ｅｍ另种常见的邮件摘要任务是对个邮件线ａｉｌＴｈｒｅａｄ进行摘要，邮件线即主（）由峭很邮件娘反复回复后形成的邮件系列。Ｎｅｎｋｏｖａ和Ｂａｇｇａ［６２限出的摘要系统能从一，个句子邮件线中生成指示型摘要他们只对邮件线的前两封邮件各抽取：在根邮件抽取包含最多出现在邮件主题的名词的最短句子，；在后续回复邮件中提取和主邮件有最多重复词语的句子。而Ｒａｍｂｏｗ６３从邮件的对话本质入手，使用了两种基于机器学习［］一二的抽取式摘要算法，：第种和普通摘要类似使用词频等特征；第种算法依赖邮件结构特有特征，包括回复邮件数、句子主题相似度等。而他们使用的基于规则的分类器ＲＩＰＰＥＲ，并得到非常好的摘要效果。此外，对存在大量邮件、邮件线的邮箱和邮件归档的摘要是个困难的任务。Ｎｅｗｍａｎ和削ｔｚｅｒ６４报出的多文本摘要模型能够快速浏览邮箱。而Ｃａｒｅｎｉｎｉ提出利用图模型来［进行群邮件摘要，并展示邮件个体之间的联系。图模型中反复出现的词被定义为线索词（ａｕｅＷｏｒｄｓ），统计线索词的频率可Ｗ用来给句子的重要性评分。实验证明基于线索词的模型效果非常理想。２．３．４网巧摘要网页信息的内容越来越丰富，，为了满足人们快速从网页获取知识网页摘要的需求一２变得愈加紧迫。大部分网页摘要研究都依赖于个开放目录ＤＭＯＺ来获取大规模网页摘要资源，ＤＭＯＺ中网页内容和对应摘要被组织成多层结构，越是热口话题的网页节点越在上层，每个网页都有对应的人工摘要。６５６６Ｍｉｔｌ６５早期的网页摘要都基于网页本身去建模。Ｂｅｒｅｒ和ａ使用基于统计［］［］ｇ［］机器翻译的模型，来给ＤＭＯＺ的网页和摘要肉容进行对齐，并使用了两个模型分别生。Ｂｕｕｋｋｏｋｔｅｎ成摘要词及其顺序，最后生成的摘要中会用到输入网页中未出现过的词ｙ等［６６］用了基于Ｌｕｈｎ思想的简单摘要模型，能够生成可变长度的摘要并显示在小型手２扣扣／／、ｖｗｖｖ．ｄ．ｍｏｚｏｒ薛１５ 第二章文本摘要的相关研巧持设备上。而Ｄｅｌｏｒｔ［６７］通过计算余弦值当作句子之间的重复率，来获取句子的网页相关性。８１１１１６利用微软的搜索引擎来获取用户对网页的请求及数据的点击流，并［刮Ｈ元组形式表示（用户，网，ＳＡ，查询页）并结合Ｌｕｈｎ的模型和Ｌ算法提高了摘要质量。Ｃｈｏｉ等［６糾利用非监督算法提取网站摘要，来增强赞助广告的表现。在线论坛和博客博文的自动摘要也有不少相关研究。Ｚｈｏｕ和Ｈｏｖｙ７０Ｉ」用类似语［巧音，他们注意到论坛通常包含关于多个交错的话题的、邮件摘要模型来对论坛进行摘要异步交互，通过识别回复对象和讨论话题，最终给每个话题提供子摘要。Ｈｕ［７１］通过对博客博文的评论内容进行词频统计，来衡量句子重要性，最终生成博客摘要。１６ 第兰章文本的语义表示第Ｈ章文本的语义表示３．１弓Ｉ目一在对文本进行ＮＬＰ任务时，除了诸如分词、去停用词、词根化巧ｔｅｍｍｉｎｇ系）等列数据清洗的必要步骤外，还需要将文本转为可计算的特征表示，作为模型的输入进行一一学习直是ＮＬＰ界最热口的研究方向之，。文本的语义向量化尤其当深度学习技术的发展和普及后。文本向量的语义性在数学上主要体现在，语义越相似的文本之间的语义向量的距离也越近，包括欧式距离和夹角余弦：－２３－二１欧式距离：ｓｉｍａ占占（，）（ｉ））ＳＱｂｉｉ別ｍ＝－—夹角余弦：ａ６（，）ｐ口＆ａ巧如Ｊ）Ｊ一文本向量化模型分为两种，种是忽略文本中的单词顺序，只保留句子的统计信息如词频、多样性。最经典的就是词袋模型（Ｂ巧ｏｒＷｏｒｄｓ，ＢＯＷ）。词袋向量可Ｗ作为文本，进行文本分类和情感分析等任务的特征直接输入到分类器。词袋模型的建立过程很简单，下面是两个简单的文档样本句：１Ｊａｃｋｌｉｋｅｓｔｏｌａｍｕｓｉｃ．Ｒｏｓｅｌｉｋｅｓｍｕｓｉｃｔｏｏ．（）ｐｙ（２）Ｊａｃｋａｌｓｏｌｉｋｅｓｋ）ｐｌａｙｆｏｏ化ａｌｌ．一根据这两个样本建立个词典包含所有出现的单词，如果是未清洗过的原始文档，则词根建立。＂＂＂＂＂＂＂＂＂＂＂＂＂＂＂＂＂＂Ｊａｃｋｌｉｋｅ化ｉｍｕｓｉｃ民ｏｓｅ化０ａｌｓｏａｌｌ，，化〇化｛，，ｐ巧，，，，｝根据每个词语在词典的索引和在文档中的出现频次可Ｗ对Ｗ上两个句子建立词袋向量：１１２１１２１１００２１１１１００００１（）［，，，，，，，，］（）［，，，，，，，，］１７ 第ｓ章文本的语义表示每个维度的权值可取例子中的词频，也可Ｗ是ｔｐｉ肚，甚至可是二元值，即１表示出现０表示未出现。而词袋模型的缺点也很明显，向量表示的特征维度高、非常稀，而且缺失语义信息疏。一＂＂＂ＭＪａ浊ｋｌ另种向量化模型和单词输入顺序有关，可Ｗ区分ａｒｙｌｏｖｅｓ和ＪａｃｏｖｅｓＭ＂这两个句子，Ｒｔｌａｒｙ。词语的顺序很难直接量化输入但循环神经网络（ｅｃｕｒｒｅｎＮｅｕｒａＮｅｔｗｏｒｋ，ＲＮＮ）能够通过时间序列的变化，实现变长词串到语义向量的映射ｓｅｕｅｎｃｅ－ｖｅｃｔｏｒ。（ｑ）〇ｈｉｈ２ｈｔＣｏ￣￣￣ｏｏＸｉＸ２Ｘｔ图３．１ＲＮＮ结构示图Ｘ一如图，Ｘ．．为输入文档的词串，ＲＮＮ将文档看成个随时间变化的词序列，每输ｉ２一一入个新词，隐含层就进行次更新；＝３－３ｈｈ－Ｘ＜＞／（＜ｔｉ＞，）（）ｔｆ这样，隐含层充分利用了上文的历史信息，并始终保持最新状态，直到最后输出文档的语义向量Ｃ。由于带有词序信息，ＲＮＮ训练出来的文本向量相比词袋模型更具有语义，在实验上直接体现在输入到同个分类器中，带词序信息的模型在情感分类任务的表此外－７２，实现了变长串到向量ｓｅｃｅｅｃｔｏ现更好［。（ｑｕｅｎｖｒ映射的模型，可ｙＸ适用更复杂］）ｅｕｅｎｃｅ－ｖｅｃｔｏｒ－ｓｅｅｎｃｅ的ＮＬＰ任务，，比如配合语言模型可很容易扩展成ｓｑｑｕ模型完成直接从源语言到目标语言的机器翻译任务［７３］。然而ＲＮＮ优化困难、结构复杂，且容易丢失较久之前的历史信息。本文中尝试使用了两种简单的方法学习文本的紧凑的语义表示，分别是词嵌入加权３２３３。和深度降维，分别在．节和．节阐述３．２词嵌入加权１８ 第Ｈ章文本的语义表示词嵌入（ＷｏｒｄＥｍｂｅｄｄｉｎｇ）表示词语在连续空间到特征向量的态射，相当于单词的语义向量表示，。相比于文本的语义向量化问题单词的语义向量化问题简单很多。对文本，可直接作为整个文本的语义表示中所有词的语义表示进行加权平均得到的向量，用数７ＴＣ学公式表为：２ｗｅｉ占ｈｔ＊ｅｍｂｅｄｄｉｎ是１（ｗ〇５（ｗ〇＿（可Ｓ（）ｗｅｉｇｈｔ（ｖｖ〇雖＝１其中ｗ，ｅｍｂｅｄｄ化ｍ，ｉ是该文档中出现过的所有词巧（）表示该词的语义向量（词嵌入）一ｅ－ｗ苗相〇为词嵌入的加权系数函数。公式３４中有两个关键点，个是词的语义表示形一式，个是加权函数。一－对于词的语义表达形式来说，最简单的是ｏｎｅｈｏｔ表示，即将每个词表示为个长一ｂ－ｉｔｉｉ度为词汇表大小的向量，其中只有个ｂｔ为，ｂｔ０。虽然ｏｎｅｈｏｔ能够唯１其他为一区分不同的词，但是这种简单的映射完全没有考虑词和词之间的关系，语义信息更无一。ｅ－ｈｏｔ形式作为词的直观表达从谈起因此ｏｎ，常常在些复杂模型中当作原始输入进行处理。词嵌入最常用的获得方式就是神经网络。Ｂｅｎｇｉｏ７４最早通过训练神经语言模型来［］计算词序列的概率一，顺便得到了份词嵌入作为副产品。如今研究者们通过神经网络来处理包括词性标注，，、机器翻译的各种自然语言处理任务时都能顺便得到词向量矩阵而且得到的语义效果通常比简单的语言模型更好，但要求训练集文本必须有词性或者译文等类标－ｒａｍ语。因此本文使用最简单的基于ｎｇ言模型的前向神经网络来训练词嵌入向量矩阵。－ｒａｍ的统计语言模型的思想可表示为基于ｎｇ：－ｉｐｏｄ二ｎＬＰＯ？ｗ３ｉｔＫ）ｎＬｉＰＯｔｉ為＋１）（句＝／其中Ｍ表示第ｆ个词，ｗ表示词序列ｆ／。前半部分如＾打口为ｔ语言模型中词序列的联合概率表达形式。后半部分的？ｐＷｔＷｔｒ为（｜＾＋ｌ）－－ｎｒａｍ的基本假设１ｇ，即每个词只和上文ｎ个词有关。基于ｎ－ｒａｍｇ的神经网络语言模型结构如图：１９ 第Ｈ章文本的语义表示？＼ＶｎＷ！Ｗ２…，（Ｉ５ＳｏｆｍａｘｔＩＸａｖｒ＾１＼￣￣￣－巧巧量ＸｌＸ２Ｘｉ－１Ｉ｜Ｉ｜Ｉ＾巧典脈ＤＤＤ…？？．？Ｗ１Ｗ２Ｗｎ－１３－图．２基于ｎｇｒａｍ的前向网络语言模型一－Ｗ－图中Ｗ．．１，ｏｎｅｈｏｔ形式输入。矩阵Ｄ，表示前ｎ个词用是词向量矩阵，每列ｉ２一Ｘ都是个单词的词向量。．．Ｗ．．．Ａ就是Ｗ，２对应的语义向量，可Ｗ通过单词对应的ｌｉ一－－ｏｎｅｈｏｔ向量点乘词典矩阵Ｄ得到是前ｎ１，。Ｘａｗ个单词的语义向量均值输入到个一分类器中去预测下个单词。最后的输出值是每个单词的预测概率，可Ｗ通过ｓｏｆｔｍａｘ激活函数实现：ｗ＝－ｗＷ．．Ｗ＿３（，２，，ｎＰｊｉｉ）（句其中Ｙ输出层单词Ｗ激活前的值，：ｉ是ｉｙ的计算方法为＝ＵＸ３－７ｙｂ＋．ａ＾ｒ（）其中Ｗ？分别为ｓｏｆｔｍａｘ激活函数的参数。对于输入文档ＷＷ．．濃型的目标函数是最，｛ｉ２｝大化预测概率的似然函数：Ｌ＝ｏＷ－ｌＷ－Ｗ－－Ｗ＿３８ｇＰ（ｔｎ＋ｔ，．－＼ｔｔｎ＋２ｔｉ）（）ＳｂｃｈａｓｔｃＧｒａｄｅｎｔＡｓｃｅｎｔＳＧＡ其中ｒ是文档长度。用随机梯度上升ｉｉ可Ｗ求出网络中的（，）各个参数：２０ 第兰章文本的语义表示Ｐ（Ｗｗ－，Ｗ—Ｗ－ｔ｜ｔ打＋ｉｔｎ＋２ｔｉ）巧。３＿９（）＝其中０ｔ／６０。词向量矩阵Ｄ是本文所需要用到的参数。（，，）词向量的权重函数ｗｅ接要能够反映词Ｗｉ在所在文段中的重要性。单词的重要＝レ？。ｔｆｉ，性主要体现在两个方面：统计信息和位置信息统计信息可ッ用ｄｆ值衡量位置信息可Ｗ通过该词是否在标题出现过来判断：ｔ＝１－ｗｅｉｈＭ＋￡＊ＰＷ＊５ｕ／３１０ｇ（。（（ｉ））（ｊ）（）其中Ｐ（Ｗ）是位置信息函数，如果Ｗｉ在标题出现值为１，反之为０；？Ｓ（ｗ；）是统计信息函数，为Ｗ的ｔＰｋｉｆ值。ｆ是个增益参数，用来放大在标题中出现过的词的权重，本文取值０．２５。３．３深度降维通过模拟人脑大脑皮层的感知过程，深度模型可Ｗ生成人工智能级别的摘要。神经生物学表明，７５，大脑皮层之所Ｗ有多种认知能力是因为其复杂的层状物理结构。当［］’Ｗ’神经语言系统中的多个脑区，包括布罗卡氏区（ＢｒｏｃａｓＡｒｅａ巧日韦尼克区（ｅｒｎｉｃｋｅｓ－－Ａｒｅａ进行即使最简单的词素语义处理ＬｅｘｉｃａｌｓｅｍａｎｔｉｃＰｒｏｃｅｓｓｉｎ，也，（ｇ会有数十层的））７一，皮层参与其中［刮。受此启发本文使用了个无监督的多层神经网络模型来对文本进行降维，学习出文本的深度特征作为语义表示。Ｈｉｎｔｏｎ［７７］在科学杂志首先提出通过使用深度自编码网络来对样本进行维度消减来提取深度特征，并成功运用在手写识别和文件检索中。类似于ＰＣＡ的非线性泛化，深一度自编码器通过个自适应的多层编码网络（ＥｎｃｏｄｅＮｅｔｗｏｒｋ）将原始输入压缩成低维紧Ｆ一凑的特征码（ｅａｔｕｒｅＣｏｄｉｎｇ，再通过个结构相似的多层解码网络（ＤｅｃｏｄｅＮｅｔｗｏｒｋ将））特征码恢复数据。随机初始化多层神经网络中的边权值很可能导致梯度扩散和局部极值问题，用限制玻尔兹曼机（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ，ＲＢＭ）进行预训练来巧始化网络可Ｗ避免这些问题。２１ 第Ｈ章文本的语义表示隐层ｈ■Ｐ嗦嚴，ＰＭ＼可视层Ｖ图３．３ＲＢＭ双层结构视图—ＲＢＭ网络在结构上有两层，下面Ｖ层为可视层ＶｉｓｉｂｌｅＬａｅｒ，般是输入层；上（ｙ）ｉｄｄｅｎＬａｅｒ。ＶＡ面Ａ层为隐含层巧，而同ｙ），即特征表示层层和层相互连接构成二部图一层的节点间互不连接，因此在隐藏节点巧可视层的节点分别是条件独立的：＝？ｌｐ（／ｉ｜ｉ）ｐ（ｈ＼ｖ）ｐ（ｈ２＼ｖ）．．．３－１１（）＇ｖｈ＝ｖｌｈｖ２ｈｐ（．．．＼）ｐ（＼）ｐ（＼）’因此在输入Ｖ的时候可Ｗ通过ｐ（ｈｂ）得到Ａ，得到Ａ后再通过ｐ〇｜／ｉ）可Ｗ得到Ｖ。’ＲＢＭ预训练的目的是让ＶＶ一接近，从而使得隐藏层Ａ可Ｗ作为Ｖ层输入数据的另种特征表达。一一２０００－－－本文中我们最终建立并训练了个８００３００１００的多层神经网络，能够从个一句子或篇文档中学习出１００维的特征码。为了训练这个网络，我们从ＤＵＣ语料库中的纽约时报ＮｅｗＹｏｒｋＴｉｍｅｓ巧日美联社ＡｓｓｏｃｉａｔｅｄＰｒｅｓｓ中摘选了１００００个句子，进行去（（）２０００停词、词根化等数据清洗步骤后取词频最高的个词作为词典，将每个句子表示为２０００维的词袋向量作为网络的输入。底层的输入层和顶层的输出层都是２０００个节点，对应句子或文档的２０００维语义向量。：ＲＢＭ预训练整个建模过程包括Ｈ个阶段，ＲＢＭ拼接和整体调参。２２ 第Ｈ章文本的语义表示２０００了Ｗｉ８００了Ｗ三３狐了Ｗ３至ＧＣｏｄｉｎｇ？Ｗｓ３００Ｗｚ８００Ｗ：之０００图３．４滯度网络结构，１００个节点的隐层为ｃｏｄｉｎｇ层－－－在预训练阶段，需要训练Ｈ个ＲＢＭ２０００８００８００３００３００１００。ＲＢＭ，分别是，是个，生成模型，预训练过程是无监督的。ＲＢＭ的能量函数定义为；．Ｅｈ＝—ａｖ—ｂｈ—－ｖｖｗｈ口（，）口）一其中ａ、６分别是可视层Ｖ层和隐藏层＆层的偏置参数，ｗ是联接网络矩阵。ＲＢＭ是－ＥｎｅｒｂａｓｅｄＭｏｄｅｌＥＢＭ种能量模型，，ＲＢＭｇｙ，能量模型的概率分布通过能量函数定义（）的联合概率分布为：一－片ｉ巧仙）邮，）Ｐ〇二ｅ＝ｅ－３，ｈ）１）瓦六苗而（３Ｚ一一Ａ其中是个归化因子。当输入层Ｖ确定时的概率分布为：－Ｅｖｈ．ｐ（）—－Ｐｈ＝＝—３Ｍ（）Ｓｈ（）１ＲＢＭ中ＲＢＭ２０００－８００预训练的Ｈ个，除了底端的有连续数值输入，其他的两个（）ＲＢＭ的隐含层和可视层的所有节点均为０１二值，即Ｕｆ，咕６｛０，Ｕ。每个节点被激活的概率为：－Ｐ／ｉ＝ｌｖ＝ａ｛ｂ＋Ｗｖ３１５（ｉ＼）ｉｉ）（）２３ 第三：章文本的语义表示Ｐｖ＝ｌ＾＝（ｙａ＋Ｗｖ（ｊ｜）｛ｊｊ）＝１１＋ｅ－ｉｄ其中ｃＴ的／（巧Ｊ（ｘ））为ｓｉｇｍｏ激活函数。为了更新参数Ｗ口６，ＲＢＭ采用的，Ｇ一Ｇｉｂｂｓ采样ｉｔｉｂｓＳａｍｌｉｎ。Ｇｉｂｂｓ采样可Ｗ根据个复杂概率分布生成数据进行采样，（ｐｇ）因此可根据Ｖ层采样Ａ层，再从Ａ层采用Ｖ层，反复迭代：？＾°－Ｐ（／ｉｖ＾ｈＰｖｈ＞｜），（＼）３－１６（）ｉ一１ｉ一Ｐｈｕ片Ｐ．．．（｜），州＆）其中／＜１和化分别是可视层和隐含层在第／次迭代采样的结果。利用这些样本可＾＾用梯度上升方法进行参数更新，具体算法可用陆ｎｔｏｎ的对比散度ＣｏｎｔｒａｓｔｉｖｅＤｉｖｅｒｅｎｃｅ方（ｇ）法。训练完一ＲＢＭＲＢＭ一ＢＭ个的参数之后，可Ｗ将这个的隐藏层激活值作为下个Ｒ。，ＲＢＭ的的可视层输入进行训练经过逐层预训练后每个两层节点都成为特征表示，一一进而将３个ＲＢＭ联接起来，并复制份进行翻转，可Ｗ拼接成个图３．４中所示的多？层网络２０００－８０００。其中底部及顶部的ＲＢＭ（）的样本输入值为１的连续值，并非０１二？元值，因此在顶层输出的时候用ｌｏｓｔｉｃ０１，ｇｉ函数可得到的激活值用交叉贿作为整个网络在整体调参阶段的目标函数：——一－＝Ｐ１Ｚ〇ｌ３－／Ｓ１７ｉｉ柳６左（Ａｇ（巧）（））其中巧代表输入层节点／的强度，Ｈ代表输出层节点／的重构值强度。最小化交叉煽的优化过程可Ｗ用梯度下降求解。用交叉煽作为损失函数的原因Ｗ及梯度下降法的迭代过４３１，程会在．．节里详细阐述。为了加快训练过程可Ｗ将样本集划分成ｍｉｎ化ａｔｄｉ进行训练。一－不同于图像处理个像素向量，０２５５，图像输入是每个像素的取值固定为的整数。一因此只需要将像素向量除Ｗ２５５就能保证每个输入值在（Ｕ］么间，这时候输出层用个［ｉｉｌｏｇｓｔｃ激活函数就可Ｗ拟合要重构的输入值。但是本文模型的目标是要对文本进行降维处理，输入文档样本通常是Ｗｔｆ值为权重的词袋向量，然而ｔｆ值会随着文本长度变一长而增加，取值范围不确定，因此词袋向量必须除レッ文档长度，变为个词概率向量作２４ 第ｓ章文本的语义表示レ为原始输入。这样会导致两个问题：ｌッ词概率向量作为输入时，输入层的所有节点（）之和恒为１ｌｉ，但是输出的ｏｇｉｓｔｃ激活函数没有这个约束，并不保证能理想的重构输入；０，尤其当文本很长的时候趋近于０，这将使得节点的激活值非常）词概率的值往往很小，进而导致训练出来的网络边值往往会很大，使得重构效果非常差小。－，Ｈｉｎｔｏｎｔｒｉｃｋ是让底层的ＲＢＭ２０００８００Ｗ词袋向量输入为了解决这个问题的，（）－避免输入值太小导致无法激活，而顶端的ＲＢＭ（８００２０００改用ｓｏｆｔｍａｘ激活函数，保）证输出层的激活值之和为，这时候只需要将目标函数改为激活值向量和输入文档的词１一概率向量的交叉赌，。而Ｓａｌａｋｈｕｔｄ７８就可Ｗ解决上文提到的两个问题ｉｎｏｖ使用了个［］更为复杂的约束泊松模型ＣｏｎｓｔｒａｉｎｅｄＰｏｓｓｉｏｎＭｏｄｅｌ对输入向量建模。（）上述的两种模型都比较复杂ｓｏｆｔｍａｘ，且都用了作为激活函数使得计算量比较大。一Ｍｉｎ－ｍａｘ本文给出的解决方法是对输入进行归化处理，将词概率向量进行离差标准化（Ｒｅｓｃａｌｉｎｇ）：Ｘ—ｍＸｉ打ｆ（），？＜义＂－化口）一－Ｍｉｎｍａｘ归化后的输入向量其实就是之前的词概率向量的线性投影，但每个维度一－的值都被放大了几倍到几十倍，并依然保持０１的取值范围，。同时归化后的向量并没有各维度值之和为，ｌｉ１的约束因此只需用简单的ｏｇ姐Ｃ作为激活函数就能有效实现数据重构。３．４实验对比Ｌ一为了证明两种文本向量化方式的有效性ＡＳ比较两者优劣，本文做了个文句分类＂的对比试验。从ＤＵＣ２００７语料库中我们抽取了６篇新闻，分别是ＡｎＩｎｔｅｒｖｉｅｗｗｉｔｈ’＂＂＂＂ＢＵＲＭＡＳＡｕｎＳａｎＳｕｕＫｉ，ＧｉｎｒｉｃｈＷｒａｓｕＨｉｓＯｆｉｃｉａｌＤｕｔｉｅｓ，ＳｐａｉｎＦａｃｉｎｉｔｓｇｙｇｐｐｇ＂＂＂ＯｗｎＦｅａｒｓｏｎＳｅｐａｒａｔｉｓｍ，ＳｅａｒｃｈｆｏｒＳｕｓｐｅｃｔｅｄＡｂｏｒｔｉｏｎＣｌｉｎｉｃＢｏｍｂｅｒＳｔｉｌｌＷｉｄｅＯｐｅｎ，＂＂＂Ｅ－ＣｏｍｍＣｅｒｃｅｉＳｏｏｎｔｏＡＣｏＳｈＮＹ口ＮｋＳｔｉｋＤｉｔ：ｏｍｎｇｆｅｅｏｐｅａｒｏｕ矛ａｓｒｒｅｓｓｓｏｎａｎｐＣｈ＂一ｏｒｄｓ。每篇新闻均大约有百个句子。－分别对所有句子进行两种方式向量化后，使用常见的高维数据可视化工具ｔＳＮＥ２５ 第Ｈ章文本的语义表示一－－ＴｄｉｓｔｒｉｂｕｔｅｄＳｔ：ｏｃ；ｈａｓｔｉｃＮｅｉｂｏｒＥｍｂｅｄｄｉｎ７９来观测他们的分类表现（班ｇ）［］。ｔＳＮＥ是种流形学习方法，通过保持数据点的相邻关系把数据从高维空间降低到二维平面，特点是数据分布的边缘呈圆形，适合实验结果作图对比。＾ＳＮＥ的降维原理就是让高维数据在映射到的低维空间中依旧保持和之前类似的分布。在原高维空间中两个点和；的相似性定义为：＋ＰｉＰｌ—ｊ＝＼＼ｊｐｙ３－９１（）’其中ｎ为点的个数，表示为ｚ的邻居的概率：ＰＷ＿／ｅｘｐ－－ｘ＇２（／２）｜ｋ，ｆ＊ｙ—＝ｊ【｜Ｓｅ邱ｘＸｆｃＰ／２ｆｃｗＨｌ广的２Ｘ屯、？其中巧。而在映射后的低维空间，是从点ｉ为中的高斯分布的方差点ｙ冲３的相似性０计算公式为：＋ｉ（ｉｂ广ｙ／ｒ＝—■－ｉ－ｙＩｉ＋２…：ｆｃ＊！（ｌｌｙｆｃｙ！ｌ｜）通过优化算法可ｙＡ使映射后的低维空间的相似度矩阵和原高维空间的相似度矩阵相近，此时得到的映射点就是降维后的数据。－ＮＥ的降维对两个语义向量化模型学习后的所有句子样本进行ｔＳ，左侧是词嵌入加一个颜色的点代表来自同一篇新闻权模型结果，右侧是深度降维模型结果。其中同，因此聚类效果越好代表句子分类效果越好，即语义向量化的质量更高。参－？挪出＂＇‘—、識％鶴＊？＊為？二ＷｖＶ娘，聲缀？．巧口＊＊々乏？Ｓ■６（ａｗｅｉｇｈｔｅｄｍｅａｎｏｆｗｏｒｄｅｍｂｅｄｄｉｎｇｓｒｅｐ巧汝ｎｔａＨｏ打化）ｄｅｅｃｏｄｉｎｇｒｅＲ泌ｎｔａｔｉｏｎ）ｐｐ图３．５语义向量化实验对比，左为词嵌入加权，右为深度降维２６ 第Ｈ章文本的语义表示实验结果图像表明两种向量化方式在文句分类方面的效果都很好，说明两种模型都能学习出文本的低维语义表示。而对两种方法的表现进行比较，可Ｗ发现深度降维得到一，３５，的向量分类特征更加明显如图．所示每篇文章的句子集都构成了个扇形视觉上可直观的通过叙率加Ｗ区分。３．５本章小结一在实现自动摘要算法的过程中，文本的语义表示是不可或缺的重要步骤，。方面＾，将原文整体１＾及所有句子的语义向量化后才能为后续的重构算法提供原始输入；另方面，将文本用语义特征而不是简单的统计特征去向量化表示，可使得文本向量包含更多的语义信息，从而让生成的摘要句子更契合主题。相比于词袋模型的高特征和语义缺失，我们希望能够生成紧凑和富有语义的文本向量。当前最热口、效果最好的语义向量化是ＲＮＮ，但是结构比较复杂。在本文中用了一两种相对简单的模型生成文本的语义表示，。种是词嵌入加权将复杂的句子向量化一－ｗｏｒｄ－ｖｅｃｔｅｘｔｖｅｃｔｏｒ问题转化为相对容易的词向量化ｔｏｒ问题，词嵌入可Ｗ通过个基（）（）一一－于ｎｇｒａｍ的前向神经网络训练。另种方法通过模巧大脑皮层的深度结构，训练个一多层的神经网络学习得到文本的深度特征作为语义向量，其中利用输入归化简化了模型。经过句子分类的实验论证，两种方法训练出来的语义向量表现良好都可学习出文，本的紧凑的语义表示。２７ 第四章原文语义重构策略第四章原文语义重构策略经过第Ｈ章的两种语义向量化方法后，可Ｗ得到每个句子甚至整个文本的语义表示，进而再输入到设计好的重构模型进行摘要提取。语义向量的意义主要在于提高了生成摘一要的凸显性，让生成的摘要能够Ｗ最小的。而本章的重点就是设计个有效的重构策略重构损失去还原原文档的语义。重构模型的基本思想是得到能够最佳还原文本的句子集作为生成的摘要，其中有效的重构策略是获得高质量摘要的关键，。重构策略包括重构函数的设计重构源和重构对，重构函数可Ｗ是线性的象的选取，也可是非线性的。重构源可Ｗ直接对。具体来说所有可能的候选句子集进行重构，找到最优句子集直接作为摘要；也可Ｗ是ｙＡ单个句子一重构－逐，得到每个句子的重构贡献度，Ｗ此排序取ｔｏｐｋ。重构对象可Ｗ对所有句子一一逐重构，累积重构误差也可Ｗ是直接对整个文档进行；次重构。Ｈｅ在巧０］中重构策略是利用线性重构函数对原文中的所有句子作为重构目标，逐句进行重构并累计重构误差作为目标函数，最后找到总重构误差最小的候选句集作为摘－－要。Ｌｉｕ在巧。采取的重构策略是构建个由若干ＲＢＭ找式堆叠而成的深度模型进行逐句重构，经。重构源和对象都是每个句子的词袋向量过深度网络的非线性重构后能在隐含层节点提炼出若干个原文概括性最高的关键词，再对每个句子Ｗ关键词为权重进行打ｏ－ｋ分选取ｔｐ。在４．２节和４．３节中，分别设计了基于线性函数和非线性函数的重构策略，对原文一．４节又从冗余消减方面语义进行重构。此外，４，对重构策略进行定程度上的优化，Ｗ提高生成摘要的质量。最后在４．５节进行实验对比论证。４．１线性重构策略Ｈｅ的重构策略是对原文中的所有句子，逐句进行重构并累计误差，最后找到总重。构误差最小的候选集该重构过程的目标函数为：２２－沪叫＋４－加打１义４巧＝ｌｉ化１｜刈而｜｜（）２８ 第四章原文语义重构策略ｓＸＣ：ＶＺ＝．ｔ．ｍ，｜１＊＾＾Ａ＝ａａ〇ＥＲ．．，，，［＾２ｍｆ其中Ｆ是所有句子集合，乂是候选句集，也是Ｆ的子集。ａ；是每个句子的线性组合系数，。＾是正则化系数防止参数过大导致的过拟合现象。－ｈａｒｄ该目标函数的优化过程是ＮＰ，无法在多项式时间内解决，经过二次规划后可［＾等价转化为如下函数：了－。ｍｉ打７＞＾乂＋乂〇叩Ｘ１片］４－２（）■ｔＸＣ二义．Ｖｍ，间该目标函数可Ｗ通过贪也算法获得近似解，最后得到的最优义就是生成的摘要。和Ｈｅ的原句重构策略不同，本文的重构对象是原文的语义向量，而不是重构所有一句子叠加误差，避免了复杂的泛函分析，降低了计算复杂度；另方面Ｈｅ的重构模型，而本文Ｗ语义表示作为输入，用的是词袋模型作为输入，Ｗ重构原文语义为目的使得生成的摘要更具语义性和凸显性。４丄１目标函数用第Ｈ章中的语义表示模型，将清洗过的文档中的所有句子Ｗ及整个文培分别用语＝Ｓ．．，Ｓ义向量表示，令句子集为矩阵５ＳＳ．其中每列的｛ｉ，２，３｝表示第／个句子的语义向；量又令，。，重＾／为整个文档的语义向量特征维度同在本文中构源是所有句子，经；＆过线性组合后得到重构结果：＝Ｓ卿４－３／口）咒ｉ（）其中Ｗ是句子＆对应的重构系数，。重构目标是原文的语义向量并用欧式距离平方作为ｉ重构损失：２９ 第四章原文语义重构策略＾＾－—－—Ｌｄ５＝ｄＳ＝Ｓ４－４（〇ｄｏ），／（））＼＼ＹＬｉｉ１１＼＼｜｜（ｉｉ（）６Ｊ表示线性组合系数向量，表示向量ｏ到６的欧式距离。重构损失表示为欧式距离的平方并乘因子１／２的目的是为了求导方便计算。该目标函数在形式上同回归二ｅａ一问题中的最小乘估计（ＬｓｔＳｕａｒｅＥｓｔｉｍａｔｉｏｎＬＳＥ），ｑ，求解过程是个连续可微的凸レ优化问题，可ッ直接用梯度下降法求最优解。Ｗ中系数为０的项对应的句子被认为文档不相关句子，因为这些句子并未参与原文重构。因此最终生成的摘要只会从Ｗ中非零项对应的句子集中挑选。损失函数除了用欧式距离计算的重构误差外，生成的摘要总是有个长度限制。比如做后续对比实验的摘要测试系统ＤＵＣ中，对每篇文档的摘要结果有严格的长度限制要一求，必。因此我们希望组合稀疏Ｗ中含有尽量少的非零项须在目标函数上附加个稀疏惩罚项：２ｍ－ｉｎ３加＋Ａｗ４｜｜｜｜。垂｜｜｜｜ｚ〇（句Ｌ一其中．是〇范数形式，用来统计向量中非零维度值的个数乂是，；个正则化参数ＩＩＩｌｉＤ用来平衡稀疏性和重构损失。－然而Ｌ〇惩罚项的优化过程是个ＮＰｈａｒｄ问题，无法在多项式时间内解决。常用的方法是用Ｌｉ正则项或者ｂ正则项替代Ｌ〇正则项，将目标函数变成凸优化问题。ｋ正则项的表达形式为：ｗ＝４－６ｌ｜｜｜１（！ｉ摧１帖）ｋ正则项的表达形式为：＝４－７ＩＭＩ！２Ｖ摧（）！＞〇替代为ｋ范数后目标函数变为岭回归（ＲｉｄｇｅＲｅｇｒｅｓｓｉｏｎ问题，也是个连续可微的）凸优化问题。对比之前的最小二乘，ｋ范数能够在给出最优解和求得很小的系数Ｗ之间做平衡。尽管ｋ正则项能够实现参数收缩（ＶａｒｉａｂｌｅＳｈｒｉｎｋａｇｅ的目的，但是它并没有很）直接地将系数强制为０，而是仅仅逼近为０。［８２］已经证明＾范数能比＾范数在处理稀疏性方面更优秀，尤其当矩阵尤中存在不相关的特征的情况。３０ 第四章原文语义重构策略Ｗ‘ｌ２Ｉｗ＇Ｌ－ｎｏｒｍＬ－ｎｏｒｍ、／、＼／车／图４－１Ｌ１范式相比Ｌ２范式能得到更稀疏的最优解图中模拟的是二维空间的优化过程，虚线部分表示随Ａ变化而伸缩的范数约束域－－ｎｏｒｍｂａｌｌ，红线为损失西数等高线，红线和ｎｏｒｍｂａｌｌ相交的点就是最优解的系数（）。从－１图上也可直观地看出ｋ能比＾得到更平滑更小的系数，但是＾的１１０１＾６３１更容易在特征轴上相交，即能得到更稀疏的系数，，。基于Ｗ上考虑我们用山正则化作为稀疏惩罚并得到对应的目标函数：２加打ｄ－加＋Ａ－山畫ｌ｜｜｜ＩＭｌｉｉ４８（）一二其中Ａ是个用来平衡稀疏性和重构损失的参数。带＾范式正则项的次回归问题曾经分别独立的表达为ＬｅａｓｔＡｂ…１山ｅＳｅｌｅｃｔｉｏｎａｎｄＳｈｒｉｎｋａｇｅＯｐｅｒａｔｏｒ（ＬＡＳＳＯ）回归问题［８３］ａｓ－及ＢｉｓＰｕｒｓｕｉｔＤｅｎｏｉｓｉｎｇＢＰＤＮ８４问题。公式４８称为Ｌａｓｓｏ的拉格朗日形式或者（）［］ｃｏｎｓＦｏ＝非约束形式（Ｕｎｔｒａｉｎｅｄｒｍｕｌａｔｉｏｎ）。非约束形式Ｌａｓｓｏ是个凸优化问题，但对０时的Ｗｉ并不可微，无法用类似最小二乘估计或者岭回归问题的方法去求全局最优解。因此更多地被写成约束形Ｌａｓｓｏ（ＣｏｎｓｔｒａｉｎｅｄＬａｓｓｏ）去求解：－２ｍ化ｄ５６ｊＷＪ｜｜｜｜４－９（）ｓ．ｔ．｜Ｍ｜！ｉ一约束形Ｌａｓｓｏ的目标函数是个凸函数，而且约束条件定义了个凸集，因此是个凸一，而且任何满足约束的局部最小值都是全局最小值优化问题。在般的Ｌａｓｓｏ回归模型Ｃｒｏ－中，参数又的取值需要通过交叉验证ｓｓＶａｌｉｄａｔｉｏｎ方法去确定，因为乂值太大会让回（）３１ 第四章原文语义重构策略归系数过于稀疏导致拟合不足；而Ａ太小会导致过拟合（ｏｖｅｒｆｉｔｉｎｇ）现象。但是在本文中一并不需要学习出个能精准预测类标的回归模型，而是通过给定的５、ｄ优化目标函数；Ｗ得到最优的Ｗ，通Ｉ，可。因此过手动或设定程序自动调整的值Ｗ获得理想的Ｗ进而生成满足篇幅要求的摘要。此外当生成摘要的原文档比较短的时候，即文档的句子数ｎ远小于语义向量的维度一Ｗ时，用山范数正则项可能会遇到退化现象，即当存在组相互高度相关的句子，Ｌａｓｓｏ一会倾向于只从中选择个句子而忽略其他几句。原Ｌａｓｓｏ表达式附加ｋ范式惩罚的弹ｌｔＮ８５可性网络巧ａｓｉｃｅｔ＾＾克服这个缺点：）［］２加打ｄ－ＳＷＷｌ｜ＩＩ＾４－１０（）Ｓ－＜ｔ１ｑ．．＋ａ义（〇｜Ｍ｜！ｉｌＭＩｋ一＝＝其中ａ是个平衡参数，当ａ０和ａｌ时目标函数分别变成Ｌａｓｓｏ和岭回归，因此Ｌ一一可Ｗ看出弹性网络是ａｓｓｏ和岭回归的种折中。ａ往往是个接近１的值，使得弹性网络既有Ｌａｓｓｏ的稀疏功能，又能避免由于句子间高度相关而导致的选择退化。弹性网络适用于文档句子数《远小于语义向量维数的情况ｍ，而本文实验所用的标准测试集ＤＵＣ每篇文档都有３００个句子Ｗ上，远大于语义向量淮度１００，因此对比实验所用模型更适用Ｌａｓｓｏ算法。４－公式１０通过手动调整Ａ的值，可Ｗ获得理想的Ｗ进而生成满足要求的摘要。摘要的篇幅限制包括句数限制和字数限制。当限制句数时：２加ｎ－Ｓｗ＂垂ＩＭ｜｜４－１１（）Ｓ．ｔ．＜Ａ，＜ｔｌＭＩ！ＩＭＩ！！。其中／的值为摘要结果的限制句数：。当限制生成摘要字数时－２ｄ５ｗ４－ｍ化１２Ｗ｜｜）（卽３２ 第四章原文语义重构策略＜°＜Ｓｔ６ｊＣｉ．．Ｘ（）Ｉ｜｜｜ｌ，Ｙｉ＼＼ｊ＾＾ｉ０Ｃ？其中表示第／个句子的长度，／表示摘要结果的字数限制，表示求０，此处．｜｜次方值ｔ０定义〇＝０。４丄２优化方法Ｌ是一二ａｓｓｏ种典型的凸优化及次规划问题，可Ｗ求得全局最优解。学术界对Ｌａｓｓｏ问题已经给出多种解法。Ｅｆｒｏｎ的最小角度回归（ＬｅａｓｔＡｎｇｌｅ民ｅｇｒｅｓｓｉｏｎ，ＬＡ民Ｓ）巧６］算法不仅发现了Ｌａｓｓｏ和ｂｏｏｓｔｉｎｇ么间紧密的数学联系，还通过结合前向逐段回归（ＦｏｒｗａｒｄＳｔａｇｅｗｉｓｅＲｅｇｒｅｓｓｉｏｎ将求解过程优化至相当于最小二乘法的复杂度。而）Ｆｒｉｅｄｍａｎ８７的坐标下降法（ＣｏｏｒｄｉｎａｔｅＤｅｓｃｅｎｔ是最快的Ｌａｓｓｏ解法。［］）用ＬＡＲＳ算法求解约束性Ｌａｓｓｏ的步骤：＝．＾初始化〇）为０，此时残差５＾／。找到与／相关性最大的自变量５；．Ｓ＝－和（５，若正相关则增加对应系数的值反之减小，同时更新残差５ｄｄ。ｊ直到另有Ｓｋ与Ｓ的相关性与ｓ同样大；？在（Ｓ加（ＯＪＷ），直Ｓ与当前残差Ｓ也有，却，到另有）的联合最小二乘方向同时增ｆｃｉ；ｙ同样大的相关性．迭代直到所有Ｓ都被激活一一、数据处理也是重要的个步骤，化和归化。在进行优化之前包括数据中屯，文本－－０、１－矩阵５的各列都要标准化为均值方差，而文档向量＾＾将中也化为０均值。通过中也化为０－－，可从消除截距，均值。通过对Ｘ进行１方差可Ｗ呆证Ｓ中的所有列都处于一范围一相同的数值尺度进而让所有的系数也处于同，这样避免了个高范数的列倾向得到很小的系数。可心：＾正明稀疏参数＾值变大，得到的最优系数Ｗ的非零项越多，而且将包含较小的参数得到最优解的所有非零项，因此得到的摘要字数更长：３３ 第四章原文语义重构策略乂＜乂＾＂＇单〇Ｅ０）单ｏ１２｜１｝ｙ２！｜ｙｊ４－１３（）０〇＜＇＝＞＇巧＝１。｜＝巧｜而巧１与ｊＩｌ其中＆是在给定＾下用ＬＡＲＳ或者坐标下降算法求得的最优解。生成摘要的长度关于变量＾单调增，因此可Ｗ用二分迭代法确定＾的取值。算法４．１：线性重构生成摘要Ｉ山＆生成摘要的／ｎｐ：文档的语义向量Ａ文档中所有句子的语义表示集合矩阵字数限制ｏｕ：ｕｍｍａｒｔｐ山生成摘要句子的索引集合ｓｙ化ｓｃｒｉｐｔｉｏｎ：从文档中通过语义重构的思想找到线性重构损失最小的句子集作为生成的摘要１０－－将Ｓ的所有列及向量ｄ中也化为均值，另将Ｓ的所有列标准化为１方差（）文的大小极值Ａ＝０＝ｎ口）初始化，！〇ｗ４邮＝－＜５ＷＷＷ口；Ａ５输出ｉ０。５是义的取值精度０．０００１口）如果＊，本文取。！〇ｗ如邮，〇｛崎｝｜｜否则继续步骤４）（４乂取中值义＝＋义ＬＡＲＳＣＤ（）？ｈ，并用算法或者算法求出对应的最优解Ｓ＾＾＾化。ＶＶ邮）０＝５计算生成摘要的字数长度Ｚ，如果？＜／，表明组合系数Ｓ过于稀疏，即＾直偏（）巧＆临｜小＝■乂义＝乂，因此更新极小值新Ａｂｗ来缩小又取值范围；反之值偏大，更新Ｗｈ。＾。０返回步骤３（）４．２非线性重构策略一在４．２节的重构策略中，我们采用了个线性的重构函数，通过从候选句子集合进行线性组合，对原文档的语义向量进行重构。而在本节的重构策略中，采用的是非线性重构函数。相比于线性模型，非线性模型通常更加灵活、更加平滑，对数据的拟合更加，精确，；同时从人脑决策的角度分析人工生成摘要的过程是个大脑皮层中多层神经参与活动认知的过程一过，而非线性的模型通过学习更高层、更抽象的表达，能够模拟这程。最简单常用的非线性模型就是采用非线性激活函数的神经网络。Ｌ一ｉｕ在８１采用了个思路类似重构的深度模型。该模型通过由多个ＲＢＭ堆叠而成［］的多层神经网络，对输入的文本进行概念提取（ＣｏｎｃｅｐｔｓＥｘｔｒａｃｔｉｏｎ），因而隐含层也被称为概念层，。隐含层节点经过计算可切获得输入文档的关键词进而作为句子的重要性评价进行排序抽取。３４ 第四章原文语义重构策略４．２．１模型结构及训练一－－００８０，本文使用了个１１００的两层神经网络去模拟了文本的重构过程结构包括Ｈ、。Ｃ、、Ｃ原文重构网络也和输出层ｙ了输入层话题提取网络！隐含层；ｕｔｏｕｔｕｔｉｎｐｐｎ图４－２前向重构网络结构示图１００个神经元。输入层：，包含；Ｃ输入文档（句子）的语义向量Ｈ１，可Ｗ得到相：对输入文档句子进行概念提取，由于经过了非线性函数的激活（）比输入层更为抽象的持征表示。一Ａ入层压缩后的抽象表示个话题，每，每个神经元可Ｗ理解成隐含层：相当于输个输入文本都映射成８０维的话题向量。一。ｉｉｄＨ２，对隐含层的话题向量进行原文重构激活函数是ｓｍｏ；构成个重构网络ｇ函数。，Ｗ达到非线性重构的目的输出层重构得到的结果。，每次输入的样本是文档的句子在该重构神经网络的训练阶段ＪＣ。该网络尝试学习ｉ一（〇一（）出个／ｗｘ）？Ｘ的重构函数，因此对于每个句子的重构过程ｘ一／ｗｂＯ）Ｓ来说，ｂ（，ｉ？（０重构误差可Ｗ用输入Ｘ和输出克欧式距离来表示：３５ 第四章原文语义重构策略２（ｔ）（【）（ｉ）—（。＝－１４＾ｂ；ｃ克ｘ《１４八，，）叫（４）｜｜２ｔ２用均方误差（ＭｅａｎＳｕａｒｅＥｒｒｏｒＭＳ：ｑ，巧衡量该网络原始状态下的损失函数为Ｗ＝ＷＸ阳阳／ｒ（，的，６，，《＋ｅｃｏｎｓ扣左ｉ／（）九刪Ｗ４－１５（）＝仍－批＋．）２沾＝１非＜读＝心，；（＜）其中／ｗｅｉｔ为权重衰减项（ＷｅｉｇｈｔＤｅｃａｙ），用来防止网络边权值过大造成的过拟合现象，ｗ又是权重衰减参数，用来平衡重构误差和权重衰减。表示网络Ｈ／中节点／和节点ｙ的联接边权值。隐含层Ｃ模拟的是输入文本的话题分布，而每个输入的句子通常都只是涵盖很少的，话题，因此除了重构误差外我们为这个网络另外加上隐藏神经元的稀疏限制，这样能够让隐含层学习到每个句子的侧重话题，而不是仅仅实现降维压缩。稀疏限制的思路是抑制隐含层神经节点的激活值ｉｍｏｉｄ函数作为激活函。在使用ｓｇ数的时候，隐层神经元的激活值接近１时认为该节点处于激活状态，而激活值接近于０的时候认为该节点处于抑制状态。因此稀疏性限制就是让隐藏层神经元尽量处于抑制状态，即激活值接近０，是因。这种稀疏性限制从模拟人脑的角度分析为神经元－语义分析时被激活是需要能量的，只有小部分神经，每次大脑皮层对输入文本的词素元工作，其他都处于被抑制状态。，？用〇乂＝表示隐藏神经元在输入样本Ｊ下的激活值，在训练集Ｕ．．Ｘ上隐（句ｙｉ乃。｝／藏神经元〇的平均激活度表示为：／＝〇仍４－１６己１［（＞）］（）扣／一为了实现隐藏神经元的稀疏限制，在我们的优化目标中加入个额外惩罚因子。但是该惩罚不是简单的将隐藏神经元的每次激活值直接累加，因为理想中的激活值是个接〇＾〇〇近于的个很小的值，却又不完全等于。因为所有点激活值为训练出来的网络会一导致连接边极大，导致重构效果极差。因此，我们定义个稀疏性参数７。通常是接／３６ 第四章原文语义重构策略近０的较小值，如０．０５。通过鼓励隐藏神经元的激活值都尽量接近，可Ｗ抑制隐藏神经元的激活程度。因此稀疏限制的关键就是惩罚显著偏离ｙＯ的情况。量化区别两个分布的指标有互．信息，此处平和７，ＫＬ、卡方检验、ＫＬ散度等均激活度凤／都是离散序列散度是个最合适的选择：＝—ＫＬｐｌｏ＋１ｌｏ４－（、咕）ｐｇ（ｐ）ｇ（１７）長請因此整个网络的稀疏惩罚用ＫＬ散度表示为：二－／＋１ｐＺ〇岛４－ｓｐａｒｓｅ巧＝１（）１８告赛（）＝其中Ａ为隐层节点个数，在本文模型中Ａ８０。整个神经网络的损失函数包括重构误差（＾＾及稀疏惩罚：Ｗ６—Ｗ＆＋／，，ｃｏｓｔ（）／ｒｅｃｏｎｓ（）片／ｓｐａｒｓｅ４－１９闲。２（）二Ｗ６ｘ／辦＋＋＝ｉ（，，，）＝ｌ：）试麵ｉ＂喊峭＝ｉＫＬ（ｐＡｐｊ）而总损失画数对各层网络参数Ｗ和６的偏导数分别是：阳的！）／Ｗ６＝＾占Ｘ克＋乂ｃｏｓｔ（，）左，，，命扣１命八）哨４－２０（）Ｗ占＝＝免阳／ｃ〇＂（，）ｊ扣ｆｉ）贵贵其中Ｗ，６，ｘ（〇，挪是单个样本（Ｘ？妒）的重构损失的偏导值，需要用反向＾／（））传播（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ，Ｂ巧算法计算得到。，为了方便计算定义单个样本在网络中的流程如下：３７ 第四章原文语义重构策略＝口）输出层ｙ輸｝＾難ｙａａ口Ｊ＝ｚ口）Ｗ）２２ｚＷ＝ｗＷａ＋ｂＷ（）（）网络ＨＷ，６，２（餐）隐含层ａｉｉ（）（）＝（）ａ＜ｐｚ（）（ｉ）＝。）…ｚＷ！＋占；：ｉ１Ｗ（）（）网络Ｈ，６ｉ（，知）ＸＩ、输入层Ｘ、；Ｉ今］Ｉ＃＼图４－３重构网络每个样本计算流程其中Ｚ表示网络加权值，ａ表示激活值，例３表示激活函数，在本文中是ｓｉｇｍｏｉｄ函数一二。隐含层为第次激活值，输出层为第次激活值。整个网络的计算过程简写为＊ｆｗ°ｂ（），后向反馈算法的具体流程描述如下：对每个输入样本，进行前向传播并计算网络中所有的激活值。然后对网络中第／层？的每个节点／计算其传播残差Ａ，表示该节点占输出层残差的比重。其中输出层的残差表示的是激活值瓜６的和预期值Ｘ的差距，可Ｗ用欧式距离计算：，＞－＝Ｘ＝—Ｘ。／ｗ皆赤創＇ｂＷｌＩｂ）命扣如ｊ严）４－２１（））２－－）＝－＝．＜ＰＸａＴ扣＾的ｉ皆））ｉ批蜡）洁（巧其中ｍ为输入层、输出层的节点个数，本文中为１００。如果不考虑稀疏限制，隐藏层的残差为：４２２（）３））；－＝Ｘ＝Ｘ．咚頭１广獅端１广徊知快亦（））（））倚３８ 第四章原文语义重构策略）＞＝．巧．＝．．恥妒诗Ｉ＝１巧喘皆如悼考虑了稀疏限制后，隐藏层的残差改为：）＝－ＳＺＬＷ＋＋４－２３尸ＪｉＰＣ）如皆、（）（ｆ皆ｙ表請１得到输出层和激活层的残差公式后，就可＾计算单个样本批，巧重构损失分别对边权值Ｗ和偏置项６的导数：—１！））Ｗ＝八６ｘ〇＾，，，巧｛皆４－２４（）【）＝ｊＱＶ．ｂ．ｘ．巧Ｓ［ｊ＾其中／为０或１，分别计算是隐藏层和激活层关于Ｗ，６的偏导。网络的训练过程，首先巧始化网络参数（Ｗ６），将每个参数Ｗｉｆ和赋值为接近０２＝的极小值，可Ｗ通过正态分布Ｎｏｒｒｎａｌ（０，ｅ）随机生成ｅ化０５。随机初始化而不是全０（）初始化的目的是实现对称失效（ＳｍｍｅｔｒＢｒｅａｋｉｎ，防止所有的边权重学习到相同值。＾ｙｙｇ）初始化后，参数可Ｗ通过梯度下降法进行优化，由于损失函数／ｃ〇ｓｔ（Ｗ，６）非凸，可能得不到全局最优解，但是对于层数较浅的神经网络来说局部最优解也足够理想，也能实现一文本重构功能，，迭代。梯度下降算法每次迭代时将文本的所有句子逐输入进行训练到／ｃ〇ｓｔ（Ｗ，６）很小。每次迭代的具体过程：＝＝１初始化梯度４Ｗ０Ｚ１６０），２＝）对于／１；ｎ阳【ＢＰ文（）和阳《阳用算法计算偏导数，，，并更新计算））阳（。阳阳證一澀＋／Ｗ，６，Ｘ，克和４６一Ｚ１６＋术，Ｍ，文為（）竞八）３更新参数占）３９ 第四章原文语义重构策略———一—＾？一ｔ＇Ｖ＼ｌＷＩｔＷ及ｂ占ＩＡｂ（（）其中／ｒ是学习率。梯度下降迭代训练完后，模型网络已经能够模拟原文重构的过程，并在隐藏层实现了话题分布的提取。本文的摘要模型和３３节中用于语义向量化的深度模型在结构上有几点区别：１网络结构上：向量化模型用的多层神经网络，摘要模型是个浅层神经网络（）２参数初始化：向量化模型需要用ＲＢＭ预训练，防止梯度弥散；而摘要模型层（）数较浅，可Ｗ随机初始化网络参数３隐含层：向量化模型的隐含层即编码层节点个数较少，目的是实现深度降维；（）而摘要模型的隐层节点数相对较多，但有稀疏限制，目的是实现话题提取（４）损失函数：向量化模型的损失函数为输入输出的交叉煽，而摘要模型的损失函数为输入输出的重构误差加上稀疏惩罚４．２．２摘要提取—在线性摘要模型中，可Ｗ次对多个句子进行组合重构，因此可Ｗ直接通过优化重一构误差来直接获得最优句子集，作为生成的摘要。而神经网络每次只能处理个句子，一因此最理想的摘要策略是用该网络模型给每个句子，逐１＾原文重构效果为标准打分并一排序取ｔｏ－ｋ作为摘要个量化单个句子重构原文ｐ。因此非线性重构策略的关键是定义效果的指标。一一重构原文的效果体现在两个方面，个是重构损失，个是话题契合度。和训练时一样，句子５的重构损失用欧式距离计算候：２－Ａ＝ｗ－ｄ（４２叫ｂ切，｜｜／｜｜其中Ｊ是整个文档的语义向量，／ｗ，ｂ（ｓ）是句子５的语义向量在网络模型中的输出。话题契合度是指句子的话题分布和文档主旨的相似度，用相对贿计算：４０ 第四章原文语义重构策略／＝ｈ４－２６２切｜｜）（）口一＆其中口＾对应的第层激活值，即隐藏层向量／乂句表示输入句子。表示文档＾对应的隐藏层向量。然后对文档所有句子求总损失：—／＝ａ＋１〇４－２７ｃｏｓｔ／ｉ（〇／２（）对句子的排序人。Ｓｔ值排序并取最小的个句子作为生成的摘要。整个算法的流程：算法４．２：非线性重构生成摘要虹Ｐ山：文档的语义向量ｄ，文档中所有句子的语义表示集合矩阵＆生成摘要的字数限制／Ｏｕｔｐ山：摘要句子的集合訊ｍｗ幻呼Ｄｅｓｃｒｉｏｎ：ｔｉ从文档中通过语义重构的思想找到非线性重构最好的句子集作为生成的摘要ｐ－－Ｓ的所也、０１）将有列和ｄ中化为均值，另将Ｓ的所有列标准化为１方差（立稀疏２口自编码神经网络，参数（Ｗ＾ｉ随机初始化为Ｎｏｒｍａｌ００．０１）建，Ｏ（，）５５．．：８口．训练，并用梯度下降法优化得到（＾４饼Ｗ句子集｛１，２，５３｝为样本进行４／挡＾输入网络，得到隐藏层向量々为文档主题分布（）文＇＝５ｆｏｒ！ｌ：？（）ｉｓｃｏｒｅ＝ａ－－机（）ｉ＋１ａａｈ［］／ｗ，６〇ｉ）（）（Ｏｉ）ＩＩ）｜｜別２巧ｓｃｏｒｅＡ）将数组中最小的个句子输出为４．３冗余消减能Ｗ最小重构损失还原文档的句子，被认为是与文档主题联系最紧密的句子，因此一重构策略抽取出来的句子满足了凸显性这指标。此外，本节通过加入冗余消减功能，来完善重构策略。兀余就是句子之间的重叠信息。生成式摘要可Ｗ通过句子的融合重组，提炼出互不一冗余的新句。然而对于抽取式摘要模型来说，冗余消减的实现非常困难。方面，兀余４１ 第四章原文语义重构策略，ｉ？ｉ度难＾计算＾＾最经典的基于差异最大化（ｍａｘｍａｌ出ｖｅｒｓｉｔｙＭＭ民５为例：）的摘要算法［］ＭＭＲ省Ａｒｇ百畫４＿２（刊摧巧是？Ｃ其中Ｗ刪＾是文本相似度函数。表示所有句子的集合，Ｓ是己经选中的句子集合，ｃ＼ｓ；£Ｃ和Ｓ的差集即未选中句子集合。ＭＭＲ算法的思想就是初始化＆然后每次挑选在剩余句子找到和集合Ｓ最不相关最大边际相关的句子并添加到Ｓ，反复迭代至达到长度限制，（）得到的集合Ｓ即为生成摘要。可Ｗ看出，冗余度往往要么在己选中的摘要句子集之间计算，，或者通过待定的候选句和已选中的句子之间计算前者通常是用于对摘要模型的改进，而后者依赖贪也模型逐句选择并迭代更新候选句集。一ｆｏ另方面过度的兀余消减可能导致信息损失（ＩｎｒｍａｔｉｏｎＤｉｓｔｏｒｔｉｏｎ。比如下图出现）一的情况，Ｈ个句子Ｓ，ＳＳ示，ｉ２，每个点表个话题每个句子都插盖了部分话题。如果选，３择句１和句２组成结果摘要，能够涵盖了更广的话题，却存在信息冗余；如果单选句３，则会导致信息损失。摘要算法必须在冗余消减和信息损失之间做出衡量，力求Ｗ最小的信息损失消减最多的兀余信息。Ｓ，ｋｊｉＪｉｎ５＜１齊戀戀ＨＰ■Ｓ２亀ｍ亀ｍｍ亀始壽？雖靖．＃辨聲一图４－４对Ｈ个句子进行兀余消减示，每个点表个话题，尤其在多个文本摘要任务中，主题衍生的分话题更广各个话题高度相似，而重复率最高的信息往往是最重要的信息。消除所有的兀余信息很难通过算法直接实现。因此一，本小节只是在定程度上消除冗余信息并进行探讨，Ｗ完善重构策略。在线性重构策略中，我们认为组合系数非零的句子参与了重构，而零系数对应的句。子未参与重构但在参与重构的句子中，负系数对应的句子可Ｗ理解为是被消减的部分，而正系数对应的句子才是真正提供话题参与重构的部分－。因此，在公式４１２的基础上加上系数非负的限制，可Ｗ强制让所有的句子参与正重构进而减少冗余句子的产生；２ｍｍｄ－如－＂｜｜｜｜４２９垂（）４２ 第四章原文语义重构策略〇ｓ．ｔ．＜／１＂含０Ｃｗ＜／｜Ｍ｜，，巧｜ｌ！ｉｉｉ系数非负限制的Ｌａｓｓｏ又叫ＰｏｓｉｔｉｖｅＬａｓｓｏ，可Ｗ通过修正的ＬＡ艮Ｓ算法求解。求得的最优化系数Ｗ中的正项所对应的句子将被选为摘要句。－ｋ而在非线性重构策略中，摘要是通过选择重构度ｔｏｐ的句子集合生成，在排序提取－ｋ的ｔｏｐ过程中，每个候选句和之前选中的句子都进行相似度对比，可Ｗ通过欧式距离，或者夹角余弦计算。如果相似度大于预先设定的阔值则认为该句子为兀余句，不被加入候选句集。４．４实验对比４．４．１数据集和评测工具３本文米用的文本摘要数据集为ＤＵＣ（ＤｏｃｕｍｅｎｔＵｎｄｅｒｓｔａｎｄｉｎｇＣｏｎｆｅｒｅｎｃｅ）数据集。ＤＵＣ会议是美国国家标准与科学研巧院（Ｎａｔｉｏｎａｌ虹ｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓａｎｄＴｅｃｈｎｏｌｏｇ乂一ＮＩＳ巧自２００１年起主持组织的，每年举办次，自２００８年起更名为文本分析会议Ｔｅｘｔ（ＡｎａｌｙｓｉｓＣｏｎｆｅｒｅｎｃｅ，ＴＡＣ）。ＤＵＣ／ＴＡＣ先后启动了单文档、多文档、面向查询、动态摘要Ｗ及更新式摘要等多个不同类型的摘要评测系统。每年都有超过２０支队伍参加摘要一直在持之Ｗ恒的改进摘要评估的方法系统比赛，而且会议组织者也。ＤＵＣ数据集已经成为自动文摘领域最普遍也是最权威的标准评测数据集，ＤＵＣ。在本文中采用了会议在２００６年和２００７年的数据集，都是关于复杂话题的多文档摘要任务，分别包含５０个和４５个主题文档群。每个主题文档群各包含有２５篇摘自纽约时报ＮｅｗＹｏｒｋＴｉｍｅｓ（）Ａ一或美联社（ｓｓｏｃｉａｔｅｄＰｒｅｓｓ偉媒体的短新闻，同文档群里的短新闻都是围绕同主题而＂报道，例如ＤＵＣ２００７的第６个文档群的２５个新闻都是由细甸军政府延长昂山素季＂一＂＂＂软禁期这事件延伸出来的，具体包括素山昂季与诺贝尔奖和平奖、反对派示威＂＂＂者遭大规模逮捕、英美法等国家及人权组织纷纷谴责铜甸军政府等相关新闻。每篇短新闻约有十几个句子共３００多个单词一２５０。最终要从每个主题文档群生成个字Ｗ内的摘要，即３％左右的压缩率。此外每个主题文档群会提供四份由语言学专家给出的人工摘要作为评测参考。＇３’ｖ’ｎｃｘ！ｉＵ：／／、ｖｗｖ、－ｎｉｓｔ．ｇ〇．ｈｔｍｌｉｃ！ｐ…—４３ 第四章原文语义重构策略一自动摘要算法的评测指标般是通过与人工文摘对比，在给定粒度文本单元的共现一情况来计算。ＤＵＣ／ＴＡＣ对参赛队伍提交的摘要般有４种不同的评测方式，分别是ＢａｓｉｃＥｌｅｍｅｎｔＢ、Ｐｙｒａｍｉｄ、ＲｏｕｇｅＷ及专家评分。其中ＢＥ系统的文本单元粒度是Ｂａｓｉｃ（巧、Ｅｌｅｍｅｎｔ，即名词动词等中屯词Ｗ及中也词与修饰词之间的关系，通过对比自动摘要和专家摘要的ＢａｓｉｃＥｌｅｍｅｎｔ来给出评分。Ｐｙｒａｍｉｄ评测系统的文本粒度是摘要内容单元一语义的词集ｕｍｍａｒｉｚａｔｉｏｎＣｏｎｔｅｎｔＵｎｉｔＵ，，评测过程比较复杂费时。而巧，ＳＣ即同）Ｒｏｕｇｅ是使用最方便最广泛的摘要评测系统，也是本文中所使用的评价方法。ＲＯＵＧＥ（民ｌｌ－ＯｅｃａｒｉｅｎｔｅｄＵｎｄｅｒｓｔｕｄ化ｒＧＥｖａｌＬｉｎ巧８ｉｓｔｉｎ朋ｔｉｏｎ）是由ｙｇ等人提出］－的自动摘要评测方法，原理是基于统计自动摘要和参考摘要之间的重复单元，如ｎｇｒａｍ、－次序列和词对ｒａｍ：。其中Ｗｎｇ为文本单元粒度的计算公式为乙ＳＥＲｅＺａｒａｍｎＥ５ＣｏＵＴＵｍａｔｃｈＣｇｒａｍｎ）／ＲＯＵＮＧ－Ｎ＝件３０），公Ｓ巨巧ｅ／完岛ｒａｍ打Ｅ５巧）－其中巧却表示专家摘要，Ｃｏｉｍｔ的ｒａｍ？表示专家摘要中出现的ｎｇｒａｍ个数，）表示在专家摘要和测试摘要中共同出现的ｎ－ｒａｍ次数ｇ。除了臥一－Ｒ－Ｎ之外ｎｇｒａｍ为文本粒度的ｏｕｇｅ，民０Ｕ畑系统还提供了其他些常用评价指标：１民ｏ－ＬＬｏｎｔＣＳＬＣＳ（）ｉｘｇｅ：最长公共子序列（ｇｅｓｏｍｍｏｎｅｑｕｅｎｃｅ，）为评测单元粒度Ｒｏｕｅ－ＷＬＣＳ为评口ｇ：Ｗ加权测单元粒度）＂－－Ｒｏｕｅ－ｉＳ：切ｓｋｉｂｉｒａｍ为评测粒度ｉｂｒａｍ，ｔｏｍｏｒｒｏ口ｇｐｇ，ｓｋｐｇ表不不相邻的两个词例如ｗ）＂＂＂＂＂一－ｉｓａｎｏ化ｅｒｄａｔｏｍｏｒｒｏｗ和ｄａ可１＾姐成ｋｉｂｉｒａｍ中的ｙｙ：对ｓｐｇ４Ｒ－Ｕ４ｋ－－ｏｕｅＳｉｉ２４；评测粒度结合ｓｂｒａｍ和ｒａｍ并且间隔距离不超过（）ｇｐｇｇｏｕｅ－Ｎ是个基于召回率ｒｅｃａｌ，ｏｕｅ可看出Ｒｇｌ的评测指标但Ｒｇ系统可给出所有指标（）－ｅｃｉｓｉｏｎ、ｒｅｃａｌ日Ｆ－ｍｅａｓｕｒｅ分数。ＲｏｕｅＬ为例的ｐｒ巧：！：ＵｇＬＣＳ义ｙｎ＿（）Ｐ＝４－３１．Ｓ（）＾２１＋／？／？Ｐ（）！ｃｓ（ｃｓ＿Ｐ＿Ｒ＋Ｐｉｃｓ口ｉｃｓ其中巧分别是专家摘要和测评摘要，ｗ和Ｍｎｙ的长度Ｓ７日ｙ的分别为巧。ＬＣ巧表示巧）ＤＵＣ中－最长公共子序列长度，，。因此Ｆｓｃｏｒｅ。在片是个很大的值接近于无穷在数值上很接近于召回率ｒｅｃａｌｌ。这样设置的原因是高质量的自动摘要的关键不仅要准更在于全。一一因为根据公式４－３０，比，，个很短的摘要如只选择文档首句往往能得到个高得离谱４４ 第四章原文语义重构策略的准确率值。因此在自动摘要研究中，使用Ｒｏｕｇｅ测评系统的研究者们都会使用ｒｅｃａｌｌｆ－ｓｃｏｒｅ值做评分对比值或者。ＤＵＣ０ＤＵＣ０７－Ｎ－－本文中采用６和数据集，＾Ｒｏｕｅ、ＲｏｕｅＬＲｏｕｅＳＵ４（ｇｇ和ｇ作为评测Ｆ－ｍｅａｓｕｒｅ值进行对比指标冷出各个算法的。４．４．２对比实验介绍为了证明本文提出的语义重构模型的有效性，我们另外找了几个代表性的摘要算法ＰＳＲＳｅｌｆ－ＰｔＳＲｒｅｓｅｎｅｎｔｅｎｃｅｅｌｅｖａｎｃｅ９进行实验对比，两个。包括排序抽取模型Ｓ（）巧］选择模型Ｄ泌Ｒ［８０］和ＴｏｐｉｃＤＳＤＲ［９０拟及两个由ＮＩＳＴ提供的Ｂａｓｅｌｉｎｅ：？Ｂａｓｅｌｉｎｅ１：ＮＩＳＴ称之为简单参照ＳｉｍｌｅＢａｓｅｌｉｎｅ，对每个主题文档群Ｂａｓｅｌｉｎｅｌ（ｐ）只是将每篇新闻的首句加入到摘要中，直到生成的摘要凑满２５０字。由于首句在，Ｂａｓｅｌｉｎｅｌ的效果远好于随机选取句子作为摘要文档尤其是新闻中的重要性。．Ｂａｓｅｌｉｎｅ２：ＮＩＳＴ在ＤＵＣ２００７评测系统中给出的泛式参考ＧｅｎｅｒｉｃＢａｓｅｌｉｎｅ。该（）一ＣＬＡＳＳＹ０４ＵＣ０４的基准是由个名为的自动摘要系统生脱该系统是Ｄ优胜者，ＣＬＡＳＳＹ０４基于隐马尔科夫模型，用了５个状态表示隐含的摘要句或非摘要句子，用标志词元ＳｉｎａｔｕｒｅＴｏｋｅｎｓ作为观察序列的特征ｇ。（）？ＳＰＳＲ；通过最小化文档结构的隐模糊相关性ＬａｔｅｎｔＩｍｌｉｃｉｔＲｅｌｅｖａｎｃｅ来给句子（ｐ）－ｔｋ打分，并选择ｏｐ作为摘要．ＤＳＤＲ过重构原文选择重构损失最小的句子集作为生成摘要，通过二次规划：通和泛函分析进行复杂运算．Ｔｏｐｉ瓜ＳＤＲ：ＤＳＤ民的改进型，将ＤＳＤＲ中每个句子的向量表示由词袋模型改为由隐狄利克雷（ＬａｔｅｎｔＤｉｒｋｈｌｅｔＡｌｌｏｃａｔｉｏｎ，ＬＤＡ）山主题模型生成的话题向量４．４．３实验结果及分析各算法在ＤＵＣ０６和ＤＵＣ０７数据集的跑分结果分别在表中呈现，其中ＬＲ表示线性重构模型－－ｄ表示，ＮＲ表示非线性重构模型，Ｗ表示使用了词嵌入加权的向量化方式，民民－－使用了深度降维的向量化方式〇１１６〇１１６１艮〇１１６２＆〇１１６３民〇〇６１＾＾及。§指标包括３，３，§，§Ｒｏｕｅ－Ｕ４Ｆ－ｍｅａｓｕｒｅｇＳ的平均值。４５ 第四章原文语义重构策略表４．１ａ各算法在ＤＵＣ０６上的平均Ｆ值，ＬＲ和ＮＲ为线性和非线性重构模型（）－－－－－Ｍｅｔｈｏｄ民ｏｕｅｅ１Ｒｏｕｇｅ２民ｏｕｇｅ３ＲｏｕｇｅＬ民ｏｕｇｅＳＵ４Ｂａｓｅｌｉｎｅｌ０．３２０８２０．０５％７０．０１３７２０．２９７２６０．１０４０８０－３８３９２２０．３ＳＰＳＲ０．３５０．０５０１５５５．１３５４０－ＤＳＤ民０．２９８５０．３３１６８００６０４７０．０１４８２．－０ＴｏｐｉｃＤＳＤＲ０３７３６５０．０７０７３．３４１７２０．１３１９０．ＬＲ－３扮６５０．０７１４２０．０２００１０３４１１３０１２９４４ｗ０．．．ＬＲ－３８４６３００６８２６００１４９４０ｄ０．３４７８５０１２８３１．．．．－ｗ０８３６８０．０６２６４０．０．ＮＲ．３０１４３５．３３８４１０１２３８４－２ＮＲｄ０．３８４７７０．０６３８１０．３４１３４０１２１０．０１４４．６２表４．１ｂ各算法在ＤＵＣ０７上的平均Ｆ值，ＬＲ和ＮＲ为线性和非线性重构模型（）－化ｏｄＲｏｕｇｅ－－－－Ｍｅ１Ｒｏｕｇｅ２Ｒｏｕｇｅ３Ｒｑｕ口ｅＬＲｏｕｇｅＳＵ４Ｂａｓｅｌｉｎｅｌ０．３３４７５００６４９００．０１８５６０３１０７４０．１１２７８．．Ｂａｓｅｌｉｎｅ２０．４００５９０．０９２７２０．０３０５８Ｑ．％３１７０．１４４６７－ＳＰＳＲ０．３７０７００．０６７１６０．０１８４４０３２７０４ＤＳＤＲ０－．３９５７３０．０７４３９０．０１９６５０．３５３３５－Ｔ．ｏｎｉｃＤＳＤＲ０．３９８４９０．０８２０００３６１６４０．１４５６２－ＬＲ．０９５５８０ｗ０．４１４３１０．０３１０６０．３７３５５Ｑ．１４％１ＬＲ－ｄ０．４１１２４０．０９５８８０．０３１５２０．３８６３６０．１５０６１－．３９９８２００．．ＮＲｗ０．０９２６４０．０２９３５３３８４１０１４３８４－ｄ０ＮＲ．４１００８００９３８１００２９４２０．３４１３４０１４６２１．．．其中粗黑字体的数字表示所有算法中表现最好的跑分。从实验结果可Ｗ看出本文的线性重构模型ＬＲ和非线性重构模型ＮＲ的表现都比较理想，除了ＤＵＣ０６数据集的Ｒｏｕｅ－ＳＵ４ＴｏｉｃＤＳＤＲＦｇ指标在ｐ算法的表现更好外，其他评测指标的平均值都是最高的。除了ＬＲ和ＮＲ模型外，综合表现最好的是ＴｏｐｉｃＤＳＤ民和Ｂａｓｅｌｉｎｅ］，其中ＴｏｐｉｃＤＳＤＲ是基于ＤＳＤ民的重构算法，但是该算法用ＬＤＡ模型生成的话题向量作为文本表示，提高了句子表示的语义性，因此较ＤＳＤＲ模型的表现提高不少：而Ｂａｓｅｌｉｎｅ２的ＣＬＡＳＳＹ０４一算法是个基于隐马尔科夫的监督模型，并得益于通过多次提交来获得表现反馈，大幅提高了摘要质量。而Ｂａｓｅｌｉｎｅｌ和ＳＰＳＲ模型表现较差，因为Ｂａｓｅｌｉｎｅｌ只是简单挑选每一、篇新闻首句并凑成摘要，虽然效果远好于随机抽取，但肯定差于任何个精屯设计的算ＳＰＳＲ，，法；而是个排序模型给句子打分的时候孤立了句子之间的联系而且该模型的４６ 第四章原文语义重构策略思想是最小化隐文档相关性，但是由于文本表示的词袋向量很难掌握句子么间的相似度和相关性，导致算法效果并不理想。一为了具体观察每篇新闻的表现，在ＤＵＣ０６数据集随机抽取了２３个主题文档群，ＬＲ和Ｃ－并对比线性重构模型ｌａｓｓ０４在每个主题上的Ｒ０ＵＧＥ１跑分ｙ。斜线上的点表示Ｌ艮的表现更好，斜线下的点表示Ｃｌａｓｓｙ０４的表现更好。可科看出使用了词嵌入加权方式和深度降维方式向量化的ＬＲ模型的表现都比Ｃｌａｓｓｙ０４明显出色。０．５「￣￣￣￣＋Ｃｔｅｓ巧０４扣蜡避砖．Ｉ。－铅０Ｌ快留货皆Ｉ＂０－９—地〇＃〇０４４－牛．．〇牛〇＾芳微每＇巧。０■装．４２〇呈〇卢。，＇／Ｉ＋＇０３８■－資夺Ｉ＇一．牛Ｉ〇＇＇沈Ｑ－；汪３４■４－．＇０－．３２１＇＇Ｉ０Ｉ３０．３０．报汪４０．４５０．５ＣｌａｓｓｙＣＭ韵Ｒｏｅｌ組峭４－Ｗ图．５ａＬＲＣｌａｓｓ０４ＤＵＣ０７的民ｏｕｅｌ（）模型和ｙ算法在ｇ值对比０．５５ｒ￣￣Ｃｌａｓｓ辨４斜裝輕巧Ｉ０ＬＲ苗知報舉韓，：法５■錢人／驟ｉ／卸■立／－节己〇〇止致化化■／＋〇／牛ｇ〇＇９。＋〇／＋含０．可．４／＾Ｑ：〇ｔｙ０■＇．３５ｆ－牛Ｌ１１？０－３．．３５０．４０．４５０５０３０．Ｃ＇ｌａｓｓｙ０４ｆＲ１ｉｔ！］ｏｕｇｅｉ－ｄ图４．５ｂＬ民模型和Ｃｌａｓｓｙ０４算法在ＤＵＣ０７的Ｒｏｕｇｅｌ值对比（）４７ 第四章原文语义重构策略通过对表４．１和表４．２中跑分数据横向对比本文提出的两种重构策略，可Ｗ发现ＮＲ模型除了ＤＵＣ０７中的Ｒｏｕｇｅｌ值比化略高外，其他指标都不如化。为了分析非线性重构模型表现不济的原因－，在公式４２７中调整重构误差及话题契合度的平衡系数ａ的值。——０．３９０．３８５０＾—．巧ｆ－．麵＾〇—．．争ＮＲｗ．巧５？＊＊？＊？＊－ＮＲｄＱ－３７￣－－０．３６ｒＴ；；００．２０４０．６０．８．１图４．６ａＮＲ模型在ＤＵＣ０６的民ｏｕｅｌ均值随ａ的变化情况（）ｇ－０．４２｜＿＿＿＿＿０．４■－識０．巧拿嫁Ｗ４＂？＊＊＊＾＃＾ＮＲ－ｗ…—０？＂＊＊－．３８＊＾＊ＮＲｄ０３７—．？—￣＂０．３６０．３５＼１１？１１００．２０．．４０．６０８１图４．６脚ＮＲ模型在ＤＵＣ０７的民０鸣ｅｌ均值随ａ的变化情况斗８ 第四章原文语义重构策略，民。可见损失如图所示ａ值越大，即重构误差项所占比重越大ｏｕｇｅ值均趋于下降２－２７－函数公式４中只有话题契合度起作用，而考虑重构误差／ｗ６〇ｄ反而降低了摘）｜｜，｜｜要质量一。因此能找到个衡量重构误差并且能提高摘要质量的指标意义重大。４．５本章小结在第Ｈ章学习到文本的语义表示后，本章的目的就是建立重构模型，让生成的模型能够最小损失的重构原文语义。一重构模型的关键是高效的重构策略，。本章中用两种重构策略种是线性的组合重一构，加上稀，另种是非线性的電构。线性重构法的目的是找到线性重构原文的句子集一疏限制并辅Ｗ冗余消减；非线性重构相比线性函数更平滑也更灵活，实现方法是训练，计算出每个句子的重构效果值，通过个重构神经网络，进行排序抽取。此外冗余消减一能够在定程度上优化摘要的结构性，完善了重构策略。经过对比实验论证，，两种重构策略的模型表现都非常出色能够提取较高质量的自动摘要。４９ 第五章总结与展望第五章总结与展望５．１工作总结为了满足快节奏时代人们的快速阅读需求，自动摘要技术成为研究热点。为了解决主流模型中孤立句子联系和统计特征缺乏语义的缺点，本文提出的基于语义重构模型，即假设高质量的摘要能够Ｗ最小损失重构原文。，分别是语义表示和重构策略语义重构模型分为两步。语义表示就是将文本、句子语义向量化，让句子之间的语义相似度能够通过语义向量的距离来衡量。本文使用了两种语义向量化方式：词嵌入加权和深度降维。词嵌入加权模型将文本向量化问题一Ｎ－转为相对简单的词语向量化问题，词的语义向量化可Ｗ通过训练个基于ｇｒａｍ的神经网络语言模型来实现。而深度降维模型通过多层神经网络学习出输入文本的深度语义表示，深度网络使用了多个ＲＢＭ预训练来避免随即初始化网络带来的缺点。此夕，ｈ将输入文本的词概率向量进行离差标准化可Ｗ适应任何长度的输入文本。重构策略是重构模型有效性的关键，本文分别尝试了线性重构策略和非线性重构策略，。线性重构策略就是对所有句子进行线性组合来还原原文的语义。当重构误差最小时，参与重构的句子集就是生成摘要，重构误差要考虑重。由于摘要的长度限制构系数的稀疏性惩罚，可用Ｌ１正则项来表示。目标函数形式类似Ｌａｓｓｏ回归，可Ｗ通过ＬＡＲＳ算法或者坐标下降法求最优解。而非线性重构策略是通过非线性激活的神经网络实现，该神经网络除了实现输入重构外，隐含层被加上了稀疏限制，因此能够提取输入文档的主题分布。通过对比每个句子和原文档的主题语义，能够计算每个句－子的摘要贡献度，进而Ｗ此进行排序提取ｔｏｐｋ。此外，机器生成的自动摘要往往存在大量冗余信息。而对于抽取式摘要模型来说一一一、兀余信息般很难去除，方面Ｗ为兀余性计算条件的苛刻过于依赖贪屯算法；另方面冗余句子的剔除容易导致信息的损失，需要在两者之间平衡，。在本文中两种重一０构模型也分别在定程度上试图消减兀余信息，重。在线性重构模型中构系数为非对应的句子被认为参与了原文重构，但其中负系数所对应的句子在重构过程中相当于是被削减的句子。，，即被认为是冗余句因此通过给目标函数加上组合系数非负的限制５０ 第五章总结与展望可Ｗ大大减少冗余信息的产生，针对生成摘要是对所有句子。而在非线性重构模型中一打分排序获得，可Ｗ设置个相似度阀值，每次对当前候选句相似度判断，即和当前摘要集合所有句子进行相似度计算，如果大于阀值则认为是冗余句，否则加入摘要集一一合，，。通过定程度上对兀余信息的消减可Ｗ提高摘要质量进步改进了本文的语义重构模型的改进。５．２未来展望一些不足，，没有考虑多文本摘要本文中的模型还存在比如只是针对单文本摘要、一基于用户摘要等；另方面非线性模型的表现不尽如意，主要是损失函数中重构误差项反而降低了摘要质量：。因此未来的王作将专注于两个方面１针对非线性重构策略中损失函数的表现不足，探索新的衡量重构误差的指标，（）既能够反映重构误差又能提高摘要质量。（２）除了对单文本摘要算法的改进，另外探索多文本摘要、基于查询摘要甚至特殊领域摘要比如医学摘要。５１ 参考文献参考文献＂＂．，１Ｂｌｅｉ，ＤａｖｉｄＭＡｎｄｒｅｗＹＮａｎｄＭｉｃｈａｅｌｌ．ＪｏｒｄａｎＬａｔｅｎｔ出ｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ．ｔｈｅＪｏｕｒｎａｌｏｆ，，［］ｇｍａｃｈ－ｉｎｅＬｅａｒｎｉｎｒｅｓｅａｒｃｈ３２００３：９９３１０２２．ｇ（）＂－２Ｅｒｋａｎｉｉ．．：Ｇｈｂａｌｉｌｌｉｎ，ＧｔｎｅｓａｎｄＤｒａｏｍｒＲＲａｄｅｖＬｅｘＲａｎｋｒａｓｅｄｅｘｃａｃｅｎｔｒａｌｉｔａｓｓａｉｅｎｃｅｔｅｘｔ［，］ｇｐｙ＂ｓｒ－ｕｍｍａｉｚａｔｉｏｎ．ＪｏｕｒｎａｌｏｆＡｒｔｉｆｉｃｉａｌｎｅｌｌｉｅｎｃｅｅｓｅａｒｃｈ２００４：．ＩｔＲ４５７４７９呂（）＂＂３Ｌｕｈｎ．ｈｉｉｌｉｔｔ．ｌｆ，ＨａｎｓＰｅｔｅｒＴｅａｕｔｏｍａｔｃｃｒｅａｔｏｎｏｆｅｒａｕｒｅａｂｓｔｒａｃｔｓＩ艮ＭＪｏｕｒｎａｏｒｅｓｅａｒｃｈａｎｄ［］－ｄｅｖｅ．ｌｏｐｍｅｎｔ２２（１９５８）：１５９１６５＂＂［４］Ｍｉｈａｌｃｅａ，Ｒａｄａ，ａｎｄＰａｕｌＴａｒａｕ．ＴｅｘｔＲａｎｋ：艮ｒｉｎｇｉｎｇｏｒｄｅｒｉｎｔｏｔｅｘｔｓ．ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｉＬｉｎｕｉｓｔｉｃｓ２００４，ｇ，＂Ｃ－ｌｌｉｍｅＧｌｄ．ｈｅｆＭＭ民ｄｉｖｉｂａｄｋｉｎｆｏｉ５ａｒｂｏｎｅＪａ，ａｎｄＪａｄｅｏｓｔ；ｅｍＴｕｓｅｏ，ｅｒｓｔｓｅｒｅｒａｎｒｒｅｏｒｄｅｒｎ［］，ｙｇｇ＂ｄｏｃｕｍｅｎｔｓａｎｄｐｒｏｄｕｃｉｎｇｓｕｍｍａｒｉｅｓ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔａｎｎｕａｌｉＭｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧｌ民ｍｅｎｔ．ｃｏｎ化ｒｅｎｃｅｏｎ民ｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｉ打ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌＡＣＭ１９９８．，＂６ＮｅｎｋｏｖａＡｎｉＬｕｃＶａｎｄｅｒｗｅｎｄｅａｎｄＫａｔｈｌｅｅｎＭｃＫｅｏｗｎ．Ａｃｏｍｏｓｉｔｉｏｎａｌｃｏｎｔｅｘｔｓｅｎｓｉｉｖｅ，，ｔ［］ｙ，ｐ＊＂ｍｕ－］ｔｉｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚｅ！：ｅｘｐｌｏｒｉｎｇｄｉｅｆａｃｔｏｒｓｔ：ｈａｔｉｎｆｌｕｅｎｃｅｓｕｍｍａｎｚａｔｉｏｎ．Ｐｒｏｃｅｅｄ；打ｇｓｏｆ１；ｈｅ２％ｈａｎｎｕａ］ｉｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧ！Ｒｃｏｎｆｅｒｅｎｃｅｏｎ民ｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔｉｎｉｎｆｏｒｍａｔｉｏｎｒ別ｒｉｅｖａｌ．ＡＣＭ，２００６．７Ｂａａｅｎ，Ｒ．Ｈａｒａｌｄ．Ｗｏｒｄｆｒｅｑｕｅｎｃｄｉｓｔｒｉｂｕｔｉｏｎｓ，ＶｏＬ１８．ＳｒｉｎｅｒＳｃｉｅｎｃｅ＆ＢｕｓｉｎｅｓｓＭｅｄｉａ，２００１．［］ｙｙｐｇ＂８ＳａｒｃｋＪｏｎｅｓＫａｒｅｎ．Ａｓｔａｔ化ｔａｔｉｆｉｓｔｉｃａｌｉｎｔｅｒｏｎｏｔｅｒｍｓｅｄ巧ｃｉｔａｎｄｉｔｓａｌｉｃａｔｉｏｎｉｎ，［］ｐｐｐｙｐｐ＂－ｉｌ．ｌｆｄｏｃｕｍｅｎｉ．１２．ｒｅｔｒｅｖａＪｏｕｒｎａｏｔａｔｏｎ２８１（１９７２）：１１＇９ＳａＴｅｒｍ－ｌｔｏｎＧｅｒａｒｄａｎｄＣｈｒｉｓｔｏｈｅｒＢｕｃｋｌｅ．ｗｅｉｈｔｉｎａｒｏａｃｈｅｓｉｎａｕｔｏｍａｔｉｃｔｅｘｔ，，［］ｐｙｇｇｐｐ＂－ｒｅｔｒ．．ｉｅｖａｌＩｎｆｏｒｍａｔｉｏｎｒｏｃｅｓｓｉｎ＆ｍａｎａｅｍｅｎｔ２４５１９８８：５１３５２３．ｐｇｇ（）＂＂１０ＤｕｎｎｉｎＴｅｄ．Ａｃｃｕｒａｔｅｍｅｔｈｏｄｓｆｏｒｔｈｅｓｔａｔｉｓｔｉｃｓｏｆｓｕｒｒｉｓｅａｎｄｃｏｉｎｃｉｄｅｎｃｅ．Ｃｏｍ山ａｔｉｏｎａｌ［］ｇ，ｐｐ－ｌｉｎｇｕｉｓｔｉｃｓ１９．１１９９３：６１７４．（）＂－．１１ＬｉｎＣｈｉｎＹｅｗ，ａｎｄＥｄｕａｒｄＨｏｖＴｈｅａｕｔｏｍａｔ；ｅｄａｃｕｉｓｉｔｉｏｎｏｆ的ｉｃｓｉｎａｔｕｒｅｓｆｂｒｔｅｘｔ，［］ｙｑｐｇ＂－ｓｕｍｍａｒ，ｉｚａｔｉｏｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈｃｏｎ耗ｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａＵｉｎｇｕｉｓｔｉｃｓＶｏｌｕｍｅ１．ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉ巧ｉｃｓ２０００．，＂１２Ｈｏｖ３ａｎｄＣｈ－￡加化ｉｎＹｅｗＬｉｎ．Ａｕｔｏｍａｔｅｄ化別ｓｕｍｍａｒｉｚａｔｉｏｎａｎｄｔｈｅＳＵＭＭＡＲＩＳＴ［］ｙ，＂ｓｓｔｅｍＭａｒ－ｙ．ＰｒｏｃｅｅｄｉｎｇｓｏｆａｗｏｒｋｓｈｏｐｏｎｈｅｌｄａｔＢａｌｔｉｍｏｒｅｌａｎｄ：Ｏｃｔｏｂｅｒ１３１５１９９８．Ａｓｓｏｃｉａｔｉｏｎ，ｙ，ｆｏｒＣｏｍｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ１９９８．ｐ，＂＂ｈｎ－－－１３ＣｏｎｒｏＪｏＭ．ｅｌ．ｂｉ／ｌｉｄｏｒｉｔａＬｅｆｔｒａｎｒｉｈｔｂｒａｉｎｍｕｔｃｕｍｅ打ｔｓｕｍｍａｚａｔｉｏｎ．／Ｖｏｃｅｅｃ／／巧〇ｅ，，拼［］ｙｇ／说ＤｏｃｕｍｅｎｔＵｎｄｅｒｓ．ｔａｎｄｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＤＵＣ２００４．２００４）＂－－．．１４ＣｏｎｒｏＪｏｈｎＭ．ＪｕｄｋｈＤ．ＳｃｈｌｅｓｉｎｅｒａｎｄＤｉａｎｎｅＰＣＶＬｅａｒＴｏｉｃｆｏｃｕｓｅｄｍｕｌｔｉｄｏｃｕｍｅｎｔ，［］ｙ，ｇ，ｙｐ＂ｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉ打ａｎａｒｏｘｉｍａｔｅｏｒａｃｌｅｓｃｏｒｅ．／Ｖｏｃｅｅ／Ｖ／？ｅ丘ｏｗＭ口ｇｐｐｃ如备ｓ９／如ＣＯ巧巧ｃｅｏｓｅｒｓｅｓｓｏｎｓ．ｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｕａｉｏｎａｌｉｎｕｉｓｔｉｃｓ２００６．ｐｔｉＡｐｔｔＬｇ，＂＇＇－ｉｌ．Ｈ．Ａ．ｉＩＱＱＡｄｈｅ［１５ＦｎｅＬａｎｄｎｄｒｅｗＬｔｅＧＩＳＴｅｘｔｅｒａｔＤＵＣＰｒｏｃｅｅｉｎｓｏｔ２００４Ｄｏｃｕｍｅｎｔ］ｙ，，ｇｆ’ＵｎｄｅｒｓｔａｎｄｉｎＣｏｎｆｅｒｅｎｃｅ（ＤＵＣ２００４）Ｂｏｓ化ｎＭＡ．２ＱＱＡ．ｇ，，＂．Ｍｅａｓｕｒ１６ＧｕｔａＳｕｒａｂｈｉＡｎｉＮｅｎｋｏｖａａｎｄＤａｎＪｕｒａｆｓｋｉｎｉｍｏｒｔａｎｃｅａｎｄｕｅｒｒｅｌｅｖａｎｃｅｉｎ，，，［］ｐｙｇｐｑｙ＂ｔｏ－－ｐｉｃ化ｃｕ化ｄｍｕｌｔｉｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎ．户ｒａｃｅ化／／巧各ｓｑ／Ｖ／ｗ４５／／；口／Ｍｅ如／ｗ客〇ｃ０。／視如戶０■５化ｒ口／〇／？说说０／ｗ．ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｕｔａｔｉｏｎａｌＬｉｎｕｉｓｔｉｃｓ２００７．／／ｐｇ，＂＂１７ＨａｔｚｉｖａｓｓＵｏｉｏｕＶａｓｉｌｅｉｏｓｅｔａｌ．Ｓｉｍｆｉｎｄｅｒ：Ａｆｌｅｘｉｂｌｅｃｌｕｓｔｅｒｉｎ化〇１ｆｏｒｓｕｍｍａｒｉｚａｔｉｏｎ．２００１．ｇ（）［］ｇ，，＂［１８］ＭｃＫｅｏｖｖｎ，Ｋａｔｈｌｅｅｎ，ｅｔａｌ．Ｔｏｗａｒｄｓｍｕｉｔｉｄｏｃｕｒｎｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｂｙｒｅｆｏｒｍｕｌａｔｉｏｎ：ＰｒｏｇｒｅｓｓａｎｄＡＡＡＩ／ＩＡＡＬ１９９９．５２ 参考文献＂ｎ．１９Ｓｉｄｄｈａｒｔｈａｎ，ＡｄｖａｉｔｌｉＡｎｉＮｅｎｋｏｖａ，ＫａｔｈｌｅｅＭｃＫｅｏｗｎＳｎｔａｃｔｉｃｓｉｍＨｆｉｃａｔｉｏｎ化ｒｉｍｒｏｖｉｎ，ａｎｄｇ［］ｙｐｐ＂．？－ｃｏｎｌ．■ｔ／ｔｅｎｔｓｅｅｃｔｉｏｎｉｎｍｕｋｉｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎ公ｅＺ／ｗ昏ｓ〇／／片ｅ２０如／巧化７？幻＂ｏ巧〇／ｏｎＣｏｍｕｔａｔｉｏｎａｌＬｉｎｕｉｓｔｉｃｓ．ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｕｔａｔｉｏｎａｌＬｉｎｕｉｓｔｉｃｓ２００４．ｐｇｐｇ，＂２０Ｍ化ａｉｃｅａＲａｄａ，ａｎｄＰａｕｌＴａｒａｕ－Ａｌａｎｕａｅｍｄｅｅｎｄｅｎｔａ！ｏｒｉｌ；ｈｍｆｏｒｓｉ打ｌｅａｎｄｍｕｌｔｉｌｅｄｏｃｕｍｅｎｔ，［］ｇｇｐｇｇｐ＂ｓｕｍｍａｒｉｚａｔｉｏｎ．（２００５）．Ｉ＇＂ｉｌｌｉａｓａｎｄＳｈａｆ．．ｏｖｉｎ化ｅｅｒｆｏｒｍａｎｃｅｏｆ化ｅａｎｄｏｍｗａｌｋｍｏｄｅｅｒｉｎ２１ＣｈａｌＹｉＲＪｏｔｌｍｒｉｌｆｏｒａｎｓｗ，，ｑｇｇ［］ｙｐｐ’’，ｃｏｍｌｅｘｕｅｓｔｉｏｎ、Ｐｒｏｃｅｅ／扣／ｐｑ＜ｉｆ巧浮Ｖｏｆ片．斗巧，化幻（少ｅ义ｓｏｃ／口ｆ／ｏｎ／ｂｒ（Ｔｏ巧］ｐｗｆａｄｏ巧幻－’Ｉ、ｖｒ口ｎ？．ｗ／ｃｖｖｏｗ／／ｗＨＬ口ｎｗ幻ｅ／扔Ｖ；Ｓ片饥ｔ戶ｅｒｓＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｕｔａｔｉｏｎａｌＬｉｎｕｉｓｔｉｃｓ如各复各各邸ｐｇ，２００８．＂＂．２２ｍｍ．ＫｕｉｅｃＪｕｉｉａｎＪａｎＰｅｄｅｎｅｎａｎｄＦｒａｎｃｉｎｅＣｈｅｎ．Ａｔｒａｉｎａｂｌｅｄｏｃｕｍｅｎｔｓｉ．／Ｖｏｔｉ／＂ｓ〇，，ｉ，ｕａｒｚｅｒｃｅｅ［］ｐ貧／１８ｔｈａｎｎｕｃｄｉｉｉｔｅｎｕｉＨｏｎａｌＡＣＭ引ＧＪ民ｃｏｎｆｅ化ｎｃｃｏｎ民ｅｓｅａｒｃｈａｍ！ｄｅｖｅｌｏｐｍｅｎｔｉｎｉｎｆｏｒｍａｔｉｏｉｉｒ如如ｖ（：／／．ＡＣＭ９９．，！５＂＂２３ＰａＣ．Ｄ．Ｃｉｌｉｂｔｓｂ．ｂ＆ｉｃｅｏｎｓｔｒｕｃｔｎｔｅｒａｔｕｒｅａｓｔｒａｃｃｏｍｕｔｅｒ／＂ｒｗ口＂ｏ打Ｐｒｏｃｅｓｓｉｎ，［］ｇｙｐｙｇＭ－？化巧ｅｗｅ＂？２６１９９０：１７１１（）＂＂－Ｎｅｗ．．２４ＥｄｍｕｎｄｓｏｎＨ．Ｐ．ＭｅｔｈｏｄｓｉｎＡｕｔ；ｏｍａｔｉｃＥｘｔｒａｃｔｉｎｙ〇ｗ／７７幻１６．２１９６９：２６４２％．［］，ｇ（）２ｏｈｎ＇＂＂５ＪＭ．ＣｏｎｒｏａｎｄＤｉａｎｎｅＰ．Ｏｌｅａｒ．ＴｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｖｉａｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ．Ｐｒｏｃｅｅｄｉｎｓ［］ｙ，ｙｇｏｆｔｈｅ２４ｔｈａｒｍｕａｉｉｎｔｅｍａｔｉｏｎ幻ＩＡＣＭＳＩＧＩ民ｃｏｎｆｅｒｅｎｃｅｏｎ民ｅｓｅａｉｘｈ幻ｎｄｄｅｖｅｌｏｐｍｅｎｔｉｎｉｎｆｏｒｍａｔｉｏｎｌｌＯＱ－ｒｅｔｒ１４０６４０７．ｉｅｖｏ：＂＂２６Ｕｌｒｉｃｈ，Ｊａｎ，ｅｔａｌ．Ａｕｂｌｉｃｌａｖａｉｌａｂｌｅａｎｎｏｔａｔｅｄｃｏｒｕｓｆｏｒｓｕｅｒｖｉｓｅｄｅｍａｉｌｓｕｍｍａｒｉｚａｔｉｏｎ．Ｐｗｃｏｆ［］ｐｙｐｐＡａａ．ｉＥｍａｉｌＷｏｒｋｓｈｏｐ２０１１（）＂．Ｅ．２７ＢａｒｚｉｌａＲｅｉｎａａｎｄＮｌｈａｄａｄＳｅｎｔｅｎｃｅＡｌｉｎｍｅｎｔｆｏｒＭｏｎｏｌｉｎｕａｌＣｏｍａｒａｂｌｅ，，［］ｙｇｇｇｐ＂ＣｏｒｏｒｓＬＣｏｎｅｒｅｎｃｅｏｎ—ＥｍｒｃａｌＭｅｔｈｏｄｓｎＮａ化ｒａｌＬａｎｕａｅＰｒｏｃｅｓｓｎ２０＼０：２５ｙｉ．ｐｆｐｉｉｉｇｇｉｇ＂Ｈ－２８ｉＨａｌＤａｕｍｅａｎｄＤ．Ｍａｒｃｕ．ＡＰｈｒａｓｅＢａｓｅｄＨＭＭＡｒｏａｃｈ／ｂｓｔａｃｔｔ；ｏＤｏｃｕｍｅｎｔＡｒ，，［］ｐｐ＂Ａｔ．．ｌｉｇｎｍｅｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００４ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎ，ＥＭＮＬＰ２００４，ＡｍｅｅｔｉｎｏＳＩＧＤＡＴ，ａＳｅｃｉａｌＩｎｔｅｒｅｓｔＧｗｕｏｅＡＣＬｈｅｌｄｉｎｇｇｆｐｐｆ化，ｃｏｎｕｎｃｔ－－ｉｏｎｗｉｔｈＡＣＬ２００４２５２６Ｊｕｌ２００４ＢａｒｃｅｌｏｎａＳａｉｎ２００４：１１９１２６．ｊ，ｙ，，ｐ＂－Ｗｒ２９ＪｉｎＨｏｎａｎ．ＵｓｉｎＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｉｎｔｏＤｅｃｏｍｏｓｅＨｕｍａｎｉｔｅｎ［］ｇ，ｇｙｇｇｐ＂Ｓｕｍｍａｒ－ｉｅｓ．ＣｏｍｕｔａｔｉｏｎａｌＬｎｕｉｓｔｉｃｓ２８．４２００２；５２７５４３．ｐｉｇ（）＂ａｎ－３０ＭａｒｃｕＤｉｅｌ．Ｔｈｅａｕｔｔｉｔｔｉｌａｒｅｓｃａｌｅｃｏｒｆｉｔｉｏｎｉｏｍａｃｃｏｎｓｒｕｃｏｎｏｆｏｒａｏｒｓｕｍｍａｒｚａ，ｇ［］ｐ＂－Ｍ４ｈ．Ｕｄｍｉ。ＢＨｃ２０Ｗｉｙ７．ｒｅｓｅａｒｃｎｉｖｅｒｓｉｏｆｃｉ，ｅｅ：皆Ｃｆｏｆｙ＂＂－３ｉ．．ｂｉｉＳｉｉ．．１ＺｈｏｕＬａｎａｎｄＥＨｏｖＡＷｅＴｒａｎｅｄＥｘｔｒａｃｔｏｎｕｍｍａｒｚａｔｏｎＳｓ１；ｅｍ／Ｖｏｃｅｅ识只ｓ２Ｏ０Ｊ，，［］ｇｙｙ各Ｃｏｎｆｅｒｅｎｃｅｏｆ化ｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａ化ｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｏｒＣｏｍｉＡｔａｔｉｏｎ幻ＩＬｉｎｕｉｓｔｃｓｏｎＨｕｍａｎｉｐｆｐｇＬＴｅｃｈｎｏｌｏ－Ｖｏｌｕｍｅ１２００３－ａｎｇｕａｇｅｇｙ：ａｓ，３３１３３６．ｐｇ＂３２ＣｈａｌｉＹＨｉａｓＳ．Ａ．ＨａｓａｎａｎｄＳ．Ｒ．Ｊｏｔ．Ｄｏａｕｔｏｍａｔｉｃａｎｎｏｔａｔｉｏｎ化ｃｈｎｉｅｓｈａｖｅａｎｉｍａｃｔｏｎ［］，，，ｙｑｕｙｐ＂ｓｕｐｅｒｖｉｓｅｄｃｏｍｐｌｅｘｑｕｅ巧ｉｏｎａｎｓｗｅｒｉｎｇ？．２００ＰＣｃｗ於化巧ｃｅ加ｏＷ戶幻ｐｅｒｓＡｓｓｏｃｉａｔｉｏｎｆｏｒｔｔ－ＣｏｍｕａｉｏｎａｌＬｉｎ山ｓｉ２００９３２９．ｔｅｓ：３３２ｐｇ，＂＂ｉｌｉ．化．ｉｉｌＣｈｉｎｓｆｏｉｉ知戶ｒｏｃ饼如＞３３目ａｒｚａＲｅｎａａｎｄＭＥａｄａｄＵｓｎＬｅｘｃａａｒＴｅｘｔＳｕｍｍａｒｚａｔｏｎ．７妍如，，［］ｙｇｇ－－ｔｈｅ．ＡＣＬＷｏｒｋｓｈｏｐｏｎＩｒＵｅＨｉｅｎｔＳｃ幻ｌａｂｌｅＴｅｘｔＳｕｍｍａｒｉｚ如ｉｏｎ２Ｑ＼Ｑ：＼Ｑ＼７ｇ＂３４ＧａｌｌｅｉｃｈｅｌａｎｄＫ．民．Ｍｃｋｅｏｗｎ．ＬｅｘｉｃａｌｉｚｅｄＭａｒｋｏｖＧｒａｍｍａｒｓｆｂｒＳｅｎｔｅｎｃｅ，［］ｙＭ＂Ｃｒｅｓｓ－－ｏｍｐｉｏｎ．．／Ｖｏｃｅｅ况巧鲜０７Ｖ＾４ＣＬ／／ＺＴ００７：１８０１８７．／口）＂３５Ｓ．．．．ｌｏｍｄｉａｉｌｂｅｒＨＧｒｅｏｒａｎｄＫＦＭｃｃｏＥｆｉｃｉｅｎｔＣｉｌｅｄＬｅｘｉｃａｌＣｈａｉｎｓａｓａｎＩｎｔｅｒｍｅｔｅ，，［］ｇｙｙｙｐ＂？ｆｏ－？沁＂ｏｎ口／Ｌ．．Ｒ巧化化ｎｔａｔｉｏｎｒＡｕｔｏｍａｔｉｃＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏ打／ｗｇｗｚ加心２８４２００：４８７４９６（巧＂＂－—３６Ｅｄ．．Ｉｎｔｒｏｄｕｃｔｉｏｎ化ＷｏｒｄＮｅｔ：ＡｎＯｎｌｉｎｅＬｅｘｉｃａｌＤａｔａｂａｓｅ扔／化口ｗｗ３．４１９９：２３５２４４．［］（＾＂３７ＧａｌｌｅｉｃｈｅｌａｎｄＫ．Ｍｃｋｅｏｗｎ．ＩｍｒｏｖｉｎＷｏｒｄＳｅｎｓｅＤｉｓａｍｂｉｕａｔｉｏｎｉｎＬｅｘｉｃａｌ，［］ｙＭｐｇｇ５３ 参考文献＂Ｃｈａｉ打ｉｎ－．．仁口／０３ｄｓｏｔｈｅＥｈｔｅｅｎｔｈＩｄＪｏｎｔＣｏｅｒｅｎｃｅｏｎｇ与，ＰｒｏｃｅｅｉｎｇｆｉｇｒＵｅｒｎａｔｉｏｎｃｉｆｉｆＡｒｔｉｆｉｃｉａｌｉｌｋ＾ＱＱ３－Ｍｅｘｉｃｏ＼４Ｓ６４ＳＳ．ＩｒＵｅｉｇｅｎｃｅ，Ａｃａｐｕｏ，，Ａｕｇｕｓ：＼＂３８Ｓｃｈ．ＮｅｎｋｏｖＫ．Ｍ．ｉｆｆｍａｎ技ａｉｒＡａａｎｄｃｋｅｏｗｎＥｘｅｒｉｍｅｎｔｓｉｎｍｕｌｔｉｄｏｃｕｍｅｎｔ，，，［］ｙｐ＂ｓｕｍｍａｒｉｚａｔｉｏｎ．ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＲｅｓｅａｒｃｈＭｏｒａｎＫａｕｆｍａｎｎｇＰｕｂｌｉｓｈｅｒｓＩｎｃ．２００２．，＂ｉ＇３９］Ｓｃｏｔ，Ｄｅｅｒｗｅｓｋｒ，ｅｔａｌ．Ｉｎｄｅｘｉｎｇｂｙｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ．／Ｖｏｃｅｅ次ｗ护０／诚ｅ辦ｅｅｗｆ／ｚｃｏｎ於ｒｅｗｃｅ［？ｆ／／／ｅｗｃｅＭｏｒａｎＫａｕｆｍａｎｎＰｕｂ－ｏｎｗｃｅＷ饥。ｌｉｈｅｓＩｎｃ．１９９９３９１４０．／灯口＂诉口如化／／各ｇｓｒ：７，＂４０ＧｏｎＹｉｈｏｎａｎｄＸ．Ｌｉｕ．ＧｅｎｅｒｉｃＳｉｉｉＴｅｘｔｕｍｍａｒｚａｔｏｎＵｓｎＲｅｌｅｖａｎｃｅＭｅａｓｕｒｅａｎｄＬａｔｅｎｔＳｅｍａｎｔｉｃ，，［］ｇｇｇ＂＇ｄＡｎａ．ｌｙｓｅｓＳＩＧＩ民０１：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ化ｅＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩ民£〇巧／£扩色巧££ｏｎ民ｅｓｅａｒｃｈａｎ－ＤｅｖｅｌｏｍｅｎｔｉｎＩｎｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ２００２５．ｐｆ１：１９＂４－１ＨａｃｈｅＢｅｎＧ．ＭｕｒｒａａｎｄＤ民ｅｉｔｔｅｒ．Ｄｉｍｅｎｓｉｏｎａｌｉｔ民ｅｄｕｃｔｉｏｎＡｉｄｓＴｅｒｍＣｏＯｃｃｕｒｒｅｎｃｅ目ａｓｅｄ，［］ｙ，，ｙ，ｙ＂－？化麻知片－ＭｕｉＤｏｃｕｍｅｎｉｉ．ｄＳｕｍｍａｄｔＳｕｍｍａｒｚａｔｏｎ／〇戶ｏｎＴａｓｋＦｏｃｕｓｅｒｉｚａｔｉｏｎ幻ｎＱｕｅｓｔｉｏｎ－Ａｎｓｗｅｒ，ｉｎｇ２０Ｑ６：＼７－４Ｓａ．．．ｌｄｗｉｎ，Ｂ．．＆Ｍｏｒｔｏｎ，Ｔ．Ｓ（１９９８，ＪｕｎｅＤｎａｍｉｃＣｏｒｅｆｅｒｅｎｃｅＢａｓｅｄＳｕｍｍａｒｉｚａｔｉｏｎ．！ｎ左‘化ＹＬＰ）（［引ｙｐｐ－．１６）＂４３ＢｏｕｒａｅｖＢ．ａｎｄＣ．Ｋｅｎｎｅｄ．ＳａｌｉｅｎｃｅｂａｓｅｄＣｏｎｔｅｎｔＣｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆＴｅｘｔ［］ｇ，，ｙ＂’Ｄｏｃｕｍｅｎｔｓ．ＰｒｏｃｅｅｄｏｔｈｅＡｃｌ／ｅａｃｌ９７ＷｏｒｋｓｈｏｏｎＩｒＵｅ化ｅｎｔＳｃａｌａｂｌｅＴｅｘｔｉｎｇｓｆｐｇＳｕｍｍａｒｉｔｉｏｎ—ｚａ１９９７；２９．（）＂＂ｉ巧ａ．ｆａｎａｈｏｉｉ．４４Ｓｌ；ｅｎｂｅｒｅｒＪｏｓｅｆｌＴｗｏｕｓｅｓｏｒａｒｅｓｏｌｕｔｉｏｎｉｎｓｕｍｍａｒｚａｔｏｎＢｉｏｔｅｃｈｎｏｌｏ，，［］ｇｐｇｙ达－公．．／ｏｅｗ复／ｗｅｅ／７＞７ｇ２８７１９％）：１０８６１０９２（＂＂４５ＢａｔｅｍａｎＪ．ａｎｄＪ．Ｄｅｌｉｎ．ＲｈｅｔｏｒｉｃａｌＳｔｒｕｃｔｕｒｅＴｈｅｏｒ．ＥｎｃｃｌｏｅｄｉａｏＬａｎｕａｅ＆，，［］ｙｙｐｆｇｇＬｎｕｓｔｃｓ２００６－ｉ：５８９５９７．ｇｉｉ（）Ｍ＂＂４６ａｒｃｕＤａｎｉｅｌ．ＦｒｏｍＤｉｓｃｏｕｒｓｅＳｉＴｕＵｕｒｅｓｔｏＴｅｘｔＳｕｍｍａｒｉｅｓ．尸ｒａｃｅｅ决＞７拼０／片ｅ肠ｒ柄Ａｏｏ口［］，／ｐ＇ｉｌｌｌｔｏｎＩＱＱｌ乂２－－辦ＩｒＵｅｉｅｎｔ．ｇＳｃａａｂｅＴｅｘｔＳｕｍｍａｒｉｚａｉ（）＂＂４７ＭａｒｃｕＤａｎｉｅｌ．ＴｏＢｕｉｌｄＴｅｘｔＳｕｍｍａｒｉｅｓｏｆＨｉｈｕａｌｉｔＮｕｃｌｅａｒｉｔｉｓＮｏｔＳｕｆｆｉｃｉｅｎｔ．／＂乂］，ｇ，ｙ［ＱｙＳｒｉｎＳｍｏｓｉｕｍｏｎＳｐｇＩｒＵｅｌｌｉｅｎｔＴｅｘｔｕｍｍ幻ｒｉｚａｔｉｏｎｙｐｇ＂＂［４８］Ｍａｒｃｕ，Ｄａｎｉｅｌ．ＴｈｅＴｈｅｏｒｙａｎｄＰｒａｃｔｉｃｅｏｆＤｉｓｃｏｕｒｓｅＰａｒｓｉｎｇａｎｄＳｕｍｍａｒｉｚａｔｉｏｎ．ＣｏｍｐｕｔａｔｉｏｎａｌＬｎｕｓｔｃｓ２８－．１２００２：８１８３．ｉｇｉｉ（）＂化＂４９ＥａｄａｄＮ．ｅｔａｌ．Ｃｕｓｔｏｍｉｚａｔｉｏｎｉｎａｕｎｉｆｉｅｄｆｒａｍｅｗｏｒｋｆｏｒｓｕｍｍａｒｉｚｉｎｇｍｅｄｉｃａｌｌｉｔｅｒａｔｕｒｅ．＾灯ｃ／ｆ口］，，诉［如化／／—Ｍ沾：扔．２２００５：１７９１９８．／ｇｅ灼ｃｅ／ｗ化ｅ３３（）＂＂Ｍ．ｌ．５０ＫａｎｉｎＹｅｎＣｏｍｂｉｎｉｎＶｉｓｕａＬａｏｕｔａｎｄＬｅｘｉｃａｌＣｏｈｅｓｉｏｎＦｅａｔｕｒｅｓｆｏｒＴｅｘｔＳｅｍｅｎｔａｔｉｏｎ／ｎ，［］ｇｙｇＰｒｏｃｅｅｄｉｎｓｏｅ３１ｓｔＷｏｒｋｓｈｏ０。ＧｒａｈＴｈｅｏｒｅｔｉｃＣｏｎｃｅｔｓｉｎＣｏｍｕｔｅｒＳｃ－ＷＧｇｆ化ｐｐｐｐｉｅｎｃｅ２００５２００－１：１８７１９８．（）＂＇５１Ｅ化ａｄａｄＮｅｔａｌ．ＦａｃｉｌｉｔａｔｉｎｈｓｉｃｉａｎｓａｃｃｅｓｓｔｏｉｎｆｏｒｍａｔｉｏｎｖｉａｔａＵｏｒｅｄｔ；ｅｘｔ［］，，ｇｐｙ＂ｓｕｍｍａｒｉｚａｔｉｏｎ．．．．．ｊｉｒｍｕａｉＳｙｍｐｏｓｉｕｍｐｒｏｃｅｅｄｉｎｇｓ／ＡＭＩＡＳｙｍｐｏｓｉｕｍ．ＡＭＩＡ－Ｓｍｏｓ．ｙｐｉｕｍ２００５２００５：２２６３０（）＂５２Ｍｃｋｅｏｗｎ，Ｋａｔｈｌｅｅｎ民．ｅｔａｌ．ＰＥＲＳＩＶＡＬａＳｓｔ：ｅｍｆｂｒＰｅｒｓｏｎａｌｉｚｅｄＳｅａｒｃｈａｎｄＳｕｍｍａｒｉｚａｔｉｏｎｏｖｅｒ［］，ｙ＂—Ｍｕ．．．ｌｔｉｍｅｄｉａＨｅａｌｔｈｃａｒｅＩｎｆｂｒｍａｔｉｏｎ户ｒａｃｅｅ抓７妍０ｅ巧ｒｓＭｃｗ＋ｚｅｅｅＪｃ说３７２２００１：３３１３４０．／认（）＂－５３Ｔｅｕｆｂ．ｌＳｉｍｏｎｅａｎｄＭ．ＭｏｅｎｓＳｕｍｍａｒｉｚｉｎｓｃｉｅｎｔｉｆｌａｒｔｉｃｌｅｓｅｘｅｒｉｍｅｎｔｓｗｉｔｈｒｅｌｅｖａｎｃｅａｎｄ［］，，ｇｐ＂ｒｈｅｔｏｒ－ｉｃａｌｓｔａｔｕｓ．ＣｏｍｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ２８．４２００１；ａｓ．４０９４４６．ｐ（）ｐｇ＂ａｎｂａ－５４ＮＨｉｄｅｓＭ．Ｏｋｕｍｕｒａ．ｏｗａｒｄｓＭｕｌｉａｅＳｕｍｍａｒｉｚａｔｉｏｎＵｓｉｆｅｔｕｇｕａｎｄＴｔｒｎＲｅｒｅｎｃｅ］，，ｐ［ｐｇ＂－—％ｆｏｒｍａｉ．历戶ｒａｃｅ化献７心／９９％．８２９９９９２６．Ｉｎｔｏｎ各５〇／７（１）：１＂＂５５－ＭｅｉｉａｏｚｈｕａｎｄＣ．Ｘ．Ｚｈａｉ．ＧｅｎｅｒａｔｉｎＩｍａｃｔＢａｓｅｄＳｕｍｍａｒｉｅｓｆｏｒＳｃｉｅｎｔｉｆｉｃＬｉ化ｒａｔｕｒｅ．．＾ＣＬ［］，Ｑ，ｇｐ２００８ＰｒｏｃｅｅｄｉｎｓｏｅＭｅｅｔｎｏｅＡｓｓｏｃ－ｉａｔｉｏｎｏｒＣｏｍｕｔａｔｎａｌＬｉｎｕｉｓｔｉｃｓＪｉｍｅ１５２０２００Ｓ，ｇｆｉ沁，，，化ｇｆ化ｆｐｇ５４ 参考文献－Ｃｏｌｕｍｂｕｓ．，Ｏｈｉｏ，［／ｓｏ２００８：８１６８２４＂５６ａｚｖｉｎｉａｎＶａｈｅｄａｎｄＤ．民．Ｒａｄｅｖ．ＳｃｉｅｎｔｉｆｉｃＰａｅｒＳｕｍｍａｒｉｚａｔｉｏｎＵｓｉｎＣｉｔａｔｉｏｎＳｕｍｍａｒ［］Ｑ，，ｐｇｙ＂Ｎｅｔｗｏｒｋｓ．／巧化７７７口＂０巧ａ／ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬ－ｉｎｕｉｓｉｃｓ２００８：６８９６９６．ｔｇ，＂５７ＭｕｒｅｓａｎＳｍａｒａｎｄａＴｚｏｕｋｅｒｍａｎｎＥｖｅｌｎｅａｎｄＫｌａｖａｎｓＪｕｄｉｔｈＬ．Ｃｏｍｂｉｎｉｎｌｉｎ山Ｓｔｉｃａｎｄｍａｃｈｉｎｅ，，，ｙ，，［］ｇｇ＂ｌｅａｒｎｉｎｅｃｈｎｉｅｓｆｏｒｅｍａｉｌｓｕｍｍａｒｉｚａｉｏｎ．ｈｅｋｇｔ；ｑｕｔＴＷｏｒｓｈｏｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅ—ｉｉｆ山ａｉｌｉｉｉ．Ｌｅ口／７７／ｒｔｓｓｏｃａｔｏｎｏｒＣｏｍｔｏｎａＬｎｕ巧ｃｓ２００１：１８ｇ，Ａｐｇ＂－５８ＴｚｏｕｋｅｒｍａｎｎＥｖｅ．．．．ｌｎｅＳＭｕｒｅｓａｎａｎｄＪＬＫｌａｖａｎｓＧＩＳＴＩＴ：ｓｕｍｍａｒｉｚｉｎｅｍａｉｌｕｓｉｎｌｉｎｕｉｓｔｉｃ，，，［］ｙｇｇｇ＇’ｋｎｏｗ．ｌｅｄｇｅａｎｄｍ过ｃｈｉｎｅ＼ｅａｍｉ打客ＴｈｅＷｏｒｋｓｈｏｐｏｎＨｕｍａ打Ｌｃｍｇｕ幻ｇｅＴｃｃｈｎｏｌｏｇｙ＆ＫｎｏｗｌｅｄｇｅＡ／幻打口ｇｅｗｅｗ／ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉ巧ｉｃｓ，２００１．＂＇５９Ｃｏ巧ｏ－ＯＨｖｅｒＳ－Ｔｒｎｉｍｏｎｅｔａｌ．ＴａｓｋｆｏｃｕｓｅｄｓｕｍｍａｒｉｚａｔｉｏｎｏｆｅｍａＷ．Ｐｒｏｃｅｅｄｔｈｉｎｓｏｅｅｘｔ［］，，ｇｆＳｕｍｍａｒｉｚａｔｉｏｎＢｒａｎｃｈｅｓＯｕｔＡｃｌＷｏｒｋｓｈｏ２｛）０Ａ．ｐ｛）＂＂ｈ－６０Ｒｏａｌ．ｌ．ｌｉｉｍａｉｌＳｉｉ．ｈｕｌＳｔｅｖｅｎＬｅｔａＥｘｏｔｎＥｔｒｕｃｔｕｒｅ化ＩｍｒｏｖｅＳｕｍｍａｒｚａｔｏｎＭａｓｓａｃｓｅｔｔｓ，，［］ｐｇｐＩｎｓｔ．ｉｔｉＵｅｏｆＴｅｃｈｎｏｌｏ２〇〇２ｇｙ｛）＂＂．．．．．ｍｅｎｔａｔ．６１ＢｏｕｒａｅｖＢＫａｎｄＭＳＮｅｆｆＤｉｓｃｏｕｒｓｅｓｅｉｏｎｉｎａｉｄｏｆｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎＨａｗａｉｉ，，［］ｇｇ’／－／７；切７？加０／７口／ｏｎ＜５＞＾？似７７沉／ｅｎｃｅｓＥＥＥＣｏｍｐＷｅｒＳｏｃｉｅｔｙ２０００：３００４３００４．，＂＂６２ＮｅｎｋｏｖａＡｎｉａｎｄＡ．Ｂａａ．Ｆａｃｉｌｉｔａｔｉｎｅｍａｉｌｔｈｒｅａｄａｃｃｅｓｓｂｅｘｔｒａｃｔｉｖｅｓｕｍｍａｒｅｎｅｒａｔｉｏｎ．．Ｉｎ［］，，ｇｇｇｙｙｇＰｒｏｃ－．ｏｆＲＡＮＬＰＷ（２００３）：２８７２９６．＂＂６３民ａｍｂｏｗＯｗｅｎ，ｅｔａｌ．Ｓｕｍｍａｒｉｚｉｎｇｅｍａｉｌｔｈｒｅａｄｓ．戶ｒａｃｅｅ加７〇；２饼祝ｏＷ［］，沪／饼Ｐａｅｒｓｉｆｔｔｉｉｉｓｔｉ．ＡｓｓｏｃｉａｔｏｎｏｒＣｏｍｕａｏｎａｌＬｎｕｃｓ２００４ｐｐｇ，山＂＂６４ＮｅｗｍａｎＰａａＳ．ａｎｄＪ．Ｃ．Ｂｌｉｔｚｅｒ．ＳｕｍｍａｒｉｚｉｎＡｒｃｈｉｖｅｄＤｉｓｃｕｓｓ．仇化／＂ｉｏｎｓ：ＡＢｅｉｎｎｉｎｅＷ［，，］ｇｇｇｇＵｓｅｒ－Ｉｎｔｅｒｆａｃｅｓ２０於＼１１１＞２１６．－＂Ｗ＂’６５区ｅｒｅｉＡｄａｍＬ．ａｎｄＶ化ｈｕＯ．Ｍｉｔｔａｌ．ＯＣＥＬＯＴ：ａｓｓｔｅｍｆｏｒｓｕｍｍａｒｉｚｉｎｅｂａｅｓ．／Ｖｏｃｅｅｃ／如ｓ，，［］ｇｙｇｐｇ《ｍｅｒｎａ－ｏｔｈｅ２３ｒｄｏｒｍｕａｌｔｏｎａｌＳ！ＧＩＲｃｏｎｅｒｅｎｃｅｏｎ民ｅｓｅ幻ｆｘｈ幻ｎｄｄｅｖｅ！ｏｍｅｍｉｎｏｒｍａｏｎｆｉｉＡＣＭｉｎｔｉｆｐｆ化价．ＣＭ２０００．如幻／Ａ＂６６艮ｕｕｋｋｏｋｔｅｎＯｒｋｕｔｅｔａｌ．Ｅｆｆｉｃｉｅｎｔｗｅｂｂｒｏｗｓｉｎｇｏｎｈａｎｄｈｅｌｄｄｅｖｉｃｅｓｕｓｉｎａｅａｎｄｆｏｒｍ［］ｙ，，ｇｐｇ＂－ｉ．．扔口灼．．ｓｕｍｍａｒｉｚａｔｏｎ＊？幻灼幻／如ｎｓ化ｗｓ２０１２００２：８２１１５邱（）＂－６７ＤｅｌｏｒｔＪ．乂良．ＢｏｕｃｈｏｎＭｅｕｎｉｅｒａｎｄＭ．民ｉｆｉ．Ｅｎｈａｎｃｅｄｗｅｂｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎ，，，［］ｑｇ＂ｈｅｒ－ｙｐｌｉｎｋｓ．ＦｏｕｒｔｅｅｎｔｈＡｃｍＣｏｎｆｅｒｅｎｃｅｏｎＨｙｐｅｒｔｅｘｔ＆Ｈｙｐｅｒｍｅｄｉａ２００３：２０８２１５．＂＂－６８ＳｕｎＪ．Ｗｅｂ．ｉａｎＴａｏｅｔａｌａｅｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎｃｌｉｃｋｔｈｒｏｕｈｄａｔａ５７Ｇ／／？２００５：Ｐｒｏｃｅｅｄｉｎｓｏｔｈｅ，［］，ｐｇｇｇｇｆ２８ｔｈＡｎｍｉ幻ＩＩｒＨｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩ民ＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｔｌＳａｌｄｏＢｌＡｓｔ１５－１９２００５２ＱＱ５－ｅｒｉｅｖａｍｚｉ：＼９４２Ｑ＼，ｖ幻ｒ，，ｕｇｕ，．＂＂６９ＣｈｏｉＹｅｉｎｅｔａｌ．Ｕｓｉｎｌａｎｄｉｎａｅｓｆｏｒｓｏｎｓｏｒｅｄｓｅａｒｃｈａｄｓｅｌｅｃｔｉｏｎ．．７０；／巧／ｅ／７７口ｒ／ｏｗ口／［］，ｊ，ｇｇｐｇｐ－Ｃｏ巧如ｅ巧ｃｅ。巧脈ｒＷ趴冰脈６２０２６０．ｙ１０：２５１＂７０ＺｈｏｕＬ．．ｉａｎａｎｄＥｄｕａｒｄＨＨｏｖＯｎｔｈｅＳｕｍｍａｒｉｚａｔｉｏｎｏｆＤｎａｍｉｃａｌｌＩｎｔｒｏｄｕｃｅｄＩｎｆｂｒｍａｔｉｏｎ：，，［］ｇｙｙｙ‘ｉｉ，ｖＡ’ＯｎｌｉｎｅＤｉｓｃｕｓｓｉｏｎｓａｎｄＢｌｏｇｓ．／＾＾乂／、皆？７＞？客Ｓ＞ｗＳ７ｗ？ｒ化ｙ４ｎａ／ｚ／ｎ／＞ｇＷｅｂｌｏｇｓ．２００６．＂７－１ＨｕＭｅｉｓｈａｎＡ．ＳｕｎａｎｄＥ．Ｐ．Ｌｉｍ．Ｃｏｍｍｅｎｔｓｏｒｉｅｎｔｅｄｂｌｏｓｕｍｍａｒｉｚａｔｉｏｎｂｓｅｎｔｅｎｃｅ［］，，，ｇｙ＂ｅｘｔｒｅｉＣｔｉｏｎ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｓｉｘ化ｅｎｔｈＡＣＭｃｏｎｅｒｅｎｃｅｏｎＣｏｎｅｒｅｎｃｅｏｎｉｎｏｒｍ幻ｔｉｏｎ幻ｎｄｋｎｏｗｌｅｄｅｆｆｆｇＣＭ２００７９０－９０４ｅｍｅｎｔ．ｍａｎａＡ：１ｇ，＂＂７２ＬｅｕｏｃＶ．ａｎｄＴ．Ｍ．．ｎｎ／ｉｋｏｌｏｖＤｉｓｔｒｉｂｕｔｅｄ民ｅｒｅｓｅｎｔａｔｉｏｎｓｏｆＳｅｎ化ｎｃｅｓａｎｄＤｏｃｕｍｅｎｔｓ，，邸［］Ｑｐ－１．＾ｒｘ／ｖ４２０１４：１１８８巧６（）＂７３ＳｕｔｓｋｅｖｅｒＩｌａＯ．Ｖｉｎａｌｓａｎｄ．Ｖ．Ｌｅ．Ｓｅｕｅｎｃｅ化ＳｅｕｅｎｃｅＬｅａｒｎｉｎｗＵｈＮｅｕｒａｌ［］，ｙ，ｙ，Ｑｑｑｇ＂Ｎｅｔｗｏｒｋｓ－．＾（＾ｖｗ？ｃｅｓｗ＞７Ｗｅｗｒａ／／ｎｙｂ？７Ｗ（３ｆ／ｃｗＰ＿ｒａｃｅ＾／ｎｇ５Ｗｅｗ５４２０１４：３１０４３ｎ２．）（）５５ 参考文献＂＂ｉｏｓｈｕｅｔａ．ａｌｏｂａｂｉｌｉｔｉｃｌａｎｕａｅｍｏｄｅｌ．ｌａｃｈ７４ＢｅｎｏＹａｌＡｎｅｕｒｒｓＪｏｕｒｎａｏｉｎｅＬｅａｒｎｉｎ，，ｇｇｆＭ［］ｇｐｇｈ－Ｒｅｓｅａｒｃ３．６２ｍ．｛：＼Ｕｌ＼＼ＳＳｓ）＂＂’７５Ｔａ．．？九ｗｒｎａ／０ｉＳｉｎＬｅｅａｎｄＤＭｕｍｆｏｒｄＨｉｅｒａｒｃｈｉｃａｌＢａｅｓｉａｎｉｎｆｅｒｅｎｃｅｉｎ化ｅｖｉｓｕａｌ７片ｅｎｃ口／，，［］ｇｙ／邸－ＳｏｃｉｅｔｏＡｍｅｒ．．ｙｉｃａＡＯｔｉｃｓＩｍａｅＳｃｉｅｎｃｅ＆Ｖｉｓｉｏｎ２０７２００３：１４３４１４４８ｆｐｇ（）＂７６ＬｅｕｂａＧ－．ａ打ｄ民．Ｋｒａｆｔｓｉｋ．ＣｈａｎｅｓｉｎｖｏｌｕｍｅｓｕｒｆａｃｅｅｓｔｉｍａｔｅｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｓｈａｅａｎｄｔｃＨａｌ［］，，ｇ，，ｐｎｕｍｂ＇＇ｅｒｏｆｎｅｕｒｏｎｓｏｆｔｈｅｈｕｍａｎｒｉｍａｒｖｉｓｕａｌｃｏｒｔｅｘｆｒｏｍｍｉｄｅｓｔａｔｉｏｎｕｎｔｉｌｏｌｄｄｉＱ．Ａｎａｏｍｐｙｇｇｔｙ＆Ｅｏｌｏ－ｍｂｒｇ＼９０Ａ｛２０＼２：６５ｌ＼．ｙｙ）＂７７ＨｉｎｔｏｎＧＥａｎｄ民．Ｒ．Ｓａｌａｋｈｕｉ．ｅｄｕｃｉｎｔｈｅｄｉｍｉｌｉｄｉｈｎｌｔｄｎｏｖＲ：ｅｎｓｏｎａｔｏｆａｔａｗｔｅｕｒａ［］，，，ｇｙ＂％－ｎｅｔｗｏｒｋｓｉＳ．．．ｃ／ｅｎｃｅ３１３．５７２０１５：５０４５０７（）＂＂７８ＳａｉａｋｈｕｔｄｉｎｏｖＲｕｓｌａｎ，ａｎｄＧｅｏｆｆｒｅＨｉｎｔｏｎ．Ｓｅｍａｎｔｉｃｈａｓｈｉｎ．／Ｎｆｆ？ｒ＂Ｇ／７ｃｗ？ａ／Ｊ（＂＂７／，７ｃ［］ｙｇＲｅａｓｏｎ－ｉｎｇ５０．７２００９：９６９９７８．（）＂ｉＬｓＶａＤｅＭｔＧ－Ｖ７９ａｕｒｅｎｎｒａａｅｎａｎｄ．ＨｉＷｏｎ．ＶｉｕａｌｉｚｉｎｄａｔａｕｓｉｎｔＳＮＥ－ｏ／Ａｍ足ｚ／Ａ７７ｃｏ／ｃｅ６口７７？／巧［］，，，ｇｇ／Ｍ各Ｗ／９－ｅｓｅ幻．２６０５００８２５巧２６０５．／ｒ；口：）＂８０ＨｅＺ．ｅｔａｌ．Ｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｂａｓｅｄｏｎｄａｔａｒｅｃｏｎｓｔｒｕｃｔｉｏｎ．ＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌ，，［］ＩｒＵｅｌｌｉｅｎｃｅ２Ｑ．ｇ＼２＂－－８．１ＺｈｏｎＳｈｅｎＨｕａｅｔａｌｕｅｒｏｒｉｅｎｔ；ｅｄｕｎｓｕｅｒｖｉｓｅｄｍｕｌｔｉｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｖｉａｄｅｅｌｅａｒｎｉｎ，，［］ｇｇＱｙｐｐｇ＂ｍｏｄｅ－ｌ■扮化ｗｓ口４２．２１２０１５：８１４６８１５５．（）＂＂Ｍａｒｋ－８２Ｓｃｈｍｉｄｔ．Ｌｅａｓｔｓｕａｒｅｓｏｔｉｍｉｚａｔｉｏｎｗｋｈ１１ｎｏｒｍｎ＾ｕｉａｒｉｚａｔｉｏｎ．ＣＳＪ４２公／Ｖ却／／巧ｗＷ２００５）：［］，ｑｐｇ（－１４１８．＂＂８３Ｔ化ｓｈｉｒａｎｉＲｏｂｅｒｔ．ＲｅｒｅｓｓｉｏｎＳｈｒｉｎｋａｅａｎｄＳｅｌｅｃｔｉｏｎｖｉａｔｈｅＬａｓｓｏ．７ｏｆｔｈｅＲｏａｌＳｔａｔｉｓｔｉｃａｌ［，ｇｇ］ｙ８－旅５．９９６６７２％．１（１：２）＂８４ＣｈｅｎＳｃｏ打Ｓｈａｏｂ．Ｌ．．．Ｓａｕｎｄｅｒｓ．ｉｎＤＤｏｎｏｈｏａｎｄＭＡＡｔｏｍｉｃＤｅｃｏｍｏｓｉｔｉｏｎｂＢａｓｉｓ，，，［］ｇｐｙ＂Ｐｕｒｓｕ－ｉｔ．义口ｗ巧ｅｖ／ｅｗ４３．１２００１：３３６１．（）＂＂８５ＨｕｉＺｏｕａｎｄＨ．Ｔｒｅｖｏｒ．Ｒｅｕｌａｒｉｚａｔｉｏｎａｎｄｖａｒｉａｂｌｅｓｅｌｅｃｔｉｏｎｖｉａ比ｅｅｌａｓｔｉｃｎｅｔ．Ｊｏｗｎ？口／０７片ｅ巧０口／［］，，ｇ／少沉如舶ｃｅ６７－口地舱／印．２（２００５）：３０１３２０．＂＂６ｄ－ＥｆｒｏｎＢｒａｌｅｉ．ｌｉ．．４（／，３２．２２００４０７．巧，ｅｔａＬｅａｓｔａｎｅｒｅｒｅｓｓｏｎ７７？ｅ內／７？ｙ０口妃＂打：４４９９］，ｙｇｇ／別（）＂８７Ｆｒ．．．ｌｉｉｉｅｄｍａｎＪＴＨａｓｔｉｅａｎｄＲＴ化ｓｈｉｒａｎｉＲｅｕａｒｚａｔｏｎＰａｔｈｓｆｏｒＧｅｎｅｒａｌｉｚｅｄＬｉｎｅａｒＭｏｄｅｌｓｖｉａ，，，［］ｇ＂？．－Ｃｏｏｒｄ．．加加．ｉ．ｉｎａｔｅＤｅｓｃｅｎｔＪｏｗ／Ｔ？幻／０／沉ｃ幻／次３３０１０１０：：１２２口）＂＂巧８ＣａｒｌｏｓＦｌｉｃｋ．民ＯＵＧＥ：ＡＰａｃｋａｅｆｂｒＡｕｔｏｍａｔｉｃＥｖａｌｕａｔｉｏｎｏｆｓｕｍｍａｒｉｅｓ．７７？ｅ脈成ｓ片０７ｏｗ把姑］ｇ／Ｓｕｍｍａｒ—ｉｚａｔｉｏｎＢｒａｎｃｈｅｓＯｕｔ２０ＱＡ：２５２６，＂８９Ｌ－ｉＸｉａｏｄｏｎｅｔａｌ．ＤｏｃｕｍｅｎｔＳｕｍｍａｒｉｚａｔｉｏｎｖｉａＳｅｌｆＰｒｅｓｅｎｔＳｅｎｔｅｎｃｅＲｅｌｅｖａｎｃｅ［］，ｇ，＂Ｍｏｄｅ－ｌ．ＤＡＳＦＡＡ２０１３：３０９３２３．．ｈａｎｈ．９０ＺＺｉｍｍＨ．ＬｉａｎｄＬ．Ｈｕａｎ．７ｂ．Ｃ０ｗ６ｍ／７ｃＺ０ｗｉＺｚｃＤｉＳＺ）ｉ？ｎｇｒ０／）ｅｃ？ａｙ／／／ｏ？（３；７（）ａ＾［］ｇ，ｇ，，ｇｐ／／－Ｒｅｃｏｎｓｔｒｕｃｔ．ｉｏｎｏｒＳｕｍｍ幻ｒｉｚ幻ｆｉｏｎＪＶｅｂＡｅＩｎｏｒｍ幻ｆｉｏｎＭａｎ幻ｅｍｅｎＬＳｒｉ打ｅｒＢｅｒＶｍＨｅｉｄｅｌｂｅｒｆｇｆｇｐ径ｇ－２０．１３：３３８３５０５６ ？致谢，不知不觉中Ｈ年的研究生生活即将划上句号，过春去秋来、时光匆匆。这Ｈ年里得紧张却又充实，是人生中重要又难忘的王年。首先感谢我的导师王崇验教授和吴驗老师，在Ｈ年的研究生生活中给了我莫大的指导和帮助，在我科研迷茫的时候指点我，在我就业不顺的时候安慰我，他们是我在学生时期更是今后人生的指路人。同时要感谢我的家人父母，，他们永远是我最坚强的后盾在我经济困难１＾及遇到挫，让我顺利完成学业折的时候毫不犹豫、全也全意的帮助我。一感谢实验室的小伙伴们在最后的Ｈ个月里陪我在起查资料，、做实验、悠论文他们有刘勇、王涛、陈厚兵、戴恒宇、肖雨奇、李红、王茜和韩军华等，也希望他们能在５０９－今后的工作中大展宏图１，。并感谢我在的舍友许涵斌和赵斐在生活上给了我很大一的帮助，起苦中作乐、其乐融融，苟富贵必不相忘。５７ ＾附录研究生期间论文发表＂ＺｈａＣｈｉｌ．ＴｅＳｉｔｉＢｔｌｔｉｉｈＳｅｍａｎｔｉｃ１ｎ，ｅｔａｘｔｕｍｍａｒｚａｏｎａｓｅｄｏｎＳｅｎｅｎｃｅＳｅｅｃｏｎｗｔ［］ｇ＂Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＴｏｏｌｓｗｉｔｈＡｒｔｉｆｉｃｉａｌＩｎｔｅＷｉｇｅｎｃｅＩＥＥＥ，－２０１４．：５８４５９０研究生期间参与项目１江苏银行贷后风险网络预警系统［］５８ ＾附件二《学位论女出版授权书》＂本人完全同意《中国优秀博硕±学位论文全文数据库出版章程》（＞［＾１下简称章＂＂＂程），愿意将本人的学位论文提交中国学术期刊（光蟲版）电子杂志社在《中国博±学位论文全文数据库》、《中国优秀硕±学位论文全文数据库》中全文发表。《中国博±学位论文全文数据库》、《中国优秀硕±学位论文全文数据库》可电子、网络及其他数字媒体形式公开出版，并同意编入《中国知识资源总库》，＂＂在《中国博硕±学位论文评价数据库》中使用和在互联网上传播，同意按章程规定享受相关权益。是＾《作者签名：张弛２０１６年５月２７日基于语义重构的文本摘要算法论文题名Ｉ成内件口Ｍｇｌ３３３０７５所在院计算机科学与技学位年７／研巧生化争＾ＩＩＩ０＞／＾Ｉ系Ｉ术度￣￣ｓｉ壯□硕±专业学位论文级别□博：ｔ□博±专业学位（请在方框内画钩）作者Ｅｍ汹王崇骇教授、吴驗讲师论文涉密情况：＾不保密□保密，保密期（年日至年月日）月一注：请将该授权书填写后装订在学位论文最后页（南大封面）。５９

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 68



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

基于语义重构的文本摘要算法

基于语义重构的文本摘要算法

最近更新

大家都在看

相关文章

相关标签