基于双语信息的问题分类方法研究

基于双语信息的问题分类方法研究

ID:44050976

大小:633.24 KB

页数:21页

时间:2019-10-18

基于双语信息的问题分类方法研究_第1页
基于双语信息的问题分类方法研究_第2页
基于双语信息的问题分类方法研究_第3页
基于双语信息的问题分类方法研究_第4页
基于双语信息的问题分类方法研究_第5页
资源描述:

《基于双语信息的问题分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于双语信息的问题分类方法研究徐健张栋李寿山王红玲苏州大学计算机科学与技术学院摘要:问题分类是问答系统研究的一项基木任务。先前的研究仅仅是在单语语料上训练得到问题分类模型,存在语料不足和问题文本较短的问题。为了解决这些问题,该文提出了融合双语语料的双通道LSTM问题分类方法。首先,利用翻译语料分别扩充中文和英文语料;其次,将两种语言语料中的样本都分别用问题文本和翻译文本表示;最后,提出了双通道LSTM分类方法用于充分利用这两组特征,构建问题分类器。实验结果表明,该文提出的方法能有效提高问题分类的性能。关键词:问答系统

2、;问题分类;LSTM;作者简介:徐健(1992—),硕士研究生,主要研究领域为自然语言处理。E-mail:jxul017@stu.suda.edu.cn作者简介:李寿山(1980—),通信作者,博士,教授,主要研究领域为自然语言处理。E-mail:lishoushan@suda.edu.cn作者简介:张栋(1991—),硕士研究生,主要研究领域为自然语言处理。E-mail:dzhang@stu.suda・edu.cn收稿日期:2016-09-16基金:国家自然科学基金(61672366)ResearchonQuest

3、ionClassificationviaBilingualInformationXUTianZHANGDongLIShoushanWANGHonglingSchoolofComputerScienceandTechnology,SoochowUniversity;Abstract:Questionclassificationisabasictaskinquestionansweringsystem.Previousstudiesonlyemploythemonolingualcorpustotrainthequest

4、ionclassificationmodel,sufferingfromproblemssuchaslackofcorpusandshort1engthofquestiontext.Tosolvetheseproblems,weproposeanewapproachnameddual-charmclLSTMmodelwithbilingualinformation.Firstly,weextendtheChinesecorpusandEnglishcorpuswiththecorrespondingtranslate

5、dcorpus.Secondly,thesamplesarerepresentedbythequestiontextandtranslationwordvector.Finally,webuiIdanquestionclassifierusingdual-channelLSTMmodel.Theexperimcntairesultdemonstreitcsthatourapproachimprovestheperformanceofquestionclassification.Keyword:Q&Asystem;qu

6、estionclassification;LSTM;Received:2016-09-161引言问答系统主要针对用户提出的问题进行自动化处理,给用户一个简明、准确的答案反馈。现有的问答系统主要包括三个模块:问题分析、信息检索和答案抽取。问答系统为了能够正确冋答用户所提出的问题,首先需要对问题进行分析,理解用户想要获取的信息。问题分类作为问题分析最基础的任务,为整个问答系统提供了重要的技术支持111。问题分类的目标是将某个给定的问题映射到多个类型中的某一个或者儿个类别,以此确定问题的类型。问题分类在问答系统中主要有两个

7、作用。一方面是能有效地减小答案的候选空间。例如,问题“耳鸣的症状表现有哪些?”若将该问题正确分类为“健康”类问题,问答系统就可以从“健康”类的相关答案集合屮检索合适的答案。这样能非常有效地减小候选答案集合,提高检索效率。另一方面是能决定答案的抽取策略,即根据问题的不同类别采用不同的答案选择策略和知识库。例如,针对问题“天蝎座的男牛与哪个星座的女牛最合适?”问题分类方法可以推理出该问题是“感情”类问题,检索这类问题的答案吋利用情感分析技术就能提升问题答案的准确性。值得注意的是,传统的问题分类普遍都是基于单语问题文本的分

8、类方法。然而,己标注的问题资源比较匮乏,而且问题文木一般较短,包含的信息量比较少,传统的问题分类方法往往无法捕捉到有效特征。与以往研究不同的是,本文认为翻译语料对语料的扩充及问题的表示都有较大的帮助。一方面翻译语料扩充了语料,解决了问题资源匮乏的问题"}一方面翻译文本的信息对问题分类提供了更多的信息量,使得基于长短期记忆的循环神经网络算法(LS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。