基于SVM的汉语问句分类研究【文献综述】

基于SVM的汉语问句分类研究【文献综述】

ID:472254

大小:19.50 KB

页数:3页

时间:2017-08-07

基于SVM的汉语问句分类研究【文献综述】_第1页
基于SVM的汉语问句分类研究【文献综述】_第2页
基于SVM的汉语问句分类研究【文献综述】_第3页
资源描述:

《基于SVM的汉语问句分类研究【文献综述】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计文献综述计算机科学技术基于SVM的汉语问句分类研究摘要:问答系统是信息检索的高级形式,其中问句理解模块的问句分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重要作用。处在发展初期的中文问答系统尤其需要追求每个阶段的品质,所以汉语问句分类作为首要子过程极具研究价值。采取支持向量机的方法对汉语问句进行分类比较可行且有效,因为处理问题集得到的特征空间维数较高,支持向量机可以有效解决高维问题;问题向量特征相关性小,支持向量机能够不受特征独立性假设的影响;问题向量特征稀疏,

2、支持向量机具有主动学习能力。此外,如果缺乏用于公测的问题集,支持向量机在自行构建的问题集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。关键词:问答系统;汉语问句分类;支持向量机;统计学原理信息时代,网络发展日行千里,搜索引擎深入到知识工程的各个领域。人们生活中的科技含量飞速上升,信息需求与日俱增,对搜索引擎性能的要求也愈发苛刻。问答系统(QuestionAnsweringSystem,QA)正是在这个关键时期开发而成,它属于信息检索系统的高级形式,能够对自然语言表述的问题输出精准、明确的答案。自1999年文本检索会议(Te

3、xtREtrievalConference,简称TREC)引入问答系统评测专项(QuestionAnsweringTrack,简称QATrack)后,各种研究机构对基于自然语言的问答系统再次产生了浓厚的兴趣,在往年的TREC比赛中,QATrack是最受关注的评测项目之一。在TREC的支持下,国外已经开发许多成熟的问答系统。在大规模开放域问答系统方面,有回答领域常识的Start,面向web在线问答的MULDER,具有语义分析功能的AskJeeves和支持多语种提问的AnswerBus等;而在受限域问答系统方面,英日德的发展水平较为领

4、先,开发了旅游问答系统TCS和类似于垂直搜索引擎业务取向的专业领域问答系统等。对问答系统的错误结果进行分析证明,有36.4%的错误是由于问句分类系统造成的。人工分类固然比较简单,也不需要大规模的训练语料,但分类比较粗糙,而且可移植性较差。为了避免这些问题,概率方法逐渐应用到问句分类当中并取得了很好的成绩。一些研究使用的概率方法是基于模板的匹配方法,即每一种类型问题对应若干条模板,新的问题利用这些模板分类。另一种概率方法是应用机器学习算法,并且取得了较好的成绩。Zhang采用支持向量机(SVM)对问句进行训练,采用了一种treeke

5、nel作为SVM的核并利用少许简单的句法特征,准确率达到了90%。英文的问句分类取得了较好的成绩,相比之下,汉语问答系统还没有显著的成果,业界的开发热情并不高涨,汉语问句分类还在研究起步阶段。主要原因是:汉语语言处理基础资源的极其匮乏,使得许多关键技术成为瓶颈,与英语相比,汉语语法更复杂,且顺序不定,分析起来更麻烦。另外国家投入和重视程度也不充分。目前国内的一些高校和专有机构借助问答系统的思想开发了一些应用类的系统,做为科研或商业用途。哈尔滨工业大学是率先研究问答系统的高校之一,历经多年的不懈努力,硕果累累,涉及的领域面非常多元。

6、问句分类的目标是:以分类体系为模板,通过分析问句内容或判断问句模式而得到问句的类型。问句类型与分类体系的关系就相当于数学概念中的映射关系,也就是把未知类别的问题映射到已有的类别中。问句分类是问句理解模块的核心部分,主要有两方面作用:一、缩小信息检索范围,提高效率;二、指导答案抽取策略,提供类别信息。由此可见,信息检索和答案抽取两个模块的工作流程都需要问句分类输出的信息,问句分类的效果贯穿整个问答系统。问句分类的处理对象是大量非结构化的用自然语言描述的无规律文本数据,在对问句特征提取前,需要对问句文本进行相应的预处理,处理结果的优劣

7、直接影响分类效率和准确度以及最终模式的有效性。首先调用中科院开发的Java版ICTCLAS分词包,实现对汉语问句分词、词性标注、命名实体识别和新词识别等功能,其次,问句中的主谓、动宾、定语修饰等关系非常典型,尤其是疑问意向词指示鲜明,很大程度可以通过判断意向词得到问句类型,分类精度依赖待分类向量的特征稠密度,只有得到充分的信息才能保证准确性。而问题包含的信息非常少,提取出的有效特征往往不足十个,在高维空间中很难对稀疏向量归类,因此需要对原始问句中的关键词进行词义扩展。董振东和董强两位专家开发的《知网》(HowNet),是作为概念扩

8、展的基础资源。分类方法是基于统计学习理论的方法。通过对标注的语料统计学习,分析问句类型的特征分布规律,建立模型以实现分类。统计法具有通用、易于移植和扩展的特点,它对不同的语料库没有择优或者排斥的现象,处理方式都是遵循数学原理或公式,所以很大程度上,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。