基于半监督学习的中文问句分类

基于半监督学习的中文问句分类

ID:35061907

大小:2.66 MB

页数:37页

时间:2019-03-17

基于半监督学习的中文问句分类_第1页
基于半监督学习的中文问句分类_第2页
基于半监督学习的中文问句分类_第3页
基于半监督学习的中文问句分类_第4页
基于半监督学习的中文问句分类_第5页
资源描述:

《基于半监督学习的中文问句分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.-、'>-\V.瓜A%..f^方VV‘-^■;.r/分类吊级於V...i,...。D。%娜踩/;;接—/...fi3..:1'"%v/-i-,?\%';^.-■'tvt‘-/tVv客-'赴v-vf...'rVf^.vV#;;..f'.1?;v度,,#建-、巧i仑^^jl;Vi.M:/'';t■百k4.4心基文'1£群钟问句i.1.-V/.,-^J.'HVw:..;..严.'H-l-v-'‘.

2、 ̄..a'‘'1片产,V/?/’.':-.V../声,Jl'交’:I/-v、-..^':一;v:、.-;I;^v;;.;d..':.v;v;,/;;議.../一,'^."':家V;4-\如.5%表U1I2学J',户-..'f作I--r:樓誠技术f"专名■-v/-.‘、声t'':v,年日4%^。■!y.-I.v咖户.'1\'-..‘■;一''.;^/1/一'./

3、’.yV\f心!X.I--V'i;.'..^一IVT/I.y;二V,1-V-;..:-.1V心ft1飞/!i气.J'安徽工业大学硕士学位论文论文题目:基于半监督学习的中文问句分类ChineseQuestionClassificationBasedonSemi-supervisedLearning作者:王雷学院:计算机科学与技术指导教师:杨思春单位:安徽工业大学论文提交日期:2016年6月1日学位授予单位:安徽工业大学安徽马鞍山24

4、3002独创牲说明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工。作及取得研究成果尽我所知,除了文中特别加标注和致谢的地方外,论文中不包含其他人己经发表或撰写的研究成果,也不包含为获得安徽工业大学或其他教育机构的学位或证书所使用过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。《‘答名富日期/;关于论文使用授权的说明目,本人完全了解安徽工业大学有关保留、使用学位论文的规定P;学校有权保留送交论文的复印件,允许论文被查阅和借閒学

5、校可[^公;布论文的全部或部分内容,可W采用影印、缩印或其他复制手段保存论文,保密的论文在解密后应遵循此规定。\(、W谷‘惹导师答名巧日期I答名^;摘要摘要问句分类在问答系统中是一个重要的组成部分,问句分类的准确性直接影响着问答系统的性能。目前对于问句分类,主要集中在基于监督学习的问句分类研究上,并且也取得了良好的分类效果。但是基于监督学习的问句分类方法,仅仅使用了有标记的数据样本,而忽略了有价值的未标记数据样本。本文围绕基于半监督学习的中文问句分类方法,基于原始的Tri-training算法,并通过对

6、其进行改进,形成新的Tri-training算法,适用于中文问句分类。主要的研究内容有:首先,基于原始的Tri-training算法,改进其抽样方法。原始的抽样方法,是从有标记样本集中通过随机抽样方式,形成三个有标记样本的训练集。这种抽样方式会导致样本数量的不平衡,从而影响分类精度。改进的抽样方式,先将有标记的样本集中每类样本数据提取出来,然后分别从每类数据中抽样,形成三个训练集,这样可以保证其数据的平衡性,也能在一定程度上保证了分类器之间的差异性,进一步提高分类精度。其次,基于原始的Tri-training算法,改进

7、其投票机制。原始的Tri-training算法在三个分类器给出的分类结果均不同时,其默认第一个分类器给出的分类结果为分类器模型的分类结果,这在一定程度上有可能会降低分类器在这种情况下的分类精度。本文提出一种基于平时优秀思想的投票机制算法,该算法避免了默认第一个分类器给出的结果作为分类器模型的分类结果这种片面的情况。最后,基于改进的Tri-training算法,在哈尔滨工业大学中文问句集,以及手动从网上抓取的中文问句集上,进行中文问句分类实验。通过与基于监督学习的问句分类方法以及基于原始的Tri-training算法的问

8、句分类方法做比较,验证了改进的Tri-training算法在中文问句分类上的有效性。关键词:问句分类;半监督学习;Tri-training算法;抽样方法;投票机制-I-基于半监督学习的中文问句分类AbstractQuestionclassificationisanimportantcomponentofthequestionans

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。