基于主动学习的中文依存句法分析_陈鑫

ID：5390499

大小：2.64 MB

页数：6页

时间：2017-12-08

资源描述：

《基于主动学习的中文依存句法分析_陈鑫》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、,基于主动学习的中文依存句法分析陈鑫,车万翔,刘挺哈尔滨工业大学计算机学院信息检索研究中,心哈尔滨巧〕洲〕,,蛋止曰!,,摘要目前依存句法分析仍一要采用有指导的书潇学习方祛即需要大规模高质量的树库作为训练语料而现阶段中文依存树库资源相对较少,树库初辞主又是一件费时费力的上作。面对大量未椒语料,本文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人标注。本文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随打

2、哒择寸刁沱上实例相比,当使用相同数目训练实例时,主动学习使中文依,,存分析性能最高提升名另一方面动学习使依存分和谜到相同准确率时只需椒主更少量实例人工椒量最少多确靶朋毛关键词主动学习依存句法不确定州渡量委员会投票!,,,出!石’,巧,

3、毛沈】的以笼,,让况田水祀℃溯了魂,,加沈田切山。五!浏如田已刃刊

4、!’,”七伐心。】山!∀!∀】毛,』别代比滋力沈由功田刀。以画,成力刃乏此班工比氏比,川以沮

5、把么司花叮阅一。已”刊印洲刃爱旧似”1te州油明翻i1引言,,可:在统计学习的模型训练过程中按照对训练实例的处理方式将学习过程分为两类主动学习和被动学习。被动学习是随机地选择训练实例,被动地接受这些样本信息。主动学习与被动,学习不同它是迭代地从未标注语料中优先选择最富含有效信息的实例(即当前模型预测最不准

6、的)交由人工标注,然后加入训练集重新训练。由于优先选择的是最具训练效用的样本,所以减少了那些对提高学习器精度帮助不大的冗余样本的标注,因而学习器只需更少的样本便能获得相‘。同精度[];]目前最广泛使用的主动学习方法有基于不确定性度量(Uncertainty七asedSaJ卫plillg)和基于委ue0111l]。员会投票(Q卿七y-C川)两种te基于不确定性度量的样本选择根据学习器对未标注样本的分类置信度来进行。样本分类置信,,。度越低说明学习器尚不能很好区分此样本即学习器缺乏此样本含有的信息此时

7、将该样本进行人工标注并加入训练集会对学习器精度的提升有很大帮助。对于分类置信度高的样本,不再人工标注,从而免除了在冗余样本上耗费人力。这类学习算法的重点是构造一种合理有效的不确定’本文承国家自然科学基金(60803093;创为75055)、哈尔滨工业大学科研仓lJ新基金(HrFNSR『2仪曰芜9)和中央高。效基宝业务费专不页资金(HITKL〔)E201(x义闷)的资助材!研一一112,。性度量机制以此来指导样本选择,基于委员会投票的样本选择需要构建一组分类器这些分类器可以是用不同的训练算法得到、,

8、一nultit(sVMMaxE等)也可以是用同种训练算法对样本从不同的特征角度训练得到(Mviactiveew3。。1官,)基于委员会投票的方法优先选择各分类器投票结果最不一致的样本进行人工标注投en,Dne几1,ere.,票~嫡(、btE如pyaganEg95)和相对嫡(dive电toP而etallsOKLtheand。,~~,13)该样本越应该9是两种最常用的度量投票结果差异的方法嫡值越高说明投票差异越大加入到训练集[4]。,o叮net国外学者己经将主动学习应用到诸多自然语言处

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于主动学习的中文依存句法分析_陈鑫

基于主动学习的中文依存句法分析_陈鑫

相关文章

相关标签