基于标记的规则统计模型与未登录词识别算法

ID：36750096

大小：290.38 KB

页数：6页

时间：2019-05-14

资源描述：

《基于标记的规则统计模型与未登录词识别算法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于标记的规则统计模型与未登录词识别算法苏菲王丹力戴国忠!中国科学院软件所人机交互技术与智能信息处理实验室"北京%""","#/01234$56738491234$35:25$2:$:;摘要该文针对小型词库"提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法$通过大量语料库学习获取歧义高频字"作为歧义标记"利用规则统计模型对标记的上下文信息分类处理"剩下的部分进行正向或逆向动态最大匹配"对连续单字串使用词加权算法来判断其是否为未登录多字词$经过实验测试"该系统的准确率为.,$,,-"召回率为.,$*!-$关键词歧义标记规则统计模型;元

2、语法词加权算法文章编号%""!0,**%0!!""#%%&0""#*0"*文献标识码<中图分类号=>*.%$!!"#$%&’()(*’(*+,-.%$/)’%.-01)2)0.)0!$2-3*(45(-"%+-20*6%7080-90:-3.’;#<%*:)02=)0$*=)*>#-64-02%?@12;AB1C@D8EF;D8E2:D3B;GF;D8443H8;DF;6BE12D3B;>EB:8553;HI2J!F;5D3D@D8B6KB6DL2E8!AM3;858<:2N81OB6K:38;:85!P83Q3;H%""","&!?’(3)

3、+($FD35CE8E8R@353D8DB58H18;DLBEN56BEAM3;858D8SD@;N8E5D2;N3;H$=M35C2C8ECE858;D52;BT8418DMBNDB3D6BE251244TB:2J@42EO$FD@585E@4805D2D35D3:1BN845DB84313;2D821J3H@3DO2;N@585LBEN0L83HMD24HBE3DM1DBE8:BH;3U8@;V;BL;LBEN5$=M8:M2E2:D8E5L3DMM3HM6E8R@8;:O21J3H@3DO2E88SDE2:D8N63E5D4O!DM8;

4、DM8:B;D8SDB6DM88SDE2:D8N:M2E2:D8E535N8248NL3DM2::BEN3;HDBDM8E@4805D2D35D3:1BN84$=M8BDM8E52E858H18;D8NJO2NO;213:12S31@112D:M3;H2CCEB2:M$W;V;BL;LBEN52E83N8;D3638NJ258NB;LBEN0L83HMD24HBE3DM16EB1258R@8;:8B6:B;D3;@B@553;H480:M2E2:D8ELBEN5$X3;244O!DM35C2C8E6@EDM8EN81B;5DE2D85DM85

5、8H18;D8NE85@4D5@53;HDM85B6DL2E8CEBDBDOC8N8T84BC8NJO2@DMBE5J258NB;DM8CEBCB58N2CCEB2:M!L3DM2CE8:353B;E2D8B6.,$,,-!2E8:244E2D8B6.,$*!-$=M@5DM82CCEB2:M351BE88668:D3T82;NEBJ@5D$@%A9-3.’$21J3H@3DOD2H!E@4805D2D35D3:1BN84!;0HE21!LBEN0L83HMD24HBE3DM1%引言已经走到尽头!要汲取统计方法与规则方法的两家之长!结合起来进

6、行中文信息处理!才可以得到较为满意的分词结果+#)"分词是中文信息处理的第一步!也是中文信息处理中的瓶颈部分"中文以字为书写单位!以词为概念单位!只有将一个个目前所有的分词系统中都存在两大疑难问题$歧义切分和概念单位准确划分出来!才能让计算机进一步理解概念及概念未登录词的识别"如何解决这两大难题成为众多中文信息处理之间的关系"因此分词的准确性直接影响到后继的句法分析#工作者的攻关对象"语义理解和语用解析等工作的顺利进行’%("最大匹配方法是最基础的分词方法!仅靠最大匹配就可以在传统的中文分词中主要存在两种方法$基于规则的理性达到,"-以上的分

7、词正确率!但是最大匹配无法识别出组合歧主义处理方法和基于统计的经验主义处理方法"基于规则的方义!对交叉歧义也有遗漏"人们在最大匹配的基础上加入其他法通过研究语言成分的结构关系形成启发式规则来解决歧义的分词算法来进一步提高分词的准确率"规则方法主要通过对切分!语言都有自己的语法规则和语法习惯!所以可以通过从语言的学习提取合理的语言规则!根据规则在整个句子的范围语料库学习的方法来获取规则’!)"虽然基于规则的方法简单有内查找可以排除歧义的有用信息!再对歧义部分进行修改!但效!但是错误率高!不适合语言切分精度的要求"而基于统计方是由于规则的有限性!

8、很难建立全面的规则模型!所以对歧义法的研究基本上都是在语料%主要是词&的统计概率的基础上切分准确性的提高也不能尽如人意"!元语法是一种成熟的统进行!从大量的语料库中

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于标记的规则统计模型与未登录词识别算法

基于标记的规则统计模型与未登录词识别算法

相关文章

相关标签