中文分词词性标注系统

中文分词词性标注系统

ID:5983649

大小:397.50 KB

页数:29页

时间:2017-11-13

中文分词词性标注系统_第1页
中文分词词性标注系统_第2页
中文分词词性标注系统_第3页
中文分词词性标注系统_第4页
中文分词词性标注系统_第5页
资源描述:

《中文分词词性标注系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文自动分词系统IRSEG设计与实现高立琦王卓然2004.9.20大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测中文分词的意义和用途汉语的特点最小书写单位为字最小表意单位为词词与词之间没有书写边界分词系统的用途各种中文信息处理系统的基础模块自然语言处理信息检索…大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“

2、N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测IRSEG系统框架设计文本断句资源:词典资源,未登录词知识库等汉字原子切分构建分词有向图重叠词识别未登录词识别歧义字段处理搜索最优结果保留N个最优结果输出大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测数学模型与原理分析信道噪声模型设S=c1c2…cn为输入汉字序列,W=w1w2…wm为切分词序列。分词系统的任务是,找到一种切分结果W*,满足:根据贝叶斯公式:假设:一个词wi的出现概率以它前面

3、的词的出现没有关系(Unigram模型)则:为了实现上的方便,我们对上述公式取负对数,得到:数学模型与原理分析(续)构建分词有向图通过最短路径搜索,即得最优(概率最大)结果:结合/成/分子结合成分子大纲中文分词的意义和用途IRSEG系统框架设计数学模型与原理分析“N最短路径”的算法设计基于局部Bigram模型的未登录词识别模块系统评测“N最短路径”算法设计N最短路径的思想中科院张华平博士提出”N最短路径“粗分模型IRSEG系统的背景哈工大信息检索研究室CUP自然语言理解平台IRSEG中”N最短路径”模块的特点追求最短路径的准确率和召回率在CUP平台中利

4、用高层语言信息的反馈纠正分词结果算法设计利用分词有向图的特点(有向无环图)明显减小了时间复杂度和空间复杂度“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞

5、0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.760∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre

6、00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre21.51∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.

7、10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2230.52∞0∞0valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2223.4330.0330.52valuepre∞0∞0∞0∞0“N最短路径”算法设计(续)结合成分子valuepre00000000valueP

8、re10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。