基于隐马尔科夫模型的命名实体识别

基于隐马尔科夫模型的命名实体识别

ID:10809472

大小:81.50 KB

页数:5页

时间:2018-07-08

基于隐马尔科夫模型的命名实体识别_第1页
基于隐马尔科夫模型的命名实体识别_第2页
基于隐马尔科夫模型的命名实体识别_第3页
基于隐马尔科夫模型的命名实体识别_第4页
基于隐马尔科夫模型的命名实体识别_第5页
资源描述:

《基于隐马尔科夫模型的命名实体识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于马尔科夫模型的命名实体识别NE识别的数学描述利用HMM解决序列标注问题,即给定一个观察值的序列,要寻找一个最优的标记序列,使得条件概率最大。根据贝叶斯公式可得:在NE识别问题中,X是给定的句子,观察值为词性或词,则上式中P(X)对所有的类别都是一样的,因此可以忽略不考虑。则上面的公式可以转化为下面的形式:即HMM实质式求解一个联合概率。上式中的标记序列Y可以看做是一个马尔科夫链,则对上式利用乘法公式有:基于HMM的NE识别的问题就是如何在给定的模型下,从一定观察值序列的所有可能的状态下,选取最有的标记序列。常用的方法是viterbi算法,它属于动态规划算法,动

2、态规划的思想是把问题分解,先解决最基本的子问题,再逐步外推寻找更大的子问题的最优解,在有限步后达到整个问题的最优解,即得到最有的NE标记序列隐马尔科夫模型观察到的事件是状态的随机函数,该模型是一个双重的随机过程,其中模型的状态转换过程是不可观察的。可观察的事件的随机过程是隐藏的状态转换过程的随机函数。形式化的描述为一个五元组。1.S表示模型中的状态,N是模型的状态数。所有独立的状态定义为,且用来表示t时刻的状态。2.O表示每个状态的观察值,M表示每个状态上对应的可能的观察值的数目。观察值对应于模型系统的实际输出,观察值记为:3.状态转移概率矩阵,其中,1<=i,j

3、<=N,表示从状态i转移到状态j的概率,满足:>=0,;且。4.输出观察值概率分布矩阵,其中表示在状态下,t时刻出现的概率,即,1<=j<=N,1<=k<=M.5.初始状态分布向量,其中,即在t=1时刻处于状态的概率,满足:。HMM模型需解决的三个问题:(1)评估问题。给定一个观察序列,以及模型,如何有效的计算,也就是这个观测序列有多大可能是由该模型产生的;(2)解码问题。给定观测序列以及模型,如何选择一个状态序列,使得观测序列O式最具可能的,即求解;(3)学习问题。如何能够通过调整参数以最大化ICTCLAS分词的词性列表1.名词(1个一类,7个二类,5个三类)名

4、词分为以下子类:n名词nr人名nr1汉语姓氏nr2汉语名字nrj日语人名nrf音译人名ns地名nsf音译地名nt机构团体名nz其它专名nl名词性惯用语ng名词性语素1.时间词(1个一类,1个二类)t时间词tg时间词性语素2.处所词(1个一类)s处所词3.方位词(1个一类)f方位词4.动词(1个一类,9个二类)v动词vd副动词vn名动词vshi动词“是”vyou动词“有”vf趋向动词vx形式动词vi不及物动词(内动词)vl动词性惯用语vg动词性语素5.形容词(1个一类,4个二类)a形容词ad副形词an名形词ag形容词性语素al形容词性惯用语6.区别词(1个一类,2个

5、二类)b区别词bl区别词性惯用语7.状态词(1个一类)z状态词8.代词(1个一类,4个二类,6个三类)r代词rr人称代词rz指示代词rzt时间指示代词rzs处所指示代词rzv谓词性指示代词ry疑问代词ryt时间疑问代词rys处所疑问代词ryv谓词性疑问代词rg代词性语素1.数词(1个一类,1个二类)m数词mq数量词2.量词(1个一类,2个二类)q量词qv动量词qt时量词3.副词(1个一类)d副词4.介词(1个一类,2个二类)p介词pba介词“把”pbei介词“被”5.连词(1个一类,1个二类)c连词cc并列连词6.助词(1个一类,15个二类)u助词uzhe着ule

6、了喽uguo过ude1的底ude2地ude3得usuo所udeng等等等云云uyy一样一般似的般udh的话uls来讲来说而言说来uzhi之ulian连(“连小学生都会”)7.叹词(1个一类)e叹词1.语气词(1个一类)y语气词(deleteyg)2.拟声词(1个一类)o拟声词3.前缀(1个一类)h前缀4.后缀(1个一类)k后缀5.字符串(1个一类,2个二类)x字符串xx非语素字xu网址URL6.标点符号(1个一类,16个二类)w标点符号wkz左括号,全角:(〔[{《【〖〈半角:([{wyz左引号,全角:“‘『wy

7、y右引号,全角:”’』wj句号,全角:。ww问号,全角:?半角:?wt叹号,全角:!半角:!wd逗号,全角:,半角:,wf分号,全角:;半角:;wn顿号,全角:、wm冒号,全角::半角::ws省略号,全角:………wp破折号,全角:——--——-半角:-------wb百分号千分号,全角:%‰半角:%wh单位符号,全角:¥$£°℃半角:$

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。