基于语义类的汉语句法分析研究

基于语义类的汉语句法分析研究

ID:41906582

大小:569.01 KB

页数:14页

时间:2019-09-04

基于语义类的汉语句法分析研究_第1页
基于语义类的汉语句法分析研究_第2页
基于语义类的汉语句法分析研究_第3页
基于语义类的汉语句法分析研究_第4页
基于语义类的汉语句法分析研究_第5页
资源描述:

《基于语义类的汉语句法分析研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于语义类的汉语句法分析研究李辉2013.04.01句法分析的困难句法分析的最主要的困难有两点:第一个难点是歧义“自然语言区别于人工语言的一个显著特点就是它存在大量的歧义现象”人类可以依靠大量的先验知识有效地消除各种歧义现象,而机器由于在知识表示和知识获取方面的不足还难以像人类那样进行句法分析。第二个难点是搜索空间巨大“同一般的分类问题相比,句法分析是一个更为复杂的问题”因为分类问题只需要在预先指定好的数目确定的若干种类型中做出一个选择就可以了,而在进行句法分析时,不同的句子会有不同的候选分析树“给定一个长度为n个词的句子,其可能

2、的候选句法分析树的个数高达n的指数级”因此在设计句法分析模型时不仅仅要加强模型消除歧义的能力,还必须要控制好模型的复杂度,从而保证解码器能够在可接受的时间内搜索到最优的句法分析树。基于语义类的汉语句法分析一般情况下,训练数据的规模越小,句法分析模型的性能就越低“主要原因有两个:第一个原因是数据稀疏问题,参数估计得不准确;第二个原因是训练数据缺乏容易引起过拟合(overtfinig)现象,使模型的泛化能力降低”针对这两个问题,本章将以最小描述长度原则为基础,探索基于语义类的汉语句法分析模型“在基于词类的汉语句法分析模型中,我们用语义

3、类来代替词汇信息”这种方法。基于语义类模型的输入是一个由词汇,词性和语义类组成的三元组序列:其中W(w1,,,wn)为词序列,wi表示第i个词;SC=(sc1,,,scn)为语义类序列,sci表示第i个词的语义类;POS=(t1,,,tn)为词性序列,ti表示第i个词的词性。给定,我们仍然是用统计方法来消除句法歧义,认为条件概率最大的句法分析树是最好的,即根据贝叶斯公式并略掉常数项,我们有:为了简化模型,我们假设词序列砰的产生仅仅依赖于SC。在做句法分析时,W,sc都是给定的,因此,是一个可

4、以被省略的常数,我们有:模型总是先产生词性,然后以词性为基础再产生语义类"因此,只有词性相同的词语被划分在同一个语义类中才有意义"根据语料库中的数据,我们为每一个词性都建立一棵七层的语义分类树,树的根节点为词性,叶节点为词汇,中间的五层为语义类代码"例如:词性NR(专有名词)的语义分类树的一部分如图所示:为每一个词性都划分好这样的语义分类树之后,就可以应用文献所提出的方法,把词语的聚类问题简化为语义分类树的剪枝问题"语义分类树的每一种剪枝方式都对应着一种词汇聚类结果"例如,在图中,靠近根节点的剪枝方式把所有的词汇分成了如下的3类:

5、第一类(A):{克林顿尼克松毛泽东邓小平}第二类(D):{中国美国意大利安徽省福建省中科院鞍钢}第三类(B):{长城白宫}类似地,在图中,靠近叶节点的剪枝方式把所有的词语分成了如下7类:第一类(Afloc12):{克林顿尼克松}第二类(Afloe13):{毛泽东邓小平}第三类(oioZAo3):{中国}第四类(Di02C):{美国意大利安徽省福建省}第五类(omolB):{中科院}第六类(omO3C):{鞍钢}第七类(BnolC):{长城白宫}我们可以用两个极端方式对语义分类树进行剪枝:第一种剪枝方式是只保留根节点(词性信息),其

6、它节点全部剪掉,这相当于回到了PCFG模型。第二种剪枝方式是不剪枝,保留所有叶子节点(词汇信息),这相当于是词汇化模型。我们知道PCFG模型过于简单,消歧能力差;而词汇化模型使用词汇信息却引起数据稀疏。因此,上述两种方式都是不可取的,比较合理的剪枝应该是介于两个极端方式之间的。本文采用最小描述长度(MniimumDescriPtinoLnegth,MDL)原则,自动地为句法分析模型在两个极端方式之间寻找一个平衡点。对于一棵剪枝后的语义分类树,其描述长度为:其中,lGl为所有候选剪枝方式数目;lSl为样本数,即该分类树下的所有词语出

7、现次数之和;k为剪枝后的语义分类树的自由参数的个数。语义分类树的参数个数为其叶节点数目。每个叶节点对应着一个概率值,由于所有概率之和必须为1,则此约束限定了一个参数。因此自由参数的个数为叶节点数目减一。其中,sc为w所属的语义类,f(sc)是其出现的次数,lscl伪语义类sc中所包含的词语数目。上式的基本思想是把某个语义类sc的概率平均分配给该语义类所包含的词,也就是说语义类sc所包含的词的各种统计量将被融合在一起并在每个词之间平均分配,正是借助这种泛化手段我们才可以从较小的语料库当中获得比较智能化的参数估计。为了搜索到能够使L(

8、M)、L(DlM)两项之和最小的剪枝方式,理论上要穷举所有可能的情况。在实际操作时,我们可以采用动态规划的方法递归地搜索最优的剪枝方式,算法如下:我们看到该算法在对节点N剪枝之前,首先要对其所有子节点调用该算法进行剪枝。我们在实际操作时,只需要把每

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。