基于语义分析的汉语介词短语识别方法研究.pdf

基于语义分析的汉语介词短语识别方法研究.pdf

ID:52354163

大小:219.27 KB

页数:3页

时间:2020-03-26

基于语义分析的汉语介词短语识别方法研究.pdf_第1页
基于语义分析的汉语介词短语识别方法研究.pdf_第2页
基于语义分析的汉语介词短语识别方法研究.pdf_第3页
资源描述:

《基于语义分析的汉语介词短语识别方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于语义分析的汉语介词短语识别方法研究卢朝华徐好芹王玉芬(商丘工学院,河南商丘476000)[摘要]针对介词短语右边界存在多种错误识,-51】的问题,提出了一种基于最大熵的汉语介词短语自动识别方法。该方法结合了汉语介词短语左右边界词语的依存语法知识,先由最大熵模型对介词短语进行识别,然后利用依存树库中介词短语的左右边界词语的依存语法知识,对介词短语右边界的错误识别进行校正,提高了介词短语的识,-51】率。[关键词]汉语介词短语;短语识别;最大熵;依存语法表1特征模板1.引言】序号模板意义1.1有关介词短语识别1P0Scurr-1,P

2、0Scurf,当前词的词性及前后各一个词的P0Scurr+1词性简单来说,介词短语识别就是从经过分词和词性标注2P0Scurf,P0Scurf+l当前词的词性及后一个词的词性的句子中找出介词短语并给予标注。例如:“要把科学发展3P0Scurr.1,P0Scurr当前词的词性及前一个词的词性观落实到实处,还需要我们付出艰巨努力。”在这个句子中,4P0Scurr,WORDcBrr当前词及当前词的词性“把科学发展观”就是我们要识别的介词短语,“把”是这个介词短语的前界,“科学发展观”是介词短语的后界,“落实”2.2特征提取及参数估计是介词

3、短语的后词。假设能正确找到介词短语的前界和后增量特征选择算法:界,也就是正确识别出这个介词短语。我们采用IIS算法【5】,IIS算法是改进的GIS算法,适用1.2最大熵模型框架于任何特征函数非负的情况。具体算法过程如下:从直观上理解最大熵模型[1-3]的基本思想是:假如我们(1)输入n个特征函数‘,£,⋯,fn及经验概率分布p(x,对一个随机事件的概率分布不是完全很清楚时,可以仅用y):我们现有所观察到的进行推测,而对不能观察到的情况模(2)初始化1=OVi∈{1,2,⋯,n};型赋予的概率分布为均匀分布。满足熵值在限制条件下最(3

4、)计算:令A为公式:大的原则。在最大熵模型中,每一个特征对应~个约束条1n一p(x)p(ylx)fi(x,y)exp(Ae(x,y)):p(£)件,最大熵模型的任务就是寻找在约束条件下能满足最大x,Y熵的概率分布模型『4_。的解。其P(x,y)=fi(x,y)i=l2.基于最大熵介词短语识别(4)一,+A,更新的值;2.1特征表示及特征选择(5)假设有不收敛的,重复(3)(4)两步,否则算法结束。特征一般由两部分组成,一部分是约束条件,另一部分(6)输出参数值.,:,⋯,{.,:,⋯,}。动作(满足上下文约束条件时)。针对识别介词短

5、语来说,如2.3介词短语识别流程果“当前词为‘上’,词性为方位词,并且介词‘在’出现在用最大熵识别汉语介词短语主要包括四个模块:辅助模‘上’的前面”,则“介词‘上’标注为介词短语的后边界”。即块、训练模块、识别模块和测试模块。在辅助模块中,由人工对“如果⋯”(条件)和“则⋯”(行动)两部分组成了识别特征。用经过分词和词性标注的语料进行分析,挑选出包含介词短语特征函数表示上面的关系为:的句子,进行人工标注,并由计算机对标注结果进行格式检『1,如果S是介词短语后界且t表示后界为’上’查。合格的存入介词短语人工语料库。在训练模块中,按比例

6、f(t,s)={词性为方位词从人工语料库中抽取训练语料,对所有训练语料进行特征提i0,否则取、选择,用最大熵模型计算所有符合特征模板的特征函数的根据介词短语特殊的上下文环境及各自的特征空间,权值,存入特征参数文档。测试模块按比例从人工语料库中取对原子特征进行组合,构造了适合介词短语识别的结构模出训练语料,去掉句子中的介词短语标注信息,交给识别模板,以下是部分结构模板。块。识别模块根据特征参数文档中的权值计算各个候选后界概率,识别句子中的介词短语,测试模块根据机器提交的结果把机器识别的结果和人工标注的结果进行比较,统计出介词短语识别的

7、精确率和召回率,同时输出错误的识别结果。作者简介:卢朝华,女,河南南阳人,研究生,研究方向:中文信息检索,查询扩展。-——46。——I应用技术与研究学术探讨I一一============二=二========二====L二2012率第3职j进行人工标注。方法是在介词短语的开始处加入开始标记3.基于依存语法的错误识别自动校正“结束位置加入结束标记“分别代表介词短语的左边界3.1依存语法基础和右边界。把测试语料随机分成5份:测试l,测试2,测试3,依存语法一般描述的是句子中词之间的搭配体现的语测试4,测试5,分别对这5份语料进行测试。法

8、和语义关系。它认为构成句子的词语之间的结构关系具4.2实验结果及分析有一定的方向性,一般一个词由另一个词支配,根据词语问(1)基于最大熵识别介词短语实验结果如表2所示:支配与被支配的结构就形成了依存关系。在语义依存语法中,支配词称为被

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。