汉语基本名词短语识别与语法信息获取的互动研究

汉语基本名词短语识别与语法信息获取的互动研究

ID:36844702

大小:3.56 MB

页数:70页

时间:2019-05-16

汉语基本名词短语识别与语法信息获取的互动研究_第1页
汉语基本名词短语识别与语法信息获取的互动研究_第2页
汉语基本名词短语识别与语法信息获取的互动研究_第3页
汉语基本名词短语识别与语法信息获取的互动研究_第4页
汉语基本名词短语识别与语法信息获取的互动研究_第5页
资源描述:

《汉语基本名词短语识别与语法信息获取的互动研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要汉语基本名词短语自动识别作为中文信息处理的基本任务之一,在浅层句法分析、信息抽取和检索、机器翻译等自然语言处理领域都有十分重要的理论价值和广阔应用前景。在语言学本体研究中,汉语基本名词短语作为包含着丰富的语法信息的载体,它区别于一般的汉语名词短语,其构成基本名词短语的实词搭配形式,如:“名词+名词”、“形容词+名词”、“动词+名词”、“名词+动词”、“数词+量词+名词”等搭配组合都是语言学家们研究与关注的重点。以往的汉语基本名词短语自动识别研究只是在现有的人工标注好的语料上进行单一统计模型的自动识别实验,

2、并没有很好地利用统计模型进行自动识别同时再融入语言学的相关信息来进一步提高识别效果。本文的工作在约100万词次973清华中文树库的基础上,对其中所包含的基本名词短语进行了详细的统计和分析,具体考察了基本名词短语的词性序列分布信息、长度分布信息和音节组合模式分布信息,同时在参考黄昌宁先生在自动分词领域提出的词位能产度计算公式的基础上,对组成基本名词短语的词语的词位信息进行计算和分析,这些相关的统计考察工作为接下来利用统计模型识别基本名词短语提供必要的数据支持和统计决策。在基本名词短语识别中,我们采用一种基丁统计词位

3、信息的多标记多特征的基本名词短识别方法,在确定词位标记时,我们不是简单的采片j当前国际上通用的BIO语块标注体系,而是通过参考基本名词短语的长度语法信息和词位语法信息米确定具体的标记数目,并且结合一些有效的特征信息进一步提高识别结果。在识别结果评价方面,我们进一步规范了对于语块识别的评价标准,提出了采片j术登录短语召同率(UnkonwnPhraseRecall)做为评价识别基本名词短语统计模型的重要标准,并且对不同的统计模型进行了相关的对比识别实验。在互动识别实验中,我们采用基于词位信息校正的多分类器识别方法,主

4、要思想是先计算出训练语料中组成基本名词短语的词语的词位能产度统计量,再利用这些统计量对不同统计模型分类器的不同分类结果进行校正。从实验结果上看,本文所使用的基于词位信息校正的多分类器的基本名词识别方法优于单一采用统计模型的识别方法。关键词:汉语基本名词短语语法信息统计模型词位能产度多标记多特征搭配AbstractChineseBaseNPAutomaticidentif]icationasbeingoneofthefundamentaltasksinaChineseinformationprocessingpla

5、ysveryimportantrolesinshallowparsing,informationextractionandretrieval,machinetranslationfields.InthestudyofmodemLinguistics,theChineseBaseNPcontainsawealthofgrammaticalinformation,whichiSdifferentfromordinaryChinesenounpllrase,containssubstantivecollocationf

6、ormswithChineseBaseNP,suchas-noun4-noun,adjective+noun,verb+Noun,verb+noun,numeral+quantifier+nounandothertermswiththesequence,whicharelinguistswhoaremostconcernedabout.Inthepast,theChineseBaseNPAutomaticidentificationresearchistocarryouttheexperimentofautoma

7、ticidentificationonthetaggingcorpuswithsinglestatisticalmodel,thereisnogoodintheUSeofstatisticalmodelsforautomaticidentificationatthesametimere-integrationintothelinguisticinformationtofurtherenhancetheeffectivenessofidentification.Inthispaper,wecarriedoutsta

8、tisticalandanalyticalworkforChineseBaseNPsofTsinghua973Chinesetreebankwhichincludingabout1,000,000wordsindetail.thestudyofspecificBaseNPsequenceofpartofspeechdistributionofinformation,the

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。