基于多层CRFs的汉语介词短语识别研究

基于多层CRFs的汉语介词短语识别研究

ID:36603307

大小:7.49 MB

页数:65页

时间:2019-05-12

上传者:U-145848
基于多层CRFs的汉语介词短语识别研究_第1页
基于多层CRFs的汉语介词短语识别研究_第2页
基于多层CRFs的汉语介词短语识别研究_第3页
基于多层CRFs的汉语介词短语识别研究_第4页
基于多层CRFs的汉语介词短语识别研究_第5页
资源描述:

《基于多层CRFs的汉语介词短语识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

硕士学位论文基于多层CRFs的汉语介词短语识别研究ResearchonChinesePrepositionalPhraseIdentificationBasedonMulti-·layerConditionalRandomFields学号:21017001完成日期:2013—05—27大连理工大学DalianUniversityofTechnology lIIIIIIIIlUlMIIIIIIIIl—Y2417320大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:基±垒昱受堡&鱼这语企词筮篮趔盈壑作者签名:雏态日期:2Ql主年上_L月丑日 大连理工大学硕士学位论文摘要介词短语是汉语中一种重要的短语类型,在汉语中占有较大的比例。介词短语的正确识别可以简化句子结构;缩小中心动词的选择范围;降低句法分析的难度。基于介词短语识别的重要性,本文提出了基于条件随机场(ConditionalRandomFields,CI讧s)的汉语介词短语识别方法,并采用基于转换的错误驱动学习方法对结果进行校正,较好地完成了介词短语识别任务。本文将介词短语识别问题转化为序列标注问题,基于CRFs模型在序列标注上的优点,选用CRFs模型作为标注模型,通过分析介词短语的结构特征,为CRFs模型选取了6个有效的特征,并采用递增式的学习方法选择特征模板,优化了模型的性能;针对句子中含有多个介词短语识别效果不理想的现状,提出了多层识别的方法,分层识别每一个介词短语,将识别出的介词短语用特殊的符号替换,进而简化句子结构,缩短句子的长度;本文为了进一步提高介词短语识别的效果,采用基于转换的错误驱动学习方法对基于CRFs模型的识别结果进行校正。论文对基于单层CRFs模型、基于多层CRFs模型及加入错误驱动学习方法分别进行实验。实验证明,本文采用的多层CRFs模型的介词短语识别方法是有效的。通过对人民日报2000年语料中的7000多个介词短语进行五倍交叉实验,精确率、召回率、F1值分别为91.45%、91.39%和91.42%。在引入基于转换的错误驱动的学习方法对识别结果进行校正后,精确率、召回率、F1值分别达到91。98%、91.92%和91.96%,进一步提高了识别的效果。本文对介词短语识别的研究取得了较好的成果,可以将该成果应用到句法分析、机器翻译等领域。关键词:介词短语识别;条件随机场模型;多层方法;基于转换的错误驱动学习 基于多层CRFs的汉语介词短语识别研究ResearchonChinesePrepositionalPhraseIdentificationBasedonMulti-·layerConditionalRandomFieldsAbstractPrepositionalphrases,asaclassofimportantphrases,accountforaratherlargeproportioninChinese.Therefore,prepositionalphraseidentificationhassignificantmeaningwhichsimplifiesthes缸uctureofsentence.reducesthenumberofcandidatemainverbsandmakestheparsingeasily.Inthispaper,wepresentasystemofprepositionalphraseidentificationbasedonConditionalRandomFields(CRFs).Moreover,atransformation-basederror-drivenlearningapproachisadoptedtorevisetheprepositionalphraseidentificationresultsofCI心smodel.Thispapercovertsthetaskofprepositionalphraseidentificationintosequencelabeling.andadoptCRFsmodelasouridentificationmodel.Throughanalyzingthestructuralcharacteristicofprepositionalphrases,sixfeaturesareextractedasourfeaturesetandaneffectivefeaturetemplateisselectedbasedonincrementallearningmethod.Forthesituationofmorethanoneprepositionalphraseexistinginasentence,inordertoreducethecomplexityofphrasesandimprovetheaccuracyofprepositionalphraseidentification,amulti—layermethod,whichidentifiesprepositionalphrasefromrighttoleftbasedonCRFsandreplacetheidentifiedprepositionphrases,isproposedinthisPaper.Forfurtherimprovetheidentificationresults,atransformation-basedelTor-drivenlearningapproachisadoptedtorevisetheidentificationresultsbasedonCRFs.Experimentshowsthat,themulti-layeridentificationmethodbasedonCRFsiseffective.ExperimentscarriedoutonthecorpusofthePeople’SDaily2000containingmorethan7,000prepositionalphrases,theprecision,recallandF-valueCallachieve91.45%,91.39%and91.42%respectively.Withthehelpoftransformation-basederror-drivenlearning,theperformancesofCRFsbasedprepositionalphraseidentificationaleimprovedto91.98%,91.92%and91.96%.OurresearchOilprepositionalphraseidentificationachievesbetterperformance,whichCallapplytothefieldsofparsing,machinetranslationandSOon。KeyWords:PrepositionalPhraseIdentification;ConditionalRandomFields;Multi-layerMethod;Transformation··basedError·-drivenLearning 大连理工大学硕士学位论文目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.IAbstract⋯⋯.⋯..⋯..⋯.⋯..⋯.⋯..⋯.⋯⋯..⋯⋯.⋯.⋯.⋯⋯.⋯.⋯..⋯.⋯⋯.⋯⋯.⋯.⋯.⋯.。⋯..⋯..⋯⋯。II1绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.1研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.2介词短语识别的目标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.3介词短语识别的困难⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.4国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51.5本文的主要工作及组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯62相关理论基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..82.1统计自然语言处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯82.2有向图模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.2.1隐马尔可夫模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.2.2最大熵马尔可夫模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..112.3条件随机场模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.142.3.1无向图模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..152.3。2CRFs图结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.152.3.3CRFs势函数⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.162.3.4CRFs参数估计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯182.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.193介词短语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.1介词的特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.203.2介词短语的定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.213.3介词短语表示的意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.213.4介词短语的用途⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.243.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.254基于多层CRFs的介词短语识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.264.1标记集的选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.264.2特征抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.274.3生成训练语料和测试语料⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一294.4特征模板⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.304.4.1特征模板的种类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..31 基于多层CRFs的汉语介词短语识别研究4.4.2特征模板的选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..314.5基于多层CRFs的介词短语识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一324.5.1模型训练模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..324.5.2介词短语识别模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..364.6多层识别方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.374.7基于转换的错误驱动学习⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.394.7.1错误驱动学习的过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..394.7.2转换规则集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..414.8本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..425实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.435.1实验语料⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.435。2评价方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯435.3实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.445.3.1基于单层CRFs的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯445.3.1基于多层CRFs的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455.3.3错误驱动校正后的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..465.3.4本文几种方法的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..465.3.5与其它介词短语识别方法的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..485.4错误分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。495.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.51结论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..52参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.54攻读硕士学位期间发表学术论文情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一57致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..58大连理工大学学位论文版权使用授权书⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一59IV 大连理工大学硕士学位论文1绪论1.1研究背景及意义自然语言处理【11(NaturalLanguageProcessing,NLP)是人工智能和语言学的交叉领域,是一门横跨语言学、数学和计算机科学的学科。这一领域研究涉及人们日常使用的语言,所以自然语言处理与语言学的研究有密切的联系,但又有重要的区别。自然语言处理不单单是利用数学建模来分析和理解自然语言,而是要通过计算机程序来实现分析和理解的过程,进而实现计算机“懂”人类的部分或者全部语言的能力。自然语言处理的研究主要涉及信息检索、机器翻译、文本分类、语音识别等领域。自然语言处理的研究内容由低向高包含四个层次:(1)词法分析词法分析包含词性和词汇两个层次。在自然语言处理领域,词法分析主要任务就是对文本进行词语切分,这是解决自然语言领域问题需要的最基础的过程。(2)句法分析句法分析是当前自然语言处理的研究重点和难点问题。句法分析主要是分析句子中的每个词、短语的含义及依存关系来确定整个句子的结构。(3)语义分析语义分析就是根据句子中词语之间的关系,以语义学知识来推测句子的含义。这个阶段包括语义消歧等。(4)语用分析语用分析就是根据句子的上下文关系及应用的具体环境进行更深入的语义分析。在早期的自然语言处理系统中,采用的方法都是完全句法分析(fullparsing)。由于完全句法分析要确定句子所包含的全部句法信息,并要确定句子中各成分之间的关系,这是一项十分艰巨的任务。为了降低问题的复杂性,同时获取一定的句法结构信息,浅层句法分析(shallowparsing)应用而生。浅层句法分析也被称为部分句法分析(partialparsing)或者组块分析(chunking),它与完全句法分析不同,完全句法分析要求在对整个句子分析和识别的基础上,完成相应句子的完全句法分析树的构造;而浅层句法分析只是要求识别出句子中某些结构相对简单的独立成分,例如:基本的名词短语、动词短语等。浅层句法分析将句法分析分解为两个子任务:语块的识别和分析;语块之间的依附关系分析。其中,语块的识别和分析是主要任务。近几年来,语块识别问题成为自然语 基于多层CR.Fs的汉语介词短语识别研究言处理领域研究的基础性热点问题,越来越受到研究者们的广泛关注。介词短语作为一种重要的短语类别,在汉语中占有很大的比例。吴云芳【2】对包含十万字、六万词的语料包含介词短语的句子数进行统计,统计结果表明,科技类文章包含介词短语的句子占57%,而政论类文章包含介词短语的句子则占63%。本文还对2000年人民日报语料进行统计,统计结果显示,介词短语比例高达15%。因此,汉语介词短语的正确识别对于浅层句法分析、机器翻译等研究具有重要的意义。介词短语识别的重要意义主要体现在以下几个方面:(1)句子的中心动词不可能存在于介词短语的内部,因此介词短语的正确识别可以减少中心动词的选择范围。例如:“刑法/对/非法/生产/、/销售/、/使用/专用/间谍/器材/的/处罚/作/了/明确/规定/。/”,这个句子中一共有“生产”、“销售”、“使用”和“作”四个动词;只有一个“对非法生产、销售、使用专用间谍器材的处罚”介词短语。其中,介词短语包含了前三个动词“生产”、“销售”、“使用”,排除了它们作中心动词的可能性。所以,只有动词“作”可以作为中心动词。(2)介词短语的识别错误往往会给句法分析带来错误【3】。介词短语在句子中可以充当状语、补语、定语等成分,是一种表现形式多样的短语。介词短语的正确识别可以降低句子结构的复杂性,提高句子主干的清晰程度,并为句子的进一步处理和分析提供了帮助。介词短语的错误识别很容易使机器翻译系统中的句子翻译出现错误;相反,介词短语正确识别后,把介词短语作为一个整体进行翻译,这样就可以使翻译系统的正确率有很大的提高。例如:“公安机关/将/在/全国/范围/内/实施/对/违章/驾驶员/记分/管理/。/”,这个句子含有“在全国范围内”和“对违章驾驶员”两个介词短语,如果能够正确识别出它们,那么整个句子的结构将简化为“公安机关/将/在全国范围内/实施/对违章驾驶员/记分/管理/。/”。对比简化前后的两个句子结构可以看出,把介词短语作为一个整体的句子结构更加简单清晰,更有利于进行翻译。因此介词短语的翻译可以单独进行,而不会对句子主干的翻译产生影响。(3)对于基于模板的机器翻译系统而言,正确识别介词短语为模板匹配提供帮助。由于一些短语的错误识别(包括介词短语)导致句子模板匹配存在很大的困难。文献[4]指出“在句法分析中,没有彻底地对介词短语进行分析,导致该合并成介词短语的没有被合并,使模板匹配出现问题。”例如:①用/{短短/1/年}MC>/时间/使/{快要/破产)/的/{软件/公司)②经过/{半/年)/的/学习/使/{计算机/编程)/的/能力①②分别进行了组块识别,但却不能完全匹配。通过对它们进行介词短语识别得到: 大连理工大学硕士学位论文③{用/短短/1/年/时间)/使/{快要/破产)/的/{软件/公司)④{经过/半/年/的/学习)PP>/使/{计算机/编程)/的/{能力)从③④可以看出,如果可以正确识别出介词短语,根据相应的模板匹配算法这两个句子是完全匹配的。这可以大大提高模板的匹配率,与此同时也减少了模板的数量。1.2介词短语识别的目标介词短语识别的目标就是在已经正确分词和词性标注的句子中正确找出介词短语的边界范围,不对短语的内部结构进行分析,将介词短语作为一个整体识别出来。将该问题形式化表示为句子S=Wl/POSl,Wz/POS2,⋯⋯;Wn.1/POSn-l(POSi代表词Wi的词性),目标是识别出介词短语Wi,.⋯”,Wi。其中,Wi称为介词短语的前界(即介词本身);wj称为介词短语的后界;Wm称为整个介词短语的后词。例句1:积极/引导/人民/群众/把/有/事/找/政府/的/观念/转向/有/事/找/法律/。/本文的目标就是将介词短语“把有事找法律的观念”识别出来,其中“把’’是前界,即介词;“观念”是后界;“转向”则是后词。由于介词短语的前界就是介词本身,所以介词短语识别的重点问题就是确定介词短语的后界,即只要正确识别出介词短语的后界,就可以正确识别出介词短语。1.3介词短语识别的困难与其他短语(例如:名词短语和动词短语)相比,介词短语的复杂性是其最显著的特点。如何确定介词短语的后界对于介词短语识别来说非常重要,由于很大一部分介词短语跨越多个词,这使得确定介词短语的后界(即介词短语的结束词)需要很高的代价。根据系统性能的要求,将其他短语与介词短语与其它短语分开进行识别。本文对大量包含介词短语的句子进行分析和归纳,总结出介词短语识别的难点主要包含以下几个方面:(1)缺乏统一的定义在现代汉语中,存在许多由动词演变过来的介词,这些介词本身还包含动词的特征,在识别时很容易与动词相混淆。对于“至于”、“临”和“连’’等词,在《汉语介词和介词短语》151@,根据它们并没有完全地体现介词的性质而未被划分到介词中;然而,这些词在《现代汉语语法信息词典详解》【6】中却被划分到介词中。(2)兼类介词的存在 基于多层CRFs的汉语介词短语识别研究介词可以兼做名词、量词、形容词、连词和动词等。其中,当介词兼做量词、形容词和名词时,很容易进行判断;但兼做连词、动词时,就需要考虑较多的信息才能正确判断。例如,对于介词“和”来说,“李磊和王雷是博士”、“李磊和王雷研究问题”,对于前者而言,“和”是连词;而后者则是介词。(3)部分介词短语本身有歧义在有些情况下,仅仅根据句子的内部信息无法识别出介词短语。例如:①老N/{对/学生/}I拘/态度/很/好/②老N/{对/学生/的/态度,/表示/满意针对①②,我们要分别识别“对学生”和“对学生的态度”这两个介词短语。但在实际问题中,要想正确识别出这两个介词短语难度很大。两个句子包含相同的短语“对学生”,必须利用上下文信息才能将包含结构相同的词组的介词短语正确识别出来。(4)复杂的内部结构介词短语可以由介词与其他短语(动宾短语、名词短语、方位短语、时间短语等)构成,甚至可以由整个句子构成。例如:①市公安局/{对/代表/评议/中/提出/的/4/个/方面/、/36/类/问题)/给予/T/较/圆满|的|答复|o|②{对于/当前/我NI/舌L/伐/林木/、/乱/占/林地/的/情况/),/国家林业局/将/开展/一/次/全国性/的/大/检查/。(5)同一个句子中包含多个并列介词短语在实际语料中,介词短语连用的情况非常多。这种情况给介词短语识别增加了很大的难度。例如,“{在/家里}/{在/学校)/”,这个句子中存在两个并列的介词短语“在家里”和“在学校’’。在识别过程中,这种并列的介词短语将给识别带来困难,介词短语的边界确定也将更加复杂。(6)介词短语远离被修饰词介词短语在句子中主要是充当修饰成分,并且常在句子中充当状语来修饰其右边的动词。但在多数情况下,介词短语远离被其修饰的词,这种远距离的修饰关系给介词短语识别问题造成更大的困难。例如:“{在/甘肃省/312/国道/沿线/部分/地区)/经常/可以/看到/当地/农民/兜售/猎杀/的/珍贵/野生/保护/动物/”,在这个句子中介词短语“在甘肃省312国道沿线部分地区”修饰动词“看到”,然而介词短语与被修饰词之间包含了其它两个修饰词。当句子中存在这种远距离的关系时,识别算法很容易将其它的修饰词识别为介词短语的边界,导致整个介词短语识别错误。 大连理工大学硕士学位论文(7)嵌套介词短语经常出现对于介词短语而言,介词短语的嵌套是一种相当复杂的情况,因为这给确定介词短语的边界带来了很大的困难,识别效率很低。例如:“{把/不/居住/{在/县政府/所在/镇)/的/非/农业/人口,/纳入/保障/范围/”,其中两个介词短语嵌套在一起,这使得识别的代价更大。以上是目前介词短语识别领域所面临的主要难点,本文研究将从以上几方面出发,意在解决这些问题,提高介词短语识别的准确率。1.4国内外研究现状介词短语的研究是自然语言处理的难点问题。近年来,国内外研究者都给予了较多的关注,并进行较为深入的研究。由于英语和汉语语法结构的不同,介词短语研究的问题也有很大的区别。在英语中,介词短语一般出现在句子的末端,这就很容易造成一种歧义,即该介词短语是修饰前面的名词还是动词。所以,英语中介词短语研究主要解决的问题是介词短语介词短语的附加问题(PrepositionalPhraseAttachment)——确定介词短语修饰的是名词还是动词;而汉语的主要任务是对整个介词短语进行识别,即介词短语的边界确定问题。国外的研究者们在介词短语的研究中,提出了很多有效的方法。其中,Hindle和Rootht7】是最早在这方面进行研究的,通过对大规模英文语料进行分析,提取了大量的verb.noun.prep形式的三元组。利用可回溯、无约束的思想,计算句子中介词、名词和动词这种组合在每一个三元组中的共现概率,通过概率结果来确定介词短语的附加形式,该方法取得了较为理想的效果。文献[8]提出了一种基于规则的方法来解决介词短语的附着歧义问题,利用错误驱动的思想,较好地完成了介词短语的消歧任务。此外,通过扩展词类信息,进一步提高了系统的性能。文献[9]采用backed.off估计的方法,通过对独立的四元组进行测试,精确率达到84.5%,但该方法存在数据稀疏问题。文献[10]对语料进行语义标注,生成诱导决策树,通过语义信息解决介词短语附着问题,准确率达到88.1%。文献[11】采用pseudo-backed.off模型,通过计算二元组的数目进行介词短语附着消歧。这种方法有效地避免了之前利用三元组或者四元组产生的数据稀疏问题,并取得了85.02%的准确率。文献[12]提出了一种无监督的方法,通过利用上下文特征的线性组合来判断介词的附着位置,对于频率较低的元组利用上下文相似词来近似计算。该方法优于之前的无监督方法,并达到了有监督方法的效果。文献[13]通过搜索引擎来获取与介词共现的名词或动词,通过计算共现频率来判断介词短语修饰的是名词还是动词,取得了较好的效果。 基于多层CRFs的汉语介词短语识别研究国内学者在介词及介词短语方面的研究开展的比较早,取得了较好的成果。在研究汉语短语的相关书籍中,也都对介词及介词短语进行了不同程度的阐述。文献[14】最早对介词短语进行详细地阐述,并介绍了介词短语的意义、介词短语的用途等。金吉昌在《汉语介词和介词短语》一书中,详细地介绍了汉语介词短语的五个重要功能。此外,在一些公开发表的文章上,也有很多关于介词短语的研究(文献[15.18])。介词短语作为一类重要的短语结构,对它的自动识别研究在最近几年也得到了国内学者的广泛研究。以下介绍最近几年关于介词短语识别方面的研究工作。王立霞【l9】在《现代汉语介词短语边界识别研究》中,对汉语中出现频率最大的介词“在”进行封闭测试和开放测试实验,准确率分别为97%和93%。该文应用最大似然估计,计算后界出现在两个词之间的概率,采用删除插值法进行平滑处理。标注完成之后,进行了错误分析,应用人工规则进行后处理,识别效果较为理想。干俊伟【20】在《汉语介词短语的自动识别》一文中采用了规则和统计相结合的介词短语识别方法。该方法主要分为两个阶段:第一阶段利用搭配模板获取可信搭配关系,根据这些可信搭配关系对介词短语进行初步识别,该阶段精确率高,但召回率低;第二阶段对未识别的介词短语,采用基于词性的三元统计模型和规则相结合的方法识别。对包含7000多个介词短语的语料进行实验,精确率和召回率分别为87.48%和87.27%。于俊涛【2I]在论文中采用基于最大熵模型的方法,通过获取有效地特征集合完成了介词短语识别的任务。系统对7000多个介词短语进行测试,精确率达到89.1%。奚建清【22J在《基于HMM的汉语介词短语自动识别研究》一文中提出了基于隐马尔可夫模型的汉语介词短语边界确定方法。由基于HMM的介词短语自动识别和依存语法错误校正两个阶段完成。该模型的在封闭测试和开放测试的准确率分别为86.5%和77.7%,较好地完成了介词短语识别任务。该文首次引入了机器学习的方法,为以后的介词短语识别研究提供了有益的帮助。胡思磊【23】在她的硕士论文中利用两层条件随机场模型对介词短语进行识别,取得了较好地效果。并首次对嵌套介词短语进行研究。通过对人民日报语料的7000多个介词短语进行识别,实验结果的精确率为90.09%。1.5本文的主要工作及组织结构通过分析前人在介词短语识别方面的研究,提出了一种基于条件随机场(ConditionalRandomFields.CI强s)的介词短语识别方法。本文在分词和词性标注的基础上进行介词短语识别,将介词短语识别问题转化为序列标注问题,采用条件随机场模型进行短语识 大连理工大学硕士学位论文别。针对含有多个介词短语的句子,识别准确率不高的问题,提出了一种多层识别的方法,即采用自右向左分层识别每一个介词短语,有效地改进了先前研究者在这方面研究的不足。本文还利用基于转换的错误驱动学习方法对基于CRFs模型的识别结果进行校正,进一步提高了识别的准确率。本文的主要工作如下:(1)对语料进行预处理。主要包括分词、词性标注,并进行人工校正,保证准确性,标注语料中的介词短语。(2)采用CRFs模型进行介词短语识别。完成特征选择、特征模板提取及参数训练等任务。针对一个句子中包含多个介词短语的复杂情况,提出多层识别的方法,分层识别出每一个介词短语。每层均选用CRFs模型,将识别出的介词短语用特殊的符号替换,传到下一层。(3)基于转换的错误驱动学习。针对基于CI讧s模型的介词短语识别结果,采用基于转换的错误驱动学习方法获取转换规则集,利用规则集中的每一条规则对识别结果进行校正,进一步提高了介词短语识别的效果。围绕上述的主要工作,本文的后续章节的组织结构如下:第2章相关理论基础及统计学习模型介绍对介词短语识别所在的领域——统计自然语言处理,进行了详细地介绍。并介绍了几种统计学习模型,比较了它们的优缺点。并对本文中应用的CRFs模型进行了详细地介绍,包括CRFs的无向图结构、CRFs的势函数、CRFs的参数估计等内容。第3章介词短语介绍本章对介词短语给出了详细的定义和分类。第4章基于多层CRFs的介词短语识别本章首先介绍了CRFs模型中标记集的选取、特征集及对应的特征模板的选择;然后详细地介绍了本文提出的方法,尤其对训练模块和介词短语识别模块作了详细的介绍;最后,介绍了基于转换的错误驱动学习方法,及该方法对基于CRFs模型的介词短语识别结果进行校正的过程。第5章实验及结果分析对实验选用的语料、评测指标、不同方法的实验结果进行了介绍。并对识别错误的结果进行了分析,为以后的研究提供帮助。第6章结论对本文的工作做了总体的概述,并提出了以后的研究方向。 基于多层CRFs的汉语介词短语识别研究2相关理论基础2.1统计自然语言处理自然语言是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU,当他们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究人员对此系统相当乐观,然而,当把这个系统扩展到充满了现实世界的含糊与不确定性的环境中时,他们很快就丧失了信息。例如:句子“本文把香蕉给猴子,因为它们饿了”和“本文把香蕉给猴子,因为它们熟透了”具有相同的结构。但是代词“它们”在第一个句子中指的是“猴子”,而在第二句中指的是“香蕉”,如果不了解猴子和香蕉的属性,无法区分。由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI.complete)问题。于是,在自然语言处理中,“理解”的定义也变成一个主要的问题。有关理解定义问题的研究已经引发关注。自然语言处理的主要范畴主要包括文本朗读、语音合成、语音识别、中文自动分词、词性标注、句法分析、自然语言生成、文本分类、信息抽取、信息检索、文字校对、问答系统、机器翻译、自动摘要和文字蕴涵等。当前自然语言处理研究的发展趋势:一是传统的理性主义方法,即基于句法.语义规则的方法受到质疑,随着语料库的不断建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要目标:二是词汇在自然语言处理中扮演了越来越重要的角色,这就需要制定语言信息丰富的词汇知识库来更好的理解自然语言,尽可能保证在词的层面正确理解。在以上两方面研究的驱动下,基于统计方法的自然语言处理越来越受到重视,越来越多的使用机器自动学习的方法来获取语言学知识。统计自然语言处理主要以概率论和数理统计知识为基础来构造基于统计的语言模型,自然语言中内在规律可以通过这些统计模型来描述;以概率论作为基础,将语言单位(字、词、句子、段落和篇章等)看作一个随机过程,并运用运用一定的数学统计方法对问题进行分析并建立数学模型。目前统计模型中运用广泛的模型包括:隐马尔可夫模型、最大熵马尔可夫模型及条件随机场模型等,本章接下来的几节将详细介绍这几个统计模型。 大连理工大学硕士学位论文2.2有向图模型图模型分为有向图模型和无向图模型。对于有向图∥=(旷∥)而言,∥表示G中的节点集合;∥是连接这些节点的有向边集合。在有向图中,图的有向性保证了每个节点以图中任何其它节点为条件的概率都相等。节点的集合表示一组连续的或者离散的随机变量,随机变量间的联合概率表示为公式(2.1)所示的形式。p(砰,吃d,...,《)=兀p(∥l嘭)(2.1)i=1其中,0,《,...,Kd表示变量∥所依赖的变量;V。d:是∥所有父节点的集合。因为有向图模型包含了特殊的条件独立假设,所以节点∥独立于除了v!以外的所有在∥之前的节点集。因此,联合概率可以表示为公式(2.1)中的条件概率乘积。接下来,将对两种重要的有向图模型:隐马尔可夫模型和最大熵马尔可夫模型,给予详细的介绍。2.2.1隐马尔可夫模型隐马尔可夫模型(hiddenMarkovmodel,HMM)[25】是马尔可夫过程的概率函数。马尔可夫过程最早由AndreiA.Markov提出。它的最原始目的也是为了语言学上的应用,即为俄国文学作品中的字母序列建模,但随后马尔可夫模型(Markovmodel)发展成为一个通用的统计工具。对于一个随机变量序列,这些随机变量并不是独立的,每个随机变量的值依赖这个序列前面的状态。对于马尔可夫模型而言,它相当于一个标有概率的有限状态自动机,下一步的状态仅仅取决于当前状态,即不存在远距离的依存关系。但在HMM中,模型所经过的状态序列是未知的,只知道状态的概率函数,也就是说,观察到的事件是状态的随机函数。一个HMM可以由一个五元组(S,O,n,A,B)表示,其中①S={sl,...,SN)是状态集合,N表示模型中状态的数目;②K_{kl,...,kM)是状态输出的符号结合,M表示输出符号的数目;③Ⅱ={乃)(i∈S)表示不同初始状态的概率;④A={粕)(1≤i≤N,1≤j≤N)表示状态转移概率矩阵,集合中每一元素aij表示从状态Si转移到sj的概率;⑤B={bj}k(1≤j≤N,1≤k≤M)表示符号输出概率矩阵,集合中每一元素bik表示当前状态sj,输出kk的概率。下面给出一阶线性I-IMM的图结构,如图2.1所示。 基于多层CRFs的汉语介词短语识别研究图2.1一阶链式H/vIM图结构Fig.2.1Thegraphicalstructureoflinear-chainHMM隐马尔夫模型中包含了三个基本问题,只有解决这三个问题,才能在实际应用中解决问题。①给出一个模型∥=(A,B,1-I),计算观测序列发生的概率P(OI∥)。这是一个解码(decoding)问题。通常采用前向算法(forwardprocedure)和后向算法(backwardprocedure)相结合的方法来解决问题。②给出观测序列0={019,oo$Or)和模型∥,如何确定最优状态序列Q=(ql,...,qT),使得该状态序列能够较好的解释观测序列。最常用的方法是维特比(Viterbi)算法,该算法运用动态规划的搜索算法来求解最优状态序列。③给定观测序列o={Ol,...,Or),确定最优模型∥,使得e(oI∥)最大。即参数估计问题。通常采用期望最大化(expectationmaximization,EM)算法进行参数最大似然估计。这个算法的基本思想是:已知观测序列,但并不知道具体的模型参数。首先随机选取一个模型算出观测序列的概率;查看计算过程,可以发现哪个状态转移或者生成观测状态出现的次数最多。增加出现次数最多的状态的概率,可以生成一个修改后的模型,使得这个模型可以为观测序列给出更高的概率。重复这个过程,直到收敛为止。这个最大化的过程就是通过训练语料训练的过程。隐马尔可夫模型在实际应用中主要解决的问题是②,即已知观测序列,求最优的标记序列。下面详细介绍一下隐马尔可夫模型在序列标注中的应用。(1)隐马尔可夫模型在序列标注中的应用在序列标注任务中,我们需要解决的问题是:在已知观测序列的条件下,给出使标注序列的条件概率值最大的那个标注序列s木,即◆lO%一@0q-一S占∞ 大连理工大学硕士学位论文S木=argmaxP(SIO)(2.3)利用条件概率公式,得:沿argm。axP(So)-argm。ax篱(2.4)Srtu,因为观测序列是已知的,所以观测序列的概率值P(O)是常数,所以公式(2.4)可以转化为:S幸=argmaxP(S,O)8(2.5)=argmaxP(OS)P(S)根据上面介绍的马尔可夫独立性假设,状态序列之间的状态转移与观测序列无关,则:P(s)=P(s,)兀P(sis。s:⋯Si)(2.6)在实际应用中,较为常用的是二元HMM模型,即:P(S)=P(S,)v(s2S1)⋯P(SN|SN-1)(2.7)(2)隐马尔可夫模型的局限性作为产生式模型的一种,对于隐马尔可夫模型而言,首先,要求所有可能的观测序列的个数是有限的,才能有效计算观测序列和标记序列的联合概率分布。其次,隐马尔可夫模型还必须具有严格的独立性假设。这就会导致序列中的数据存在长距离的依存关系时,很难计算这个联合概率。实际应用中,绝大部分的数据序列并不能完全正确的表示为一组孤立的元素。因此,马尔可夫模型在序列标记问题中,只能利用有限的上下文信息,导致识别精度不高。2.2.2最大熵马尔可夫模型(1)最大熵模型“熵”最早是热力学中的一个概念,在上世纪40年代,香农首次将最大熵引入到信息论中。信息熵是用来表示一种不确定程度的大小,信息熵越大,不确定性越大:反之,不确定性越小。在极端情况下,当一个随机变量是均匀分布时,信息熵达到最大值1;当变量是一个确定值时,信息熵为0。已知一个概率分布p(X)={p(x1),p(x2)9o--,p(Xn))(p(xO+p(x2)+⋯+p(xn)=1),则熵的定义如公式(2.8)所示: 基于多层CRFs的汉语介词短语识别研究H(p)=一∑p(xj)logp(xi)(2.8)i=l在利用最大熵模型估计模型参数的早期,由于计算条件的限制,最大熵模型没有在人工智能和自然语言处理领域得到广泛应用。到上世纪90年代,mM的研究人员系统地描述了条件最大熵的框架和实现算法,并在自然语言处理任务中取得了较好的效果。随后最大熵模型得到广泛的传播,并在自然语言处理的各个领域得到了较好的应用。并在此基础上展开了一些深入的研究,使得最大熵模型成为较好的机器学习方法之一。将自然语言看做一个随机的过程,建立随机过程模型P,p∈P;输出值集合为Y,yeY;上下文集合X,x∈X;样本集合为D={(xl,Y1),(x2,y2),...,(xNyN)),其中每一个(Xi,Yi)表示一个观察事件。我们希望在上下文的情况下,统计模型能够给出每个p(yIx)。所谓最大熵模型,就是p(ylx)在一定约束下熵最大的模型。所谓约束条件,就是我们已知的信息,使熵最大,就是除了已知信息外,不会任何额外未知的假设。在最大熵模型中,约束就是指特征。这里的特征与其它领域定义的特征不同,它被表示成关于Xi和Yi的函数形式f(xi,Yi),表示Xi的某种属性和yi的共现情况,该函数被称作特征函数。特征函数理论上可以取任何实数值,在自然语言处理领域一般表示为二值函数的形式,例如:⋯):j1汀Xi2”型’川Yf(xY—TRE∥’(2.9)㈨)={,、,1一~(2.9)Luelse定义特征函数f的经验期望为:p(f)=∑p(x,y)f(x,y)(2.10)X,Yp(x,Y)表示样本(x,y):在-i)ll练语料D中出现的概率。计算公式如下:夙加掣(2.⋯特征函数的模型期望计算公式为:p(f)=∑p(x)p(y[x)f(x,y)(2.12)X,Y对于最大熵模型而言,约束条件就是对于任意特征£,使得经验期望和模型期望相等,即: 大连理工大学硕士学位论文∑风,Y)fi(x,y)=Ep昭x)p(yx)fi(x,y)(2.13)x,YX,Y则求解最大熵问题可以转化为求条件极值问题:+=’一∑’、。Ix)logp(]Pargmax(2p(x)p(ylogp(yx))(2一.1。4‘)2一。x))L.)px,y约束条件为:f∑p(x,Y)fi(x,Y)--ER(x)P(Yx)fi(x,y){k∑k7(2.15)l∑p(yx)=1⋯。Ly∈Y,xEx利用拉格朗日乘子法计算最优解p(ylx)。(2)最大熵马尔可夫模型对于HMM而言,它由状态集合S和观察值结合O两部分组成;包含从状态S“到状态Si的条件概率分布p(silsi.1)和状态Si的输出观察值概率p(oifsi)两个转移概率;还有一个初始状态概率分布po(s0。在MEMM中,将HMM中的状态转移概率和输出概率用概率分布p(sisi.1,oi)代替。每个这样的概率分布函数都服从最大熵的指数模型。MEMM的结构图如2.2所示。在HMM中,观察值只与当前状态有关,而忽略了序列中的上下文信息。但MEMM而言,通过将观察值与状态转移相关联,并且当前值可能依赖于之前的状态,这就有效地利用了上下文信息。sj-1CSi,弋\/0i+1图2.2MEI删I图结构Fig.2.2ThegraphicalstructureofMEMM 基于多层CRFs的汉语介词短语识别研究(3)最大熵马尔可夫模型的缺点最大熵马尔可夫模型虽然解决了HMM输出独立性假设的问题,但是只解决了观察值独立的问题,状态之前的假设却引起了标注偏置问题(LabelBiasProblem)[26】,下面通过一个例子解释标注偏置问题,如图2.3所示。图2.3标注偏置实例Fig.2.3Labelbiasexample图2.3利用最大熵马尔可夫模型来区分两个词rib和rob。假设观察序列为rib。在第一步中,r与从初始状态出发的两条路径都匹配。基于最大熵理论,这两条匹配的路径具有相同的概率。下一步,观测字母i,状态1和状态4都只有一条输出的路径,因此在训练中只有状态1能够遇到这个观测值,而状态4几乎遇不到这个观测值。像状态l一样,状态4没有其它的选择,只能传给与它唯一相连的路径。因此,这种在当前状态只有一条相连路径的情况下,导致其完全地忽略了当前的观察值,只能通过唯一的路径向后传递状态的现象称为“标注偏置”。2.3条件随机场模型条件随机场(CRFs)是一种基于统计的学>-j模型,由Lafferty等人【27J在2001年最早提出来的,该模型来源于最大熵(MaximumEntropy,ME)模型[28]oCRFs通过计算和统计已知元素推理计算未知元素的条件概率。与隐马尔可夫模型不同,CRFs可以利用上下文信息,而不需要严格的独立性假设,因此在序列标注问题中表现出很好的性能。此外,CRFs还解决了最大熵马尔可夫模型(MEMM)中的标注偏置问题。因此,CRFs被广泛应用于自然语言处理领域的句法分析[29-30】、命名实体识别‘31-32]、词性标注【33‘34】等方面,并取得了很好的效果。 大连理工大学硕士学位论文2.3.1无向图模型无向图模型又叫马尔可夫网络、马尔可夫随机场。本文用G=形习来表示一个无向图,其中y表示节点的集合,三表示连接节点的无向边集合。在无向图模型中,节点集合表示一组随机变量,这组变量可以是连续,也可以是分散的。对于有向图∥=(形∥)而言,随机变量间的联合概率表示为公式(2.16)所示的形式。p研,V:d,...,《)=np(∥IV三)(2.16)i=1其中,0,V2d,...,Kd表示变量∥所依赖的变量;kd.是∥所有父节点的集合。有向图中,每个节点在其它节点条件下的概率都相等(无论是相邻节点还是非相邻节点)。但在无向图中,却很难保证这种一致性。基于此,本文采用另一种方式来表示联合概率,即通过计算一组局部函数的乘积来得到联合概率。在选择局部函数时,要保证没有边连接的两个节点不能同时出现在同一个局部函数中。因此,在对局部的函数进行选择时,要保证非连通的两个节点通过联合概率分解出现在不同的局部函数里。在无向图G中形成一个全连通子环,就可以保证作用于相同局部函数的节点出现在相同的环中。因此,定义包含所有节点的最大全连通环C上的函数为最简单局部函数——势函数,该函数是严格正实数的函数形式。为了满足概率值在[O,1]区间这个概率定理,需要引入一个归一化的因子,保证势函数的乘积满足条件,并且该乘积表示无向图中随机变量的联合概率分布。归一化因子Z的计算如公式(2.17)所示。z=∑兀①K(vc)(2.17)vl,.,咋ceC其中,C为最大连通环,使用Hammersley-Clifford定理,用局部函数之积代替全局概率,则联合概率的计算公式如下:p(vj,...,%)=专n①咋(K)(2.18)6c∈C2.3.2CRFs图结构CEFs是一种无向图(undirectedgraphical)结构的模型。当给定待标注的观察序列集合时,它被用来定义在标注序列上的联合概率分布。设X是待标注序列上的随机变量,】,表示相应的标记序列的随机变量。则(五】,)就是一个以观察序列X为条件的随机域。下面给出CRFs的一般定义。 基于多层CRFs的汉语介词短语识别研究定义2.1设无向图G=形习,Y=Ⅸl1,∈y)是以G中节点1,为索引的随机变量L构成的集合。在给定X的条件下,如果每个随机变量K服从马尔可夫属性,K的概率可以用公式(2.19)表示。则(x】,)就构成一个条件随机场。p(Kx,艺,U≠V)=p(Kx,艺,U~V)(2.19)其中u~y表示无向图中两个相邻的节点。在构造CRFs模型时,选用了既易于理解又经常使用的一阶链式结构,即线性链条件随机场(Linear-chainCRFs)。图2.4表示条件随机场(X】,)的一阶链式结构图,其中,X是输入的观察序列,不对X作任何的独立性假设。只将观察序列x作为前提条件,定义一个联合概率分布P(Yx),选择联合概率最大的作为对应的标记序列。Y1Y3y西X=X1,X2,X3⋯.,Xn-1,Xn图2.4线性链CRFs图结构Fig.2.4Thegraphicalstructureoflinear-chainCRFs2.3.3CRFs势函数Lafferty等人对CRFs势函数的选择受最大熵模型的影响。通过2.3.1节对无向图模型的介绍可以知道,无向图不能为已知节点分配一个条件概率,也不能保证某节点在其它所有节点条件下的概率都相等。则CRFs的无向图结构也与无向图模型的属性相同。因此,本文需要为CRFs选择一组条件独立的局部函数的乘积来表示联合概率。这里选用最简单的局部函数——势函数(PotentialFunction),利用势函数的乘积来定义CRFs的联合概率分布。每个势函数的定义如下:①儿(y。)=e)【p(∑以丘(c,yc,x))(2.20) 大连理工大学硕士学位论文这里,YC表示第C个最大团对应的随机变量,六表示一个二值特征函数,则P(YX)可表示为:m㈤=高exp(萎摹五肚此砌(2.21)其中,z(x)是归一化因子(NormalizationFactor),其表示形式如公式(2.22)。z(x)=∑eXp(∑∑九以(c,Y。,x))(2.22)Yc∈C女在一阶链结构的图G=(V,E)中,最大团仅包含相邻的两个节点,即图G中的边。对于一个最大团中的无向边e=(V-.,V),可以将势函数扩展为一般的表达形式,如公式(2.23)所示:①K(儿)=e)【p(∑A%tk(Yi—l,只,工,f)+∑∥女&(只,五f))(2.23)其中,气(只书Yi,工,i)表示整个观察序列以及在f一1和i时刻相应标记的转移特征函数;&(y,,x,i)表示在i时刻整个观察序列和标记的状态特征函数;则在给定观察序列X的情况下,标注序列Y的联合条件概率可表示为:烈yx)2云暑eXp(军;以‘(Yi-I,Yi,X)+军;肌&(Yi≯))(2.24’其中,参数以和脓分别表示对应的特征函数的权重,可以通过训练语料估计得到。为了统一状态特征函数和转移特征函数的表达形式,将状态特征函数改写为:气(Yi,x,i)=Sk(Yi-1’Yf,x,i)(2.25)本文用五(片小Yi,x,f)来统一表示这两个函数,则五可能是二者之一,令:Fk(Y,x)=∑丘(只小Yi,x,f)(2.26)从而标注序列的联合条件概率公式(2.24)可被改成为:则z(x)可表示为:p(ylx)=面1exp(E。z,y。(川)(2.27) 基于多层CRFs的汉语介词短语识别研究z(x)=∑eXp(∑_,jFj(y,x))(2.28)xj当利用CRFs求解序列标注问题时,就是求出最优解,,使联合概率值最大,由于z(x)与】,无关,所以】,+表示如下:y‘=argmaxp(y[x)2arg峄面1exp(手乃m砌(2.29)=argm.ax>--]2jFj(y,x)公式(2.28)的最优解厂可以利用Viterbi动态优化算法求得。2。3。4CRFs参数估计对于CI心s模型而言,最主要的任务就是从语料中估计得到最适合模型的特征权重旯。目前,在模型参数估计问题中,最简单最常用的方法是最大似然估计(Maximumlikelihoodestimation)。下面详细介绍最大似然估计在CRFs模型的参数估计中的具体应用。根据最大熵模型对参数的估计采用最大似然估计方法,已知训练语料集D={(五,Y。),(恐,Y:),...,(吒,只)),条件概率P(Yx,无)的对数似然函数表示形式如下:三(旯)=log兀p(yx,A)岫’=∑p(x,y)logp(y[x,A)(2.30)工.Y工·Y对于CRFs模型,对数最大似然参数估计的目的就是从相互独立的训练数据中估计出参数旯=(^,如9o,o,以)的最大似然值。根据公式(2.29)和(2.30),CRFs模型的对数似然函数表达形式如下:£(旯)=∑p(x,y)∑2kFk(Y,x)-∑p(x)logZ(x)(2.31)j.Yko将上式的似然函数对相应的参数九求一阶偏导,如公式(2.32)所示。其中,E,[五]表示经验分布下的概率期望值;乞[E]表示由统计模型得到的概率期望值。参数A的值可以通过令一阶偏导数为零来计算得到,但直接这样计算往往不能达到期望值。因此,需要采用一些迭代的方法来选择参数。通常采用的方法是IIS(Improved 大连理工大学硕士学位论文IterafiveScaling)t351、GIS(GeneralizedIterativeSealing)[361等。本文采用L-BFGS(Limited.memoryBroyden.Fletcher.Goldfarb.Shanno)算、法t37】进行模型参数的估计。并=驴川驰㈡一军=吲E卜∑p(x)j·Y抓.、汁c渺州啪y)]烈功丑—■面卜eXp(∑最(x,y))·E(x,夕)(2.32)z(x)=q[E]一∑p(x)p(yx,Jt)F。(x,少)X.y=E应E]一E,[E]2.4本章小结本章首先对统计自然语言理论进行了简单的阐述:接着介绍了几种有代表性的统计学习模型;先介绍了隐马尔可夫模型及该模型存在的缺点,其次介绍了最大熵马尔可夫模型及该模型存在的缺点,最后详细介绍了本文使用的统计学习模型一条件随机场(CI强s)模型,阐述了CRFs模型的优点。首先介绍无向图模型,接着对CRFs的理论及关键技术给予详细介绍,主要包括CRFs的无向图结构、CRFs的势函数表示及CRFs的参数估计等。 基于多层CRFs的汉语介词短语识别研究3介词短语3.1介词的特点介词是在实词或者实词短语前引出相关动作对象、处所、时间、原因、条件和目的等的词。介词集合是有穷集合,并且介词与连词和动词兼类。下面将给出介词的相关特征以及介词和连词及动词的区别。(1)介词、动词的区别①介词不能做谓语小明在上海。动词在沈阳工作。介词②动词可以连起来使用,而介词不可以教练让小明和小强比比投篮。动词小明LLd,强投篮更好。介词(这种情况就不能更改为“小明比比小强投篮更好”)③介词不可以后面接助词来表示时态,而动词可以小明给了小强一块面包。动词妈妈给小明做饭。介词(这种情况不能修改为“妈妈给了小明做饭”)(2)介词、连词的区别①连词前不可以接词或者短语起修饰作用,而介词可以小明跟小强借篮球。介词(这种情况可以修改为“小明常常跟小强借篮球”)王明跟李雷都去看比赛了。连词(这种情况就不能修改为“王明经常跟李雷都去看比赛了”)②介词的前后两项可以互换,而连词可以小明跟小强借篮球。介词(如果改成“小强跟小明接篮球”,整句话的意思就改变了)王明跟李雷都去看比赛了。连词(此时,整句话可以改成“李雷跟王明都去看比赛了”)(3)介词表示被动意义,可以省略其后的实词李明被(匪徒)抢了100元钱。(其中“匪徒”可以省略,不会改变整句话要表达的意思)小明全身给(风)吹透了。(其中“风”可以省略,不会改变整句话要表达的意思) 大连理工大学硕士学位论文(4)有时交换介词左右两个词也有意义,但并不代表连词①介词与对称性动词在一起使用古力跟李世石比赛。介词(其中“比赛”属于对称性动词)队员跟教练研究战术。介词(其中“研究”属于对称动词)②介词与表示相反、相似、相同和不同意义的词一起使用李铁和李明属于同一个队。介词马布里的想法跟教练不同。介词C罗和梅西为不同队效力。介词介绍完了介词的定义,下面本文来详细介绍一下介词短语。3.2介词短语的定义介词短语主要由两个部分组成:第一部分是介词;第二部分是与介词结合的实词或者实词短语。大部分介词短语都是由介词与体词性词语构成,然而也有很小一部分由介词和非体词性词语构成。介词短语的结构主要有以下几种:(1)介词+名词短语球迷{把球王,紧紧围住。助理教练{对主教练的战术)又进行了补充。(2)介词+代词有很多f关于神,的传说。李磊拒绝了领导{向他)提出的无理要求。(3)介词+非名词性词语{队员对教练的布置)有很大的意见。观众{由梅西的进球)看到了球王当年的影子。3.3介词短语表示的意义由于介词短语与谓词结合具有一定语义联系,因此经常将介词短语与谓词配合起来使用。另外,介词的意义各不相同,其后的实词或者实词短语语义也有差异,因此介词短语与谓词配合使用可以表示很多种语义。下面本文简单介绍一下介词短语可以表示的意义:(1)表示处所 基于多层CRFs的汉语介词短语识别研究表3.1表示处所的介词Tab.3.1Theprepositionsrepresentinglocation(2)表示时间(4)表表3.2表示时间的介词Tab.3.2Theprepositionsrepresentingtime介词介词短语在当于∥在明天晚上(动身)当太阳落山的时候(就回家)切尔西俱乐部(始建)于1908年从今天开始(跑步)把将对管把责任(推给别人)将这个奖项(授予他)对遇到的问题(进行分析)管李明(叫明明) 大连理工大学硕士学位论文(5)表示动作与事(6)表表3.5表示动作与事的介词Tab.3.5Theprepositionsrepresenting“yushi’’介词给替为向介词短语给他(欣赏)替领导(承担责任)为同学(服务)向小李(学习)和跟同与和小明一起(学习)跟朋友(谈心)同企业(签约)与教练(探讨)(7)表示凭借者表3.7表示凭借者的介词Tab.3.7Theprepositionsrepresentingresort介词根据以按照用介词短语根据能力(分配工作)以优异的成绩(考上了大学)按照要求(写论文)用签字笔(答题)(8)表示关涉者表3.8表示关涉者的介词Tab.3.8Theprepositionsrepresentingcorrelation介词关于对对于介词短语关于这件事的影响(我很清楚)对这件事(很感兴趣)对于对手的进球(我很失望)一23 基于多层CRFs的汉语介词短语识别研究(9)表示条件表3.9表示条件的介词Tab.3.9Theprepositionsrepresentingconditions介词趁随着除连介词短语趁对手松懈(进攻)随着音乐(跳舞)除学习外(还有好多事情要做)连招呼(都没打)(10)表示原因或者目的表3.10表示原因或者目的的介词Tab.3.10Theprepositionsrepresentingreasonorpurpose介词介词短语因因为由于为为了因工作需要(出差)因为紧张(不敢说话)由于天气原因(取消了出游计划)为共产主义(奋斗)为了将来的发展(努力学习)3.4介词短语的用途根据语言学的研究,介词短语在句子中的主用用途是做定语、状语和补语。(1)介词短语做定语①现在,{对英雄事迹)的大量宣传已经成为一种习惯。②小明经常向我打听一些{关于小强)的消息。做定语的介词短语比较少见,只有“到”、“在”、“对于’’、“关于”和“关于”等少数几个介词构成的介词短语可以做定语。另外,如果介词短语做定语,那么其后面一般会带有结构助词“的”。(2)介词短语做状语①伊涅斯塔{把球)传了过去。②教练请了心理老师来{给队员)进行心理辅导。所有的介词短语都可以做状语,其做状语主要有一下三种情况:第一,介词短语在主语与谓语之间,其中由“向”、“把”、“给"、“比”、“被”等介词组成的介词 大连理工大学硕士学位论文短语都属于这种情况;第二,介词短语在主语之前,其中由“在”、“从”、“到”、“对”、“按照"和“为”等介词组成的介词短语都属于这种情况;第三,除上面两种情况,介词短语还可以放在主语与谓动词之间,其中由“关于”、“至于”、“当”和“自从”等介词组成的介词短语属于这种情况,这种类型的介词短语数量很少。(3)介词短语做补语①恐怖分子的飞机像离弦的箭一样冲“向市政大楼”。②C罗被对方后卫踢倒{在草坪上,。只有一部分介词构成的介词短语可以做补语(例如:“到”、“自”、“于”、“向”、“在"和“给"等)。3.5本章小结本章对介词短语进行了详细的介绍,包括介词短语的定义、介词短语表示的意义及介词短语的用途等。 基于多层CRFs的汉语介词短语识别研究4基于多层CRFs的介词短语识别4.1标记集的选取本文将介词短语识别任务转化为序列标注问题,在分词和词性标注的基础上,对每个词语进行标注,确定介词短语的前界和后界。因此,本文需要选用一种合适的标记方法进行标记。RamShow等人【38】在1995年最早提出了Inside/Outside标记法,即IOB1标记法。1999年TjongkimSang等人【39】在IOBl的基础上又提出了另外三种组块的表示方法,分别是IOB2,IOEl,IOE2。在此基础上,Uchimoto[40]在2000年提出了Start/End(S/E)的组块表示方法。对于短语组块X,下面给出这五种标记方法的简单介绍。表4.1标记方法的介绍Tab.4.1Introductionoflabelingmethods标记方法详细描述字母“B”(Begin)表示当前词为该组块的开始,并且其前面的词属于任何组块:字母“I”(In)表示当前词为该组块的内部。字母“B”表示当前词为该组块的开始;“I”表示当前词为该组块的内部。字母“E”(End)表示当前词为该组块的结束且下一个词属于另一个组块;字母“I”表示当前词是该组块的内部,也可以是该组块的结束词字母“E”表示当前词为该组块的结束;字母“I”表示当前词为该组块的内部如果组块X是单个词,则用字母“S”标记该组块:如果X由两个或两个以上的词语组成,则字母“B”表示该组块的开始,字母“E”表示该组块的结束,字母“I”表示该组块的内部。以上五种标记方法中,字母“O”(Out)都表示当前词不属于任何组块。本文选用“S/E”标记方法对介词短语进行序列标注。即每个词语的标记Y;∈{B,I,E,o},其中标记“B”表示介词短语的开始,即前界;标记“E”表示介词短语的结束,即后界;标记“I"和标记“O”分别词语位于介词短语的内部和外部。这里组块BE或者BI⋯E视为一个介词短语。例如,对于切分好的句子“不得利用职权向私营企业推销、销售商品”,按照{B,I,E,O)标注集将其分成观察和标注对序列:“不得O利用O职权O向B私营I企业E推销O、0搭售O商品O”。将其反映到序列标注问题上,则:输入序列为:X=f不得利用职权向私营企业推销、搭售商品)盯眩阻眩位加的加m即 大连理工大学硕士学位论文对应的标注序列为:Y={OOBIEOO)4.2特征抽取特征本意是指物质自身所具备的特殊性质,是用于与其它物质相区别的基本征象和标志。本文将CRFs模型的特征定义为一种规则,用来对数据的规律性和数据的统计特征进行描述。对CRFs模型而言,可以无限制的定义特征,但不是特征越多越好,而是要有代表性和有效性。因此,如何合理地选择特征就成了一个至关重要的问题。只有选择一些充分反映语料中数据的特点和规律的特征才能对CRFs模型训练、测试有益。在基于CRFs的介词短语识别中,将介词短语识别任务转化为序列标注任务。根据介词短语的特点,定义了以下特征。(1)词特征(Word)词作为句子的基本构成单元,是最基本的特征,CRFs模型可以通过词之间的差异性来寻找词本身的内部特征。(2)词性特征(Part一0f—Speech,POS)通过对介词短语所在的句子进行分析,对于不同的介词引导的介词短语,后界的词性具有很大的规律性,如介词“在”,后界经常是名词、方位词等。因此,词性特征对边界的识别具有很大的提示作用。(3)候选前界特征(CandiFBoundary)从当前词位置开始向前查找,查找位于同一分句中的介词。如果该介词存在,则该特征值为介词本身;否则特征值为“N";(4)候选后界特征(CandiLBoundary)介词短语识别问题就是确定介词短语后界的问题。判断当前词是否是候选后界可以缩小后界的选择范围。如副词、连词、标点符号是不可以充当介词短语的后界的。本文统计训练语料中每个介词和后界的搭配情况,分别计算不同的词性作为后界的概率,概率计算公式如下:后界出现的概率=嚣裳豸孳翥糕c4.·,盯脞乡r词出圳.明思次毅若此概率大于某个阈值(本文设定阈值为0.05),则将该介词及对应的候选后界词性放入候选后界表中。部分候选后界如表4.2所示。①如果候选前界特征值为“N”,则该特征值为“N”;否则,②查找候选后界表中,如果当前词的词性在候选后界表中,则该特征值为“Y”;否则该特征值为“N”。 基于多层CRFs的汉语介词短语识别研究表4.2候选后界表Tab.4.2CandidateLast_Boundarytable介词后界在按照(5)候选后词特征(CandiLWord)介词短语后面的词对介词短语的正确识别也起到了很大的提示作用,判断当前词是否是候选后词也能减小后界的选择范围。介词短语的候选后词一般是“的”、“动词”、“标点符号”等。本文统计训练语料中每个介词和后词的搭配情况,分别计算不同的词性作为后词的概率,计算公式如下:后词出现的概率=翥曩等筹亲景器c4.2,若此概率大于某个阈值(本文设定阈值为0.05),则将该介词及对应的候选后词词性放入候选后词表中。部分候选后词如表4.3所示。①如果候选前界特征值为“N”,则该特征值为“N”;否则,②查找候选后词表,如果该词是候选后词,则该特征值为“Y”;否则该特征值为“N"。(6)词长特征(wordLen)当前词的长度。通过比较加入词长特征前后的F值,可以发现加入该特征,F值提高了0.1%。 大连理工大学硕士学位论文表4.3候选后词表Tab.4.3CandidateLastWordtable4.3生成训练语料和测试语料CRFs模型的训练语料和测试语料的格式相同,通过对每个词提取4.2节定义的特征,并加入BIEO标记,生成训练语料和测试语料。本文以语料中的句子“区党委/对/加强/团/以上/党委/班子/和/领导/干部/思想/作风/建设/提出/了/比较/全面/系统的/规范/和/要求/。/”为例,生成的语料格式如表4.4所示。下面本文详细介绍训练和测试语料的生成过程:(1)对原始语料进行分词和词性标注。本文采用NIHAO分词系统进行分词和词性标注。(2)删除人工对介词短语的标注结果,记录介词短语的标注位置。(3)提取特征。根据4.2节定义的特征,对语料中的每个词进行特征提取。每一列就是一个特征,每个token包含当前词的所有特征,各列特征之前用制表符分隔。一个token序列构成一个句子。句子之间用空行分隔。(4)加入介词短语标注。根据(2)中记录的介词短语位置信息对语料中的每个词进行BIEO标注。这样就生成了训练语料和测试语料。腿UⅣU◇◇◇◇;量◇嘞眦舢眦黜D譬;黜p黜吼吣汁}乩卜岍翎岍岍钾岍阱岍一~一~㈣伽僦㈣伽㈣一㈣恫一在据以除为嫘向把经从对于舯一在据以除为掷向把经从对于 基于多层CRFs的汉语介词短语识别研究表4.4语料实例Tab.4.4Exampleofthegeneratedcorpus4.4特征模板对于CRFs模型而言,根据选择的特征设计出不同的特征模板,根据特征模板系统生成不同的特征函数,会影响系统的性能。因此,特征模板选择的好坏将直接影响CRFs模型的效果。所以,特征模板的选择也是CRFs模型在介词短语识别中的重要问题之一。 大连理工大学硕士学位论文4,4.1特征模板的种类CRFs模型的特征模板一般包括原子特征模板和复合特征模板。单独使用原子特征模板,只能表现出单个位置的特征信息,容易造成期望值和实际结果的偏差较大,导致参数的估计不准确。因此,对原子特征进行组合,构成复合特征模板,通过定义各特征的窗口来描述标注单元和上下文之间的某种依赖关系。可以较好的完成短语识别的任务。4.4.2特征模板的选取因为CRFs可以产生数以千万的特征模板,但并不是每个特征模板都是有效的,如果特征模板选取过多会产生冗余,进而影响系统的性能。本文采用递增式的学习方法来选择有效的最小完备特征模板集F木。该方法的基本思想是:(1)初始化最小完备特征模板集F}为空。(2)每次加入一条特征模板,若此时CRFs的识别结果提高了,就把该条特征模板加入到F木中,否则舍弃该条特征模板。(3)重复以上过程,直至所有的候选特征模板都被添加完。(4)得到的特征模板集F幸就是最小完备特征模板集。本文中,将窗口的大小定义为2,即考虑当前词、当前词前两个词及后两个词的特征。通过采用递增式学习方法,选取的原子特征模板和复合特征模板如表4.5和表4.6所示。表4.5原子特征模板Tab.4.5Unigramfeaturetemplate特征特征描述词特征词性特征前界特征后界特征后词特征词长特征Word(一2),Word(一1),Word(0),Word(1),Word(2)POS(一2),POS(一1),POS(0),POS(1),POS(2)CandiFBoundary(一2),CandiFBoundary(一1),CandiFBoundary(0),CandiFBoundary(1),CandiFBoundary(2)CandiLBoundary(一2),CandiLBoundary(一1),CandiLBoundary(0),CandiLBoundary(1),CandiLBoundary(2)CandiLWord(一2),CandiLWord(一1),CandiLWord(0),CandiLWord(1),CandiLWord(2)wordLen(一2),wordLen(一1),wordLen(0),wordLen(1),wordLen(2) 基于多层CRYs的汉语介词短语识别研究表4.5中,Word(-2)表示当前词前面的第二个词;Word(一1)表示当前词前面的第一个词;Word(0)表示当前词;Word(1)表示当前词后面的第一个词;Word(2)表示当前词后面的第二个词。表4.6复合特征模板Tab.4.6Complexfeaturetemplate编号特征描述Word(0)POS(0)Word(一1)POS(一1)CandiFBoundary(一1)Word(0)POS(0)CandiFBoundary(0)Word(1)POS(1)CandiFBoundary(1)CandiLBoundary(~1)CandiLWord(0)CandiFBoundary(一1)POS(一1)POS(0)CandiFBoundary(0)POS(0)POS(1)CandiFBoundary(0)CandiLBoundary(一1)POS(0)CandiFBoundary(一1)CandiLWord(0)4.5基于多层CRFs的介词短语识别图4.1描述了基于多层CI强s模型的汉语介词短语识别的系统流程。系统主要分为四个模块:(1)语料预处理模块(2)模型训练模块(3)介词短语识别模块(4)评测模块其中,语料预处理模块就是4.3节介绍的训练语料和测试语料的生成模块。评测模块是采用评价指标对多层CRFs的介词短语识别结果进行评价。具体的评价指标的选取将在下文中给予详细介绍。模型训练模块和介词短语识别模块是本系统的核心模块。下面对这两个模块进行详细的介绍。4.5.1模型训练模块CRFs的模型训练流程图如4.2所示。从图中可以看到,训练过程主要是特征函数的生成和特征函数的参数估计两个阶段。下面本文将详细介绍这两个阶段。12345678 大连理工大学硕士学位论文图4.1系统流程图Fig.4.1Theflowchartofoursystem(1)特征函数生成特征函数的生成就是将特征和标注依据特征模板的定义具体化的过程。本文以一个具体的实例来说明CRFs在介词短语识别中生成特征函数的过程。设观察序列沪“在教室里学习”,对应的标注序列尸“BIEO’’。本文以词为特征。特征模板选取Word(0),来说明序列X和Y的训练过程。系统从句子的起始位置开始遍历。CRFs将产生若干个状态特征函数sly厶五砂和转移特征函数t/yi_l,Yi,x,i),其中Y“和Yi分别表示当前位置的前一个位置和当前位置的标记。Y“和Yf分别可能是{EZED)标记集中的一个。将这些标记组合,对于状态序列Yf.1Yf会 基于多层CRFs的汉语介词短语识别研究有16种可能的组合值(“BB”,“BI”,“BE”,“BO”,“IB”,“11”,“IE”,“10”,“EB”,“E1",“EE”,“EO”,“OB",“优”,“OE”,“00”)。当遍历到“教室”这个词时,系统会产生16种转移特征函数和状态特征函数,它们是:帆一沪{:i,帆一沪{:i’岛cy,一。,y,,x,f)={:,‘cy,一,,咒,x,。={L,岛c。M一,,咒,x,z,={:,气cyi_l,yi,x,i)={L,t,c少,一。,乃,x,z,={:,帆⋯驴{:i,岛c少,一。,y,,z,z,={≥“⋯点沪{:i,“睢一力={:i,以⋯^垆{:i,琏f位置是”教室”,咒书Y,是”B”,”曰”其它z在难E置是”教室”,咒-l’只是”B”,”,”其它x在f位置是”教室”,咒书只是”曰轩,"E”其它x在f位置是”教室’,”书Y,是”曰”,”D”其它琏f位置是”教室”,Yi-I,乃是”,”,”B”其它工在f位置是”教室”,只书咒是”,”,”,”其它琏f位置是”教室”,以-l,M是”,”,”E”其它琏难E置是”教室”,只小乃是”,”,”0”其它xTfEi位置是”教室”,Yf-l,Yf是”E”,”B”其它新生f位置是”教室”,M书乃是”E”,”,”其它xZ左_i位置是”教室”,咒书只是”E’’,”E”其它x在f位置是”教室”,儿书乃是”E”,"0”其它 大连理工大学硕士学位论文枞⋯^沪{:i,“⋯^沪f:;,权⋯^沪{:i,‘。c只一。,y,,x,。={:,水%刈,=长姒枷,={:i,吼%刈,=怯以枷,={:i,x在难E置是”教室”,只小只是”0”,”B”其它xT£Ei位置是”教室”,Yi_l,乃是”0”,”,”其它x在f位置是”教室Pr,Y¨,Yi是”0”,”E”其它工在f位置是”教室”,Yi-l,只是”0”,”O”其它xT左.i位置是”教室”,Yi是”B”其它x在f位置是”教室”,Yi是”,”其它xZEEi位置是”教室”,Yi是”E”其它x在f位置是”教室”,Yi是”0”其它对于特征函数,只有当观察序列和观测序列满足条件时,该特征函数的值取1,否则特征函数的值为零。针对上面的各个特征函数,只有X3=“教室”,Yi.尸“B”,y严“,”时满足条件,即t2(Yi_”Yi,x,f)和s:(咒,X,f)的值为1,其它特征函数值都为0。(2)特征函数权重的训练CRFs模型在训练过程中生成了多个特征函数,每个特征函数对最终的标注结果的贡献程度不同。贡献程度的大小取决于各个特征函数的权重值允。每个A的大小是通过训练语料训练得到的。本文选用L-BFGS算法进行参数估计。算法步骤如下:步骤1:初始化将训练语料以句子为单位划为为K个单元{xk[k=l,...,K)。将特征权重A、梯度向量△A及目标函数三(允)初始化值为0。步骤2:计算特征梯度向量△A如果k人员/在/陆上/进行/跟踪/心ⅣERB>监视/后/”这个序列。如果CRFs模型的标注结果为O、O、B、I、I、I、I、E,则将该标注结果改为O、O、B、E、O、O、O、O。对于这条规则,触发环境是,如果一个序列中存在相邻的三个词的词性分别为PREP、COM.NOUN、FORM.VERB且PREP对应的词为“在”,标注结果为B、I、I,就对结果进行校正。对于TBL的每条规则都可以用几个三元组表示出来,三元组的表达形式为(POS,SourceTag,DestTag)或者(Word,SourceTag,DestTag),前者表示如果模型把词性为POS的词语标注为SourceTag,则将该词语的标注改为DestTag;后者表示如果模型把Word标注为SourceTag,则将该标注改为DestTag。一条规则就是由一系列这样的三元组构成的。这些三元组可能表示词序列的词性、原标注结果及目标标注结果或者词本身、原标注结果和目标标注结果这两种类型。本文采用S/E标注方法对介词短语识别问题进行序列标注,所以在使用规则校正初始标注结果时,都需要保证介词短语的完整性,而不能仅考虑当前要修改的几个词语,还要对上下文进行修改,以保证整个序列标注的完整性及合理性。 基于多层CRFs的汉语介词短语识别研究通过错误驱动学习得到的是一个有序规则集,即按照每条规则对介词短语识别精确率的提高贡献大小排列的。所以,在用规则集对初始标注语料进行结果校正时,要按照规则集中规则的顺序,依次使用每条规则进行结果校正。4.8本章小结本章介绍了基于多层CRFs的介词短语识别的方法。并详细介绍了CRFs模型标记集的选择、特征的选择及采用递增式的学习方法来选择特征模板。详细介绍了系统中两个核心模块,即模型训练模块和介词短语识别模块。另外介绍了基于转换的错误驱动学习方法的学习过程。并给出了本文的对介词短语识别的错误驱动学习过程。 大连理工大学硕士学位论文5实验5.1实验语料本文选用人民日报2000年语料作为本文的实验语料。该语料经过分词和词性标注(NIHAO分词系统),并进行人工校正,保证实验结果的准确性。语料中的句子是删除了不包含介词短语的句子,共包含7000多个介词短语,并进行了人工标注。本文将语料平均分成五份,即语料1,语料2,语料3,语料4,语料5。具体的个数如图5.1所示。实验采用五倍交叉验证,即用其中四份作为训练语料,另一份作为测试语料,进行五次实验。本文将五次实验结果的平均值作为最后的结果。图5.1介词短语的个数Fig.5.1ThenumberofPrepositionalphrases图语料l■语料2口语料3口语料4■语料55.2评价方法在CoNLL2000的共享任务组块处理中,为基于统计的方法提供了统一的评价标准[421。本文针对介词短语识别任务,也采用了该评价标准。即采用精确率、召回率和Fl评测值三个评价指标对介词短语的识别结果进行评价。(1)精确率和召回率精确率表示识别正确的样例在所有识别出的样例中所占的比例。反应模型对整个测试语料的判定能力的好坏;召回率表示识别出的正确样例在整个语料中标注的所有样例中所占的比例。具体公式如下: 基于多层CRFs的汉语介词短语识别研究P:丝×100%(5.1)川lR:—N—3×100%(5.2)川2其中,P表示精确率;R表示召回率;N1表示本系统识别出的介词短语个数;N2表示语料中实际含有的介词短语个数;N3表示本系统正确识别出的介词短语个数。(2)F1评测值在自然语言处理中,并不是只采用精确率或者召回率就能判断分类器的性能好坏,因此,需要采用一种综合评价的方法和对分类器的性能进行评价。其中,最常用的综合方法就是F评测,其定义如下:一(∥2+I)PxR∥2(P+尺)(5.3)其中系数∥是用来调整精确率和召回率的权重。为了均等的考虑精确率和召回率的结果,一般情况下,令∥等于1。此时本文得到Fl评测的公式:5.3实验结果互=等(5.4)5.3.1基于单层CRFs的实验结果采用5.2节和5.3节中定义的标记集、特征集及特征模板,对所有的介词短语同时进行识别,表5.1列出了基于单层CI强s的识别结果。表5.1基于单层CRFs的介词短语识别结果Tab.5.1Resultsofsingle-layeridentificationmethodbasedonCRFs 大连理工大学硕士学位论文为了更直观的表示基于单层CRFs的交叉验证的实验结果,做表5.1的柱状图5.1。精确率(%)召回率(%)F1值(%)图5.1基于单层CRFs交叉验证结果的柱状图Fig.5.1Histogramofcross-validationresultsbasedonsingle-layerCRFs5.3.1基于多层CRFs的实验结果本文提出基于多层CI讧s识别介词短语的方法,即对于句子中含有多个介词短语的情况,采用分层识别的方法。分层识别方法的基本思想是:对于低层识别出的介词短语,采用特殊的符号进行替换,通过这样的替换,句子的结构得到了简化,进而减少了高层介词短语边界选择的范围,降低了边界选择的歧义性。表5.2给出了多层CIUs方法的识别结果。表5.2基于多层CRFs的介词短语识别结果Tab.5.2Resultsofmulti-layeridentificationmethodbasedonCRFs为了更直观的观察基于多层CRFs方法的交叉验证结果,作了表5.2的柱状图5.2。【。如io明一。韶巧盯I。∞蹭88盯踞 基于多层CRFs的汉语介词短语识别研究精确率(%)召回率(%)F1值(%)图5.2基于多层CRFs交叉验证结果的柱状图Fig.5.2Histogramofcross-validationresultsbasedonmulti-layerCRFs5.3.3错误驱动校正后的实验结果本节利用4.7节中利用错误驱动方法得到的有序规则集对基于多层CRFs模型的介词短语识别结果进行校正。本文为评价函数选取的阈值为3。得到的结果如表5.3所示。表5.3错误驱动校正结果Tab.5.3Theerror-drivenrevisingresultsofCRFs为了更直观地表示错误驱动校正后的结果,作表5.3的柱状图5.3。5.3.4本文几种方法的比较本文采用了单层CRFs的介词短语识别、多层CRFs的介词短语识别及多层CRFs与错误驱动学习方法相结合的介词短语识别三种方法。实验结果如表5.4所示。通过表5.4的比较分析发现,在使用相同的特征及特征模板情况下,基于多层CRFs识别方法要优于基于单层CRFs的识别方法,说明多层识别方法在介词短语识别方面表现了较好的优势。通过错误驱动学习对CRFs的识别结果进行校正,识别效果有了进一 大连理工大学硕士学位论文精确率(%)召回率(%)F1值(%)图5.3错误驱动校正结果Fig.5.3Theresultsoferror-drivenrevising囝语料l●语料2口语料3口语料4■语料j步提高。通过分析,错误驱动学习方法在统计模型进行识别之后进行校正是一种有效提高介词短语识别效果的方法。表5.4几种方法的识别结果比较Tab.5.4Comparisonofvariousmethodstoidentify为了更直观地表示三种方法的实验结果,本文做表5.4的柱状图5.4。精确率(%)召叫率(%)F1值(%)图5.4三种方法识别结果的柱状图Fig.5.4Histogramofidentificationresultsusingthreedifferentmethods47一%巧舍j巧叭巧∞眈叭∞眩叭∞明昌8盯 基于多层CRFs的汉语介词短语识别研究5.3.5与其它介词短语识别方法的比较文献E20]采用单纯的统计和规则的方法,没有充分利用上下文信息。文献[221禾U用HMM完成介词短语的边界确定,并采用依存句法分析进行错误校正,但由于介词短语通常长度较长,所以在用HMM进行识别时,不能很好的反应上下文信息,所以识别效果不是特别理想。文献[23]采用的CRFs模型,实验的训练语料和测试语料相同,但文献[23】采用两层CRF和规则的方法,只是提取了一些固定搭配的规则,没有针对基于CRF的识别结果进行具体的分析,所以规则结果的修正效果不大。本文利用错误驱动的学习方法,通过对比CRFs的识别结果和人工标注的正确结果,生成了规则集,利用规则对基于CRFs的识别结果进行校正。通过比较分析发现,本文采用的多层CRFs方法对介词短语识别是有效的,错误驱动学习方法进一步提高了识别效果。表5.5与其它识别方法的比较Tab.5.5Comparison、析廿lotherrelatedworks为了直观的比较本文与其它介词短语识别方法的识别结果,做表5.5的柱状图5.5。精确率(%)召回率(%)图5.5与其它识别方法的比较Fig.5.5Comparisonwinlotherrelatedworks 大连理工大学硕士学位论文5.4错误分析通过实验结果可以看出,本文提出的基于多层CRFs的介词短语识别方法是有效的。通过加入基于转换的错误驱动学习方法对基于CRFs的识别结果进行校正,进一步提高了识别的效果。但通过对识别错误的情况进行分析,发现错误结果存在一些规律,下面是对错误情况进行归纳总结,主要包含以下几个方面:(1)词性标注错误导致识别结果错误①原文:这些海盗又残忍地将23名船员全部杀害②人工标注:这些/海盗/又/残忍/地/{将/23/名/船员/’全部/杀害/③错误标注:这些/海盗/又/残忍/地/f将/23/名/船员/全部/,杀害/①原文:并将赃款97万元人民币全部瓜分②人工标注:并/{将/赃款/97/万/元/人民i11/,全部/瓜分/③错误标注:并/f将/赃款/97/万/元/人民币/全部/)瓜分/对于观察上面两个例子,在错误识别结果中,“全部”一词的词性均被标注为名词(),导致介词短语边界识别错误。通过观察人工正确标注结果,如果将“全部”的词性改为副词(q∞V>),则该介词短语可以被正确识别出来。(2)句子内部包含其它类型的短语①原文:熬药罐被航天航空工业部门制造的制药设备取代了②人工标注:熬药/罐/{被/航天航空工业部门/制造/的/制药/设备/}取代/删EIm>了/③错误标注:熬药/罐/f被/航天航空工业部门/,制造/的/制药/设备/取代/删EItB>了/ 基于多层CRFs的汉语介词短语识别研究对于这个句子,像“被++”这样的组合在训练语料中出现的次数最为频繁,所以导致介词短语识别错误。针对这个复杂内部结构的句子,如果在正确识别名词短语“航天航空工业部f-]/制造/的/制药/设备/’’的基础上进行介词短语识别,就不会造成错误。所以在以后的研究中,可以在其它短语的识别基础上进行介词短语识别。(3)可信候选后界造成的错误①原文:执法人员在陆上进行跟踪监视后②人工标注:执法/人员/{在/陆上/}进行/跟踪/监视/后/③错误标注:执法/人员/{在/陆上/进行/跟踪/监视/后/}对上面的句子而言,“在⋯⋯后”这个搭配在包含“在”的介词短语中出现的频率远大于0.5,所以训练语料在训练时也对它们对应的特征函数赋予了很高的权值,导致识别错误。这种错误是有模型自身的不足造成的。(4)句子结构复杂,边界歧义严重①原文:积极引导人民群众把有事找政府的观念转向有事找法律②人工标注:积极/引导/人民/群众/f把/有/事/找/政府/的/观念/)转向/有/事/找/法律/。/③错误标注:积极/引导/人民/群众/{把/有/事/)找/政府/的/观念/转向/有/事/找/法律/。/对这个例子,句子中能充当介词短语的后界和后词的词语很多,并且上下文都相同,歧义严重,导致识别错误。可以通过增加更多的语义信息来消除这种歧义现象。 大连理工大学硕士学位论文5.5本章小结本章对人民日报语料的7000多个介词短语进行了实验,分别采用了基于单层CRFs模型、基于多层CRFs模型及基于多层CRFs模型与错误驱动学习方法相结合的方法。并通过统一的评价指标,给出了三种方法的实验结果。通过实验结果可以看出:本文采用的CRFs模型在介词短语识别问题上是有效的。针对句子中含有多个介词短语的情况,本文提出的多层方法取得了较好的效果,实验结果有了较大的提高。在基于CRFs模型的识别基础上,我们利用基于转换的错误驱动学习方法对介词短语识别结果进行校正,识别的准确率有了进一步的提高。最后,本文又对实验中出现的识别错误情况进行了归纳和总结,为今后进一步的研究提供帮助。 基于多层CRFs的汉语介词短语识别研究结论介词短语识别在浅层句法分析中占有重要的地位。介词短语的正确识别可以简化句子结构,为句法分析提供帮助。实验表明,基于CRFs模型的方法,有效地完成了介词短语识别任务。本文将每个含有介词短语的句子看成一个序列,将介词短语识别问题转化为序列标注问题。并对句子中含有多个介词短语的情况,采用基于多层CRFs的方法,每层均采用CRFs作为训练模型。为了进一步提高识别的效果,在基于多层CRFs模型识别的基础上,利用基于转换的错误驱动学习方法识别结果进行校正。本文基于多层CRFs模型的介词短语识别方法主要具有以下优点:(1)将介词短语识别问题转化为序列标注问题,利用CRFs模型进行识别。(2)对于句子中含有多个介词短语,即包含多个并列介词短语和嵌套介词短语的情况,给出了很好的解决办法,即采用多层识别的方法,自右向左每层识别句子中的一个介词短语,对识别出的介词短语用特殊的符号替换,这样既缩短了句子的长度,又降低了句子结构的复杂程度。(3)针对CRFs模型的识别结果,采用基于转换的错误驱动学习方法进行校正,这样通过错误驱动学习方法得到的转换规则集将作用于CRFs的识别结果中,有效地克服了基于统计方法的不足。从实验结果可以看出,本文提出的基于CRFs的介词短语识别方法表现出了良好的性能。充分说明了本文的特征选择及特征模板的选用针对介词短语识别问题效果良好。多层识别方法优于单层识别方法,因为将同一句子中的介词同时识别,容易造成边界的歧义选择,而多层方法有效地降低了歧义性。基于多层条件随机场的介词短语识别结果中,精确率、召回率和F1值分别为91.45%、91.39%和91.42%。在采用基于转换的错误驱动学习方法获取的转换规则对基于CRFs模型的介词短语识别结果校正后,精确率、召回率和Fl值分别达到91.98%、91.92%和91.96%,验证了该方法在介词短语识别问题上的有效性。将介词短语识别结果作用于句法分析、机器翻译等自然语言处理任务中,可以有效提高这些任务的处理效果。介词短语识别是一个有意义的研究任务,本文的介词短语识别方法将为其它短语识别、文本分类等任务提高良好的借鉴。针对介词短语识别错误的情况,进行了总结和归纳。本文的研究工作还存在一定的不足,今后有待于进行更深入的研究和探索: 大连理工大学硕士学位论文(1)尝试对介词短语的内部结构进行分析,在其他短语识别的基础上,再进行介词短语的识别,这样会有效降低句子的复杂程度。(2)增加训练语料的规模,使训练的模型更加有效。可以尝试半监督的学习方法,减少人工标注语料费时费力的问题。(3)尝试建立语义词典,增加一些语义特征,把词进行更细的分类,这样可以有效降低词语的歧义问题,从而降低边界的歧义问题。 基于多层CRYs的汉语介词短语识别研究参考文献[1]BITTERC,ELIZONDOD,YANGYJ.NaturalLanguageProcessing:Aprologperspective[J].ArtificialIntelligenceReview,2010,33(1):151—173.[2]吴云芳.现代汉语介词结构的自动标注[D].北京:北京语言文化大学,1998.[3]尹凌,姚天叻,张冬茉等.一种基于混合分析的汉语文本句法语义分析方法[J].中文信息学报,2002,16(4):45—51.[4]齐浩亮,杨沐昀,孟遥等.面向特定领域的汉语句法主干分析[J].中文信息学报,2004,18(1):1-5.[5]金吉昌.汉语介词和介词短语[M].天津:南开大学出版社,1996.[6]俞士汶.现代汉语语法信息词典详解[M].北京:清华大学出版社,1998.[7]HINDLED,ROOTHM.Structuralambiguityandlexicalrelations[J].Computationallinguistics,1993,19(1):103—120.[83BRILLE,RESNIKP.Arule—basedapproachtoPrepositionalphraseattachmentdisambiguation[C].Proceedingsofthe15thConferenceonComputational1inguistics,AssociationforComputationalLinguistics,1994:1198—1204.[9]COLLINSM,BROOKSJ.Prepositionalphraseattachmentthroughabacked—offmodel[C].Proceedingsofthethirdworkshoponverylargecorpora,1995:27—38.[i0]STETINAJ,NAGA0M.CorpusbasedPPattachmentambiguityresolutionwithasemanticdictionary[C].ProceedingsoftheFifthWorkshoponVeryLargeCorpora,1997:66—80.[11]LIA0B,LUOH,XIAOL.Abi—thresholdmodelforPP—attachmentdisambiguationthroughbackingoffto2-tuplesdirectly[C].InternationalConferenceofNaturalLanguageProcessingandKnowledgeEngineering(NLP—KE),2009:卜5.[12]PANTELP,LIND.AnunsupervisedapproachtoPrepositionalphraseattachmentusingcontextuallysimilarwords[C].Proceedingsofthe38thAnnualMeetingonAssociationforComputationalLinguistics,2000:101—108.[13]VOLKM.ExploitingthewWWasacorpustoresolvePPattachmentambiguities[C].ProceedingsofCorpusLinguistics,2001:601—606.[14]范晓.短语[M].北京:商务印书馆,2000.[15]范继淹.论介词短语“在十处所”[J].语言研究,1982,l:1-7.[16]周小兵.介词的语法性质和介词研究的系统方法[J].中山大学学报,1997,20(3):】09-1】5.[17][183兰玉英.分析介词短语“以x”结构[J].四川师范学院学报,1995,23(5):97一100。赵宝珍.谈介词短语作主语宾语[J].锦州师范学院学报,1997,29(2):116—118.54— 大连理工大学硕士学位论文[19]王立霞,80—86.[20]干俊伟,[21]于浚涛.[22]奚建清,】72-】82.孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):基于最大熵的汉语介词短语自动识别[D].大连:大连理工大学,2006.罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,17—23.33(2):[23]胡思磊.基于CRF的汉语介词短语识别[D].大连:大连理工大学,2008.[24]孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74—83.[25]RABINERL,JUANGB.AnintroductiontohiddenMarkovmodels[J].ASSPMagazine,IEEE,1996,3(1):4—16.[26]SUTTONC,MCCACLLUMA.PiecewisepseusolikelihoodefficienttrainingofConditionalRandomFields[C].InProceedingsofInternationalConferenceonMachineLearning,2007:863—870.[27]LAFFERTYJ,MCCALLUMA,PEREIRAF.Conditionalrandomfields:probabilisticmodelsforsegmentingandlabelingsequencedata[C].ProceedingsoftheInternationalConferenceonMachineLearning,2001:282—289.[28]BERGERAL,PIETRASD,VINCENTJD,eta1.AmaximumentropyapproachtoNaturalLanguageProcessing[J].ComputionalLinguistics,1996,22(1):39—71.[29]SHAF,PEREIRAF.Shallowparsingwithconditionalrandomfields[C].Proceedingsofthe2003ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguisticsonHumanLanguageTechnology—Volumel.AssociationforComputationalLinguistics,2003:134—141.[30]李明,王亚斌,张其文等.基于树状CRFs模型的语义角色标注[J].计算机工程,2010,36(18):41—48.[31]周俊生,戴新宇,尹存燕等.基于层叠CRFs模型的中文机构名自动识别[J].电子学报,2006,34(5):804—809.[32]LILS,ZHOURP,删ANGDG.BriefCommunication:Two—phasebiomedicalnamedentityrecognitionusingCRFs[J].Computationalbiologyandchemistry,2009,33(4):334—338.[33]ZHANGXF,HUANGHY,ZHANGL.TheApplicationofCRFsinPart—of—SpeechTagging[C].Proceedingsofthe2009InternationalConferenceonIntelligenceHuman—MachineSystemsandCybernetics,2009:347—350.[34]洪铭材,张阔,唐杰等.基于CRFs(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148—151.[35]JINR,YANR,ZHANGJ,eta1.Afasteriterativescalingalgorithmforconditionalexponentialmodel[C].ProceedingsoftheTwentiethInternationalCoferenceonMachineLearning,2003,20(1):282—289.一55— 基于多层CRFs的汉语介词短语识别研究[36]DARROCHJN,RATCLIFFD。Generalizediterativescalingforlog一1inearmodels[J].Theannalsofmathematicalstatistics,1972,43(5):1470—1480.[37]SCItREIB㈣E,XINGL.Narrowbanddeformableregistrationofprostatemagneticresonanceimaging,magneticresonancespectroscopicimaging,andcomputedtomographystudies[J].InternationalJournalofRadiationOncology,Biology,Physics,2005,62(2):595—605.[38]RAMSHOWLA,MARCUSMP。Textchunkingusingtransformation-basedlearning[C].ProceedingsoftheThirdACLWorkshoponVeryLargeCorpora,1995:82—94.[39]TJONGKIMSANGEF,DEMEULDERF.IntroductiontotheCoNLL一2003sharedtask:Language—independentnamedentityrecognition[C].ProceedingsoftheseventhconferenceonNaturallanguagelearningatHLT—NMCL2003~Volume4.AssociationforComputationalLinguistics,2003:142—147。[40]UCHIMOT0K,MAQ,姗RATAM,etal。Namedentityextractionbasedonamaximumentropymodelandtransformationrules[C].Proceedingsofthe38thAnnualMeetingonAssociationforComputationalLinguistics.AssociationforComputationalLinguistiCS,2000:326—335.[41]BRILLE.Transformation—basederror—drivenlearningandnatural1anguageprocessing:Acasestudyinpart—of—speechtagging[J].Computationallinguistics,1995,21(4):543—565.[42]TJONGKIMSANGEF,BUCHttOLZS.IntroductiontotheCoNLL一2000sharedtask:Chunking[C].Proceedingsofthe2ndworkshop0nLearninginlogicandthe4thconferenceonComputationalnatural1anguagelearning—Volume7。AssociationforComputationalLinguistics,2000:127—132. 大连理工大学硕士学位论文攻读硕士学位期间发表学术论文情况1,lieZhang,DegenHuang,HeGuo.Multi-layerCRFsbasedMethodforChinesePrepositionalPhraseIdentification.InternationalJournalofAdvancedIntelligence.主办单位:ChineseAssociationforArtificialIntelligence,InternationalAssociationforArtificialIntelligence.(本硕士学位论文第四、五章)(己录用)一57— 基于多层CRFs的汉语介词短语识别研究致谢三年的研究生学习生活即将结束,三年时间让我学到了很多,也成长了很多。很幸运得到了很多老师和同学们的关心与帮助,在此,我要向他们表示最衷心的感谢。首先,感谢我的导师郭禾教授,他给我提供了良好的学习和科研环境,让我很快适应了研究生的生活,融入了这个大家庭。郭老师和蔼可亲、平和待人的性格让我在学习和生活中受到了很大的鼓舞。其次,更要感谢我的指导老师黄德根教授,很荣幸在黄老师的指导下进入自然语言处理方向的研究。从论文选题到完成,都得到了黄老师的悉心指导,我在科研道路上的每一点进步都与黄老师是分不开的。黄老师做事认真、严于律己的工作态度深深地感染着我。再次,感谢教研室的同学们,是你们让我感觉到生活和学习的快乐。当我遇到困难和挫折时,你们的关心和鼓励给了我很大的动力。当在科研上遇到障碍时,你们也会提出很多想法,为了进一步的研究提供了很大的帮助。最后,最要感谢的是我的父母,无论什么时候,你们都是我最坚强的后盾,多少感谢的话也表达不了我对你们的感激之情,希望我的点滴成绩可以给你们带来欣慰,希望你们永远健康。再一次感谢所有关心我、帮助我、支持我的老师、同学、朋友,祝你们开心快乐,生活幸福! 大连理工大学硕士学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。学位论文题目:盐垒豆鱼窿&鱼这盈企词筮盈拯型盆窒作者签名:弦.奎日期:迎13年上月三L日导师签名:郄毛日期:逊年』月业日

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭