鉴于基于句法分析的中文事件抽取方法研究

鉴于基于句法分析的中文事件抽取方法研究

ID:34830284

大小:3.97 MB

页数:67页

时间:2019-03-12

鉴于基于句法分析的中文事件抽取方法研究_第1页
鉴于基于句法分析的中文事件抽取方法研究_第2页
鉴于基于句法分析的中文事件抽取方法研究_第3页
鉴于基于句法分析的中文事件抽取方法研究_第4页
鉴于基于句法分析的中文事件抽取方法研究_第5页
资源描述:

《鉴于基于句法分析的中文事件抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海大学硕士学位论文基于句法分析的中文事件抽取方法研究姓名:刘耀华申请学位级别:硕士专业:计算机应用技术指导教师:刘宗田20090201上海大学硕上学位论文摘要在目前信息爆炸的时代,迫切需要一些更加自动化、智能化的工具帮助人们在海量文本数据中迅速找到真正需要的信息。信息抽取技术应运而生,成为自然语言处理研究领域的重要方面。事件抽取是信息抽取中的一个重要的研究方向。事件抽取能从非结构化文本中抽取出事件信息并以结构化的形式呈现出来,是信息抽取研究中最具挑战性的任务之一。目前,国内外对该问题已经进行了一些研究或探讨,还没有一种成熟的事件抽取技术在实际中广泛应用。本文以微观粒度的事件作为研究对象

2、,描述了一种对中文文本的基于句法分析的事件信息抽取方法。主要的研究内容及创新点如下:(1)根据汉语句法的特点,提出了一种新的基于句法分析的事件抽取方法及相关的一系列算法,首先对文本信息进行词法分析和句法分析得到句法分析树,然后根据归纳的规则对句法分析树进行处理,从中自动地抽取事件的元素信息,摆脱了对大量事件模板的依赖,在保证较高的抽取准确率的同时,又增强了通用性。(2)在进行句法分析时,针对句法分析器对长句处理效率低下甚至无法进行处理的问题,提出了拆分句子的算法,即当长句子的字数超过设置的阈值时,以句子中最接近中点的标点符号为标识将长句一分为二,分别进行事件抽取,大大提高了对长句的事件抽

3、取效率。(3)对于句子中存在隐含主体的情况,根据句法分析树的结构特点提出了隐含主体抽取算法,采用向上回溯的方法查找与事件最相关的名词作为事件的主体,并对常见的两种情况分别讨论处理,以保证事件信息的完整性,提高了事件抽取的准确性。(4)采用中科院的ICTCLAS分词工具和StanfordParser句法分析器,根据提出的中文事件抽取方法及相关算法,设计实现了原型系统,可以对批量文本自动进行事件抽取,达到了较高的效率和准确性,验证了该事件抽取方法的可行性。另外,为了实验方便有效地进行,我们对分词工具做了添加新词到字典库和批量文件分词等改进;在实验数据的统计阶段,由于从每个语句抽取的事件信息上

4、海大学硕士学位论文都需要人工判断以进行统计,我们做了一个小工具以减少统计出错的几率和提高工作效率。实验结果表明了本文提出的方法是切实可行的,对于中文事件的抽取达到了较高的准确率和召回率,且该方法不需依赖于大量的模板,具有更高的通用性。关键词:事件抽取、中文信息处理、事件元素识别、信息抽取、句法分析II上海大学硕士学位论文ABSTRACTIntheageofinforrnationialexplosion,somemoreautomatedandintelligenttoolsareurgentlyneededtohelppeoplequicklyfindthetrulynecessary

5、informationfrommassivetextdata.Informationextractiontechnologyemergestobeanimportantaspectinthefieldofnaturallanguageprocessingresearch.Eventextractionisanimportantresearchareaofinformationextraction.Eventextraction,byextractingeventinformationfromtheunstructuredtextandpresentinginformationasstru

6、cturedform,isoneofthemostchallengingtasksinthefieldofinformationextractionresearch.Atpresent,thoughprogressesexistinthestudyofeventextraction,thereisstillnotamatureeventextractiontechnologywidelyusedinpractice.Inthedissertation,micro.granulareventsarechosenasresearchobiect,andaChineseeventextract

7、ionmethodisdescribed,whichisbasedonsyntacticparsing.Theresearchcontentsandinnovationpointsmainlyincludethefollowing:(1)AccordingtothecharacteristicsofChinesegrammar,aneweventextractionmethodisproposedandaseriesofreleva

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。