一种用于专利主题词抽取的模板自动生成方法

一种用于专利主题词抽取的模板自动生成方法

ID:46597694

大小:244.24 KB

页数:4页

时间:2019-11-26

一种用于专利主题词抽取的模板自动生成方法_第1页
一种用于专利主题词抽取的模板自动生成方法_第2页
一种用于专利主题词抽取的模板自动生成方法_第3页
一种用于专利主题词抽取的模板自动生成方法_第4页
资源描述:

《一种用于专利主题词抽取的模板自动生成方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2010年6月沈阳航空工业学院学报第27卷第3期JournalofShenyangInstituteofAeronauticalEngineeringJun.2010V01.27No.3文章编号:1007—1385(2010)03—0046—04一种用于专利主题词抽取的模板自动生成方法王裴岩张桂平蔡东风白宇叶娜(沈阳航空航天大学知识工程研究中心,辽宁沈阳110136)摘要:专利主题词是用以表述发明或实用新型名称的技术关键词,专利主题词的抽取是专利技术方案信息抽取的第一步,是填充信息抽取结果模板的有效依据和填充

2、子之一。将信息抽取技术应用于中文专利摘要文本,在充分分析了专利摘要文本和专利标题特点的基础上,采用无指导的方法构建信息抽取模板,进而完成专利主题词的抽取。实验表明,该方法获得了较好的抽取效果。关键词:中文专利摘要文本;专利主题词;无指导;模板中图分类号:TP391.1文献标识码:A将信息抽取技术应用于中文专利摘要文本,抽取专利主题词,即用以表述发明或实用新型名称的技术关键词。工作是专利技术方案信息抽取的第一步。一方面,解决使用词袋(Bag—of—Words)模型表示专利文本信息时,主要描述对象存在歧义的问题【

3、l。31以及专利标题对主要描述对象描述不准确和不全面的问题。另一方面,解决目前关系抽取任务仅关注出现在同一语句中的关键词间的关系H。6J,较难将核心描述对象与其他关键词关联在一起的问题。再者,在识别出核心描述对象之后,便可以利用其他关键词与该词的潜在关系,仅使用语义角色便可判断其他词与该词的关系,减少关键词关系判断中参与判断的关键词对的数量。因此本文的工作是填充信息抽取结果模板的有效依据和填充子之一。1模板自动生成方法1.1概念定义为表述方便,将涉及的概念在此作如下定义:专利主题词:专利主题词是专利摘要的主要

4、描述对象,是用以表述发明或实用新型名称的技术关键词。标题词:专利标题主要可分为两种形式:简单语句和单一技术关键词。将单一技术关键词类型收稿日期:2010一04—26作者简介:王裴岩(1983一),男,辽宁沈阳人,在读硕士,主要研究方向:人工智能与自然语言处理,E—mial:W83P27Y09@163.的标题称为标胚词。专利文献所介绍的发明创造往往是一种产品、装置、设备或是一种方法、工艺。很少会出现对多个发明创造同时进行描述的现象。因此提出单一主题词假设。单一主题词假设:专利说明书及专利摘要的主要描述对象有且仅

5、有一个,即在包含主题词的语句中有且仅有一个主题词。1.2模板自动构建方法的依据及模板形式描述发明创造的名称会在文本开头首先阐述。因此将分句后的首句提取出,从中抽取主题词。要抽取的主题词应与专利标题所包含的信息一致。如图l所示:实例l:标题:一种容量瓶架本实用新型涉及一种容量瓶架实例2:标题:过滤介质本发明涉及纳米纤维空气过滤介质图1标题与文本对实例利用这一现象使用专利标题与包含主题词信息的语句作为模板构建语料,用专利标题在包含主题词信息的语句中定位模板的槽,并通过选取特征词和适当的泛化,构建主题词抽取模板。该

6、模板是对句子中被抽取部分、特征词以及它们之间次序的抽象。句子中的被抽取部分由“TITLE”节点代替,作为模板的槽;特征词保留;被抽取部分与特征词之间的字符串用通配符“宰”代替。特征词是在包含主题词的语句中经常出现和最能代表语句特点信息的词汇,是从大量的语句中统计并筛选获得的。考察以下例子:“一种改进的新型衬衫”系统自动生成如下模板:“一种掌的1rI.第3期王裴岩等:一种用于专利主题词抽取的模板自动生成方法47’11JE”1.3基于反向模糊匹配的模板槽定位方法专利标题主要有简单语句和标题词两种形式,对于简单语句

7、较难直接应用。而对于标题词形式的专利标题不需要进行任何处理便可以用来在语句中定位模板槽。因此使用标题词与语句对作为训练语料生成信息抽取模板,模板生成具体过程如下:对语句及标题词进行分词和术语识别"J,将语句中的每个词作为一个节点。顺序遍历词节点,若为特征词则保留,否则与标题词进行匹配将与标题词相同的词节点泛化为模板的槽,将其他词泛化为通配符。某些主题词是标题词的扩展和细化(如图l中实例2),若采用精确匹配的方法将无法找到与标题词相同的词节点。大部分技术关键词为定中结构的名词短语。在不能匹配标题词的语句中,存在

8、主题词的中心词与标题词中心词相同的现象。基于此现象本文采用了一种基于反向模糊匹配的方法定位模板槽。反向模糊匹配算法以字为单位,从字串的尾部开始匹配,计算相同字的个数直到不匹配为止。通过式1计算匹配度。在式1中LenAB表示串A与串B匹配的字数,LenA表示串A的字数LenB表示串B的字数,可见匹配度P的取值的区间为[0,1]。P(A,B):;单(1)/_,e//,a十/_,er/,B基于单一主题词假

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。