浅谈生物医学文献里的模糊限制语应用范围

浅谈生物医学文献里的模糊限制语应用范围

ID:25337359

大小:70.00 KB

页数:14页

时间:2018-11-19

浅谈生物医学文献里的模糊限制语应用范围_第1页
浅谈生物医学文献里的模糊限制语应用范围_第2页
浅谈生物医学文献里的模糊限制语应用范围_第3页
浅谈生物医学文献里的模糊限制语应用范围_第4页
浅谈生物医学文献里的模糊限制语应用范围_第5页
资源描述:

《浅谈生物医学文献里的模糊限制语应用范围》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浅谈生物医学文献里的模糊限制语应用范围-->1绪论1.1研究背景与意义模糊语言是人类语言主观性的体现,在言语交际及写作中具有广泛的应用。模糊语言主要有三种语言运用情形:模糊词语、模糊限制语及模糊蕴含。模糊词语(vaguePlicaturc)指某些表达明确的句子中包含着不言自明的细枝末节,即表达清晰的句子传递出模糊的意义。例如句尾的问号就是将表达清晰的句子变得模糊。而模糊限制语是一种最普遍、最典型的模糊语言。模糊限制语这个术语最早是由G.Lakoff提出的,用来指那些“把一些事情弄得模模糊糊的词语”,表示的是不确定性、临时性和可能性的意义。模糊限制语常常用于科学文献中,特别是在生

2、物医学文献中包含了大量表示推测或不确定的词语,如aPProximat、Possible等模糊限制语。在自然语言处理领域,尤其是信息抽取中,许多应用都旨在抽取出事实的信息。因此在文本信息抽取时,应将模糊限制信息与事实信息加以区别。模糊限制语的检测主要分为两个方面:(l)识别句子中的模糊限制语(2)对识别出来的模糊限制语控制的范围进行界定。统计表明,在Bi0Scope语料中,摘要中17.69%的句子,正文中22.29%的句子包含模糊限制语;而在MEDLINE摘要中,11%的句子包含模糊限制语。szarvas指出,模糊限制语分类语料中,32.41%的基因名出现在含有模糊限制语的句子中

3、。这表明,基因关系抽取系统产生的许多错误的正例是由于不进行模糊限制信息检测导致的。近年来,随着网络信息的迅猛增长以及模糊限制语的广泛使用,模糊限制信息的检测变得日益重要,并成为信息挖掘研究领域的重要课题。此外,许多自然语言处理研究生物医学文献中模糊限制语及其范围的检测的学科都能够从这种模糊限制信息的检测中受益。例如,基因命名实体抽取中如果基因命名实体出现在模糊限制语的范围中,则抽取出的基因命名实体的可信度就低。此外问答系统、生物文本中信息的抽取等应用中也会用到模糊限制信息的检测。因此研究模糊限制语及模糊限制语范围具有重要意义。作为信息挖掘领域的一个重要课题,模糊限制语及其范围的

4、检测引起了生物信息学、机器学习、文本挖掘等多个领域的专家学者的广泛关注,并月_对其进行广泛而深入的研究,取得了一些研究成果。尽管如此,模糊限制语及其范围的检测依然是一项富有挑战性的任务。模糊限制语及其范围的检测的难点主要体现在以下几方面:(l)模糊限制语范围的检测依赖于模糊限制语的识别性能,因此只有模糊限制语识别完全正确,模糊限制语范围的检测才能正确。(2)很多模糊限制语都是多词短语,例如raisesthequestionof,looklikely等,这给模糊限制语边界的确定带来一定的困难。(3)模糊限制语不连续。例如either,or属于一个模糊限制语,然而其在句子中的位置却

5、不连续,因此在识别模糊限制语时往往会漏掉一个,最终导致模糊限制语范围检测错误。(4)模糊限制语范围的界定不但与句法有关,而且与语义相关。因此其检测性能依赖于句法树和依存树。而句法分析和依存分析中本身也会存在一定的误差,因此使得模糊限制语范围的检测精度更低。如在CONLL2010公开测评提交的系统中,模糊限制语范围检测的最好结果仅为57%左右。1.2自然语言处理1.2.1自然语言处理简介自然语言处理是人工智能和应用语言学的交叉学科,其研究内容主要包含两方面:自然语言的自动生成与自然语言的理解。自然语言自动生成的研究目标是将存放于计算机数据库的信息转换为自然语言:自然语言理解的研究

6、目标是将人类语言转换为计算机能够理解操作的形式化表达方式。自然语言处理涉及的内容非常广泛,如机器翻译及机器辅助翻译、语音的自动识别与合成、人机对话、文本挖掘、信息检索、问答系统、自动文摘等。下面就其主要研究内容做一下介绍:(l)机器翻译机器翻译主要就是利用计算机实现一种语言到另一种语言的自动翻译,如在线翻译系统、汉化软件、电子词典等。(2)信息检索信息检索就是利用计算机系统从大量文档中找到符合用户需要的相关信息。它是一种决速获取知识的途径,可以高效、准确的将用户最需要的信息予以反馈。如Googfe、百度都是典型的信息检索系统。(3)自动文摘自动文摘是将源文档的主要内容或者某方面

7、的信息自动提取出来,并形成原文档的摘要或者缩写,主要应用如情报获取、电子图书管理等。(4)信息抽取信息抽取是从指定文档或者海量文本中抽取出用户感兴趣的信息。如命名实体识别、基因关系抽取、知识获取等。(5)语音识别语音识别是将输入的语音信号自动转换出书面文字,通过语音相互处理信息。如人机通讯、语音翻译等。1.2.2自然语言处理的研究方法在自然语言处理领域的长期研究过程中主要出现了两种研究方法:理性主义研究方法和经验主义研究方法。理性主义方法即是采用基于规则的分析方法,注重研究推理和逻辑问题;经

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。