基于生物医学文献的蛋白质关系发现

基于生物医学文献的蛋白质关系发现

ID:26873370

大小:51.00 KB

页数:4页

时间:2018-11-29

基于生物医学文献的蛋白质关系发现_第1页
基于生物医学文献的蛋白质关系发现_第2页
基于生物医学文献的蛋白质关系发现_第3页
基于生物医学文献的蛋白质关系发现_第4页
资源描述:

《基于生物医学文献的蛋白质关系发现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于生物医学文献的蛋白质关系发现:彭春艳张晖包玲玉陈昌平论文关键词:知识发现生物命名实体识别实体关联论文摘要:实验提出了一种基于词频统计的蛋白质关系知识发现方法.该方法首先通过生物命名实体识别技术识别出蛋白质实体.然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。1引言分子生物学研究的飞速发展,使生物医学文献呈指数级增长。如此多的文献资源,为科研人员运用数据挖掘和文本挖掘技术,发现隐含的、有价值的知识提供了有利的条件。由于大多数的生物信息都保存在文本中。因此对生物医学的研究一般采用文本挖掘技术。文

2、本挖掘是一个交叉的研究领域,它涉及了数据挖掘、信息检索、自然语言处理等多个研究领域的内容。利用文本挖掘技术,可以发现许多有用的信息。一些科研人员利用文本挖掘工具,发现了许多对人类有用的知识,例如:鱼肝油可治疗雷诺式症、蛋白质之间的相互作用等。另外,从生物医学文献中抽取蛋白质基因1相互作用关系对蛋白质知识网络的建立、蛋白质关系预测以及辅助新药的研制等都具有重要的意义。2相关研究生物医学的知识发现,一般针对文献进行研究。基于文献的知识发现,主要有基于统计、关联规则、信息测度和基于语义的方法。华盛顿大学的setama

3、p将文献中的语句映射为umls本体中的生物概念。用概念来取代词汇作为知识发现的基础。该方法实现了语义层次上的知识发现。他们利用dad系统找出了生姜潜在的医疗作用。在关联规则挖掘中,有效阈值的设定很困难。如果阈值设置的过低,会产生大量的候选规则,而设置的过高,则有可能过滤掉许多有意义的规则。另外,基于语义的方法,需要构建领域本体,这需要许多专业人士的共同参与。因此,本文在sedline中随机生成的2000篇摘要进行分析。系统首先对语料进行蛋白质实体识别,形成蛋白质实体列表,然后对句中的每个蛋白质实体对进行共出现频

4、率统计,进而生成候选实体对,最后找出最高出现频率的实体对,从而发现最可能的实体关联。该系统的框架如图1所示。3.1蛋白质实体识别在对生物医学领域的文本挖掘中,实体识别的目的是对文本中的专业词汇,包括基因、蛋白质、dna和rna等加以确认和分类。对蛋白质的知识发现,第一步就是进行蛋白质实体的识别。实验采用了一种基于条件随机域的生物实体识别方法,该方法以mallet工具为基础,并增加了单词的数字、字母、以及距离依赖特性。3.2共出现频率分析文献挖掘有不同层次的分析单元,如单词、短语、句子、摘要或者全文。对于实体共出

5、现频率而言,以句子为最大分析单元式最合理的选择。如果两个实体对象同时出现在一个句子中,那么就称为实体共出现,而这两个实体称为共出现实体。通过文本挖掘方法处理大批的文献,提取得到共出现实体,统计它们的总数并计算出实体共出现频率。如果两个实体对象的共出现频率很高,表明这两个实体对象经常被同时提及,这暗示着这两个实体对象之间存在关联的可能性较高。相反,如果实体对象的功出现频率很低那么这两个实体对象之间存在关联的可能性就较低。实验主要针对蛋白质实体.因此只讨论蛋白质一蛋白质实体的共出现频率。3.3关系挖掘通过计算共出现

6、实体在所有句子中的出现频率,提取关联实体。根据设定不同的最低共出现频率阈值,得到不同可靠程度的存在关联的实体数据,从而发现最有可能存在关联的蛋白质一蛋白质实体对象。4实验4.1实验数据集本实验以从medline中随机新选的2000篇摘要为语料,实验数据统计见表1。4.2实验结果实验采用条件随机域模型进行实体识别,通过计算共出现频率形成候选实体对。实验结果详见表2。其中,“过滤”指忽略低于指定频率的共出现实体.在这里,指定频率为5。5结束语随着数据挖掘和文本挖掘技术的进步,生物医学文献挖掘在生物信息中的应用越来越

7、广泛。以知识发现为目的的文献挖掘以分为提取知识、整合知识以及推导知识。文献挖掘在寻找蛋白质相互作用、发现疾病相关的基因以及

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。