基于支持向量机的生物医学文献蛋白质关系抽取

基于支持向量机的生物医学文献蛋白质关系抽取

ID:37698490

大小:611.56 KB

页数:9页

时间:2019-05-29

基于支持向量机的生物医学文献蛋白质关系抽取_第1页
基于支持向量机的生物医学文献蛋白质关系抽取_第2页
基于支持向量机的生物医学文献蛋白质关系抽取_第3页
基于支持向量机的生物医学文献蛋白质关系抽取_第4页
基于支持向量机的生物医学文献蛋白质关系抽取_第5页
资源描述:

《基于支持向量机的生物医学文献蛋白质关系抽取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第3卷第4期智能系统学报Vol.3№.42008年8月CAAITransactionsonIntelligentSystemsAug.2008基于支持向量机的生物医学文献蛋白质关系抽取1211杨志豪,洪莉,林鸿飞,李彦鹏(1.大连理工大学电子与信息工程学院,辽宁大连116024;2.朝阳师范高等专科学校数学计算机系,辽宁朝阳122000)摘要:从生物医学文献中抽取蛋白质(基因)交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测以及新药的研制等均具有重要的意义.提出了一种基于支持向量机(SVM)的蛋白质(基因)交互作用关系抽取方法.该方法除了选取词项特

2、征、关键词特征、实体距离特征、链接特征外,还利用链接语法分析方法可以获得较高准确率的特性,引入链接语法分析方法抽取结果特征.实验结果表明,该方法的召回率性能与使用同一测试语料的其他系统相比具有明显的优势,综合分类率F指标也高于其他系统.关键词:关系抽取;链接语法;支持向量机中图分类号:TP391文献标识码:A文章编号:167324785(2008)0420361209Extractionofinformationonprotein2proteininteractionfrombiomedicalliteraturesusinganSVM1211YANG

3、Zhi2hao,HONGLi,LINHong2fei,LIYan2peng(1.CollegeofElectronicandInformationEngineering,DalianUniversityofTechnology,Dalian116024,China;2.DepartmentofMath2ematicsandComputer,ChaoyangTeachersCollege,Chaoyang122000,China)Abstract:Automatedextractionofprotein2proteininteractioninforma

4、tionfrombiomedicalliteratureishelpfulwhenbuildingaproteinknowledgenetwork,predictingproteinfunctionsanddesigningnewdrugs.Thispaperpresentsamethodforprotein2proteininteractionextractionfrombiomedicalliteratureusingasupportvectormachine(SVM).Inthismethod,besidescommonindexparamete

5、rssuchaswordfeatures,keywordfeatures,entitydistancefeaturesandlinkpathfeatures,alinkgrammarextractionfeatureisusedtoimproveprecisionwhenidentifyingprotein2pro2teininteractions.ExperimentalresultsindicatedthattherecallrateandtheF2scoreofthismethodaremuchhigherthanthatofotherextra

6、ctionsystemsforthesamedataset.Keywords:interactionextraction;linkgrammar;supportvectormachine(SVM)随着高通量生物技术的发展,生物医学的实验求十分迫切.其中,从生物医学文献中抽取蛋白质手段和研究方法均发生了巨大的变革,领域内实验(基因)相互作用关系可以帮助建立蛋白质知识网数据的“指数性”增长,给数据的存储与传输,数据络、预测蛋白质关系以及辅助新药的研制,因此具有的处理、理解与应用带来一系列问题,来自数学、化重要的研究意义.学、药学、统计学和计算机科学等领域专

7、家给予了广1相关研究泛关注,并取得了大量成果.生物医学文献作为成果展示和学术交流的主要方式之一,其数目之大,增长当前进行蛋白质(基因)交互关系抽取主要有3速度之快远远超过了其他学科领域,采用文本挖掘种方法:基于自然语言处理的系统、基于模式匹配的技术从这座宝库快速有效地提取生物医学知识的需系统和基于机器学习与统计的方法.基于自然语言处理的系统通过分析语法结构进收稿日期:2008205207.行关系抽取,依据它们的分析策略将它们分为浅层基金项目:国家自然科学基金资助项目(60373095,60673039);国家“863”高科技计划资助项目(2006AA0

8、1Z151).分析系统和深层分析系统.Pustejovsky等人使用浅通信作者:杨志豪.E2m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。