生物医学领域检索系统查询扩展技术研究

生物医学领域检索系统查询扩展技术研究

ID:25577796

大小:2.63 MB

页数:76页

时间:2018-11-21

生物医学领域检索系统查询扩展技术研究_第1页
生物医学领域检索系统查询扩展技术研究_第2页
生物医学领域检索系统查询扩展技术研究_第3页
生物医学领域检索系统查询扩展技术研究_第4页
生物医学领域检索系统查询扩展技术研究_第5页
资源描述:

《生物医学领域检索系统查询扩展技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔滨工业大学工学硕士学位论文哈尔滨工业大学硕士学位论文使用授权书............................................................69哈尔滨工业大学硕士学位涉密论文管理................................................................69致谢.....................................................................................

2、.......................................70-VI-哈尔滨工业大学工学硕士学位论文第1章绪论1.1课题研究的背景随着计算技术和生物技术的进步,当前生物医学相关的文献正在以前所未有的速度增长。著名的MEDLINE数据库已经收集了自1965年以来的近1100万 篇的生物医学相关文献,并且以每天1500篇的速度在增长[1,2]。这些文献中蕴含了大量的知识。研究人员可以利用不同文献中的研究成果,来寻找疾病和基因之间的关系、基因和不同生命功能以及不同基因直接的关系等非常有用的知识。这些知识应用于实

3、际,可以更好地诊断、预防和治疗人类的疾病。但是,人工从海量的文献中发现这些知识几乎是一件不可能的任务。因此,针对海量的生物医药文献的生物信息抽取与挖掘成为相关研究人员的迫切需求。2003年,TREC基因学方面的项目应运而生。本文研究的基础就是基于TREC2007年的基因学项目。下面将详细介绍TREC的相关内容。1.2TREC概述在计算机信息检索领域,40多年的发展历史中曾出现了许多的进行检索系统评价的活动。比如1966年进行的CranfieldⅡ计划,它以一组文献集合、查询问题集合以及相关性判断所组成的测试集以及效益测量准则

4、来评测多种索引方式的优劣。在CranfieldⅡ计划之后,又出现了多种的小型测试项目,但是这些项目共同的缺点就是所使用的文献集合很小,与实际情况相差较远,而且由于它们大多数是对单个系统进行的评价,不能实现多个系统之间的横向比较。受存在的种种问题的带动和需求的驱动,随着检索技术的发展和研究的深入,文本检索会议(TextRetrievalConference,TREC)在1992年应运而生。TREC 是目前国际上信息检索领域一年一度的学术交流与系统评测活动[3],由NIST主办,自诞生以来,每年都举办一次,春季发布数据,夏季展开

5、实验,结果基本上在每年11月份召开的年会上提交。到2007年已经发展到了TREC-16。TREC为参与者提供标准的数据集合、测试数据和标准答案,所有的参与者以共同的方式向会议提交自己的系统运行结果并接受评测。TREC对学术界最重要的意义在于评测的标准化流程。在标准测试方法出现之前,信息检索方法之间很难进行有意义的横向比较。TREC通过提供标准的数据集合测试集并-1-哈尔滨工业大学工学硕士学位论文规定统一的运行方式,使公正的评测成为可能。TREC的参加团体来自许多国家的研究和学术机构、政府部门和工商企业,构成了一个具有广泛代表

6、性的检索评测的基础,参与单位用自己的系统对NIST统一提供的语料并针对共同的任务开展研究,最后由主办方NIST进行统一的相关性判断。1.1TREC的研究目标最初,TREC主要针对的是文本信息的检索评测,但是随着检索领域中平台的不断变化(比如Web的发展)、各种多媒体形式的信息不断涌现(比如音频、视频信息)、不同的用户需求也在增多(比如对问答系统的需求),TREC的研究内容早已经超越了它的名字所能涵盖的内容,但是它的发展目标还是大体与原先一致的,主要是致力于对以下几个方面的追求。1)促进基于大型文献集合的检索研究。为了反映现实

7、系统的主题多样性,必须保证有足够的实验语料集,TREC的文献集合一般在2G左右,包括50万~100万篇文献。2)建立一个开放的论坛来交流研究思想,促进企业、学术机构和政府部门之间的交流沟通。3)通过展示检索方法在解决实际问题中的有效性,来加速实验室技术的商业化产品转化。如果某种技术表现出良好的实验效果,那么它就可能比较迅速地得到商业化的应用。4)通过提供大型的语料库、统一的测试程序,有系统的整理评测结果,达到改善文本检索评价和检验方法的目标。也方便了企业和学术机构得到适当的检索评价技术,以及开发更适合于当前系统的新的评价技术

8、。5)TREC体现的是先进和实用的检索技术和检索系统,没有实用价值的系统在TREC中难得一席之地。从TREC的实践中我们看到,由于许多系统之前都没有机会用统一的大型语料库进行横向比较,TREC的做法显然为参与机构提供了难得的机遇,通过对各自的结果进行相互之间的比较,显示出了高性能系统的价值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。