基于领域本体的蒙医药学知识库构建与知识发现研究

基于领域本体的蒙医药学知识库构建与知识发现研究

ID:37065562

大小:6.11 MB

页数:204页

时间:2019-05-16

基于领域本体的蒙医药学知识库构建与知识发现研究_第1页
基于领域本体的蒙医药学知识库构建与知识发现研究_第2页
基于领域本体的蒙医药学知识库构建与知识发现研究_第3页
基于领域本体的蒙医药学知识库构建与知识发现研究_第4页
基于领域本体的蒙医药学知识库构建与知识发现研究_第5页
资源描述:

《基于领域本体的蒙医药学知识库构建与知识发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:G203单位代码:10183研究生学号:2010241042密级:公开吉林大学博士学位论文基于领域本体的蒙医药学知识库构建与知识发现研究ResearchonConstructionofKnowledgeBaseandKnowledgeDiscoveryofTraditionalMongolianMedicineBasedonDomainOntology作者姓名:鲍玉来专业:图书情报与档案管理研究方向:信息资源管理指导教师:毕强教授培养单位:管理学院2018年6月摘要我们已经从信息时代走进了“数据驱动”的“智慧时代”,数据的资源化已成为知识服务重要发展方向。对信息资源语义化和深度挖掘的

2、需求,将提供焦点问题发现、为信息找用户相交的发现性服务也将是知识服务的又一趋向,基于用户的特定需求,对信息资源中的隐含信息进行智能提取,将转换的可理解、可利用的信息提供给用户,协助用户进行问题分析与处理。随着语义网概念的提出,具有语义描述能力的本体技术获得了广泛关注。本体技术是一种常用的语义网络知识表示方法,其设计理念是将领域知识表示为带标签的图,其中节点表示领域概念,边表示概念之间的语义关系。语义网络因其简单、灵活、丰富、易读等优点,在计算语言学、生物学、医学等诸多领域得到广泛应用。WordNet、UMLS、SNOMEDCT等大型术语系统都体现了语义网的基本思想。应用本体技术描述和揭示蒙医

3、药学基础理论、疾病、症状、症候、方剂、药材、药性、药味、诊疗方法等资源之间的语义关系,构建知识库,是实现蒙医药学资源语义检索、语义推理和知识发现的有效途径。本文选择重要的蒙医药学文献,其中包括权威工具书、蒙汉文古籍、现代图书、期刊论文、学位论文等数据源,建立蒙医药学基础数字文本集。根据蒙医药学的特点,参照国际标准中医药学语言系统语义网络框架(ISO/TS17938:SemanticNetworkFrameworkofTraditionalChineseMedicineLanguageSystem,下简写为TCMLS-SN),探索建立蒙汉双语的蒙医药学概念语义分类层次模型和语义关系模型。根据语

4、义模型提出了一种词向量包(WordEmbedding)的语义标注算法进行基础数字文本集蒙医药概念的分类标注,建立蒙医药学基础概念库,并在此基础上构建蒙医药学领域本体,开发蒙医药知识库原型系统。主要研究包括:(1)蒙医药文献预处理根据领域专家的推荐选择蒙医药学重要的古籍、现代论著、权威工具书、期刊论文、学位论文为数据源。利用内蒙古大学图书馆建立的蒙古文古籍数据库、蒙古文现代图书数据库和中国基本古籍库等全文数据库收集数据源的数字文本。I对无法获取数字文本的印本文献进行扫描OCR识别、校对,建立基础数字文本集。(2)蒙医药领域概念体系模型蒙医药学有着自己独特的理论体系。蒙医药学以阴阳五行、五元学说

5、理论为指导,贯穿了人与自然的整体观。蒙医学把“五行”(或五元)凝练为“三因学说”,即赫依、希拉和巴达根。“三因学说”是蒙医学的理论基础,用来阐释一切生命活动、病理过程,指导着诊断与治疗的实践。结合蒙医药理论和实践特点,参照TCMLS-SN,从语义层面上对蒙医药领域概念进行分类,定义蒙医药领域概念语义类型(SemanticType)和语义关系(SemanticRelation)。定义蒙医药语义类型,其来源包括:①蒙医药领域的特色概念,如“三根”、“七素”、“六基症”“黑脉”、“白脉”“放血疗法”等;②与中医药领域的概念等同概念,如“脏腑”“腧穴”等;③通用概念,如“症状”、“症候”、“病因”、

6、“病机”、“药用物质”等。在最顶层分为“实体(Entity)”和“事件(Events)”两大类,并由此展开其层次结构,形成蒙医药领域概念语义模型。(3)蒙医药学文本挖掘应用中科院信息研究所的NLPIR汉语分词系统和内蒙古大学模式识别与人工智能实验室的蒙古文分词系统对数字文本进行分词处理,分割出基础词汇,建立基础词库,在基础词库基础上,本文提出了一种基于词向量包的方法进行词汇的分类和语义标注,生成蒙医药基础概念集。①词向量生成。根据上节定义的蒙医药学语义类型及语义关系集,将分词得到的基础词库中词汇识别分类为上述语义类别和语义关系集中的一种或多种,即把文本中的所有词汇标注一种或多种语义类型或语义

7、关系标签。采用词向量技术来表示文本中的名词语义概念,并通过机器学习算法训练生成文本标注(分类)识别模型。②蒙医药学概念语义标注模型。词向量生成后,采用机器学习的经典分类模型k近邻(KNN)来实现概念的分类任务,即把每个语义名词分类为蒙医药学语义类型和语义关系集中的一种或多种标签。③蒙医药学领域概念集基础词库在经过分类和语义标注形成了蒙汉文双语的蒙医药基础语义概念II集。课题将通过领域专家咨询法和《蒙古语语义信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。