欢迎来到天天文库
浏览记录
ID:35066338
大小:2.95 MB
页数:62页
时间:2019-03-17
《基于本体的健康知识库自动构建方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于本体的健康知识库自动构建方法研究THERESEARCHOFONTOLOGY-BASEDAUTOMATICCONSTRUCTIONMETHODFORHEALTHKNOWLEDGEBASE咸珂哈尔滨工业大学2015年12月国内图书分类号:TP391.01111111学校代码:10213国际图书分类号:004.62111111密级:公开工程硕士学位论文基于本体的健康知识库自动构建方法研究硕士研究生:咸珂导师:叶允明教授申请学位:工程硕士学科:计算机技术所在单位:深圳研究生院答辩日期:2015年12月授予学
2、位单位:哈尔滨工业大学ClassifiedIndex:TP391.01U.D.C:004.62DissertationfortheMaster’sDegreeofEngineeringTHERESEARCHOFONTOLOGY-BASEDAUTOMATICCONSTRUCTIONMETHODFORHEALTHKNOWLEDGEBASECandidate:XianKeSupervisor:Prof.YeYunmingAcademicDegreeAppliedfor:Master’sDegreeofEngineerin
3、gSpecialty:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着在线问诊平台的普及,人们逐渐积累了大量的问诊数据。如何准确地从这些数据中提取出更多有用的医疗健康信息,进而形成一个结构化的知识库供后人使用,是人们面临的一个问题。信息抽取是解决数据提取问题
4、的核心技术,它实现了从杂乱无章的文本中提取结构化数据。本课题致力于健康知识库自动构建方法的研究,目的是自动获取网络上的健康问诊数据,从这些非结构化的问诊内容中提取出疾病症状、治疗方案、所需检查等信息,形成一个结构化的健康知识库。采用基于本体的信息抽取算法实现了对问诊对话的信息抽取,并对结果进行结构化存储。本课题实现了一个面向问诊领域的定向爬虫系统,收集实验所用的数据,对获取的数据进行特征分析和标注,并采用三层本体框架构建了问诊领域本体,详细定义出问诊对话中的概念和关系,并用实例进行填充。本课题还提出了以关键词和关联
5、规则为基础的规则生成算法,以及基于本体的抽取算法,首先从标注的样本中提取关键词,进而挖掘其关联关系生成模式匹配规则,接着通过解析不同概念的关系决定它们的抽取顺序和范围,并根据本体实例对句子进行分类和抽取。其中,采用基于特征的对数似然比算法提取概念关键词,相比原始的对数似然比算法进一步降低了高频非特征词的影响;提出了一种基于关键词位置属性搜索频繁项集的FP-growth算法,过滤掉了存在位置冲突的关键词形成的抽取规则,提高了训练出的规则的可靠性;以本体模型中不同概念的逻辑关系决定抽取的先后顺序,并通过本体实例对句子分
6、类,提升了抽取算法的准确性。通过对比实验验证了本课题提出的改进算法均取得了较好的抽取效果,可以实现对问诊对话中健康知识的抽取。最后,基于以上研究理论设计和实现了一个问诊健康知识库的自动构建系统。关键词:知识库;健康;信息抽取;本体;抽取规则-I-哈尔滨工业大学工程硕士学位论文AbstractWiththepopularityofonlineinquiryplatform,therehavebeenaccumulatedalargenumberofinquirydata.Itisaproblemforpeopleto
7、extractmoreusefulinformationaccuratelyfromthedataandconstructastructuredknowledgebaseforusing.Informationextractionisatechniquefordataextractionanditcanextractstructuredinformationfromunstructuredandsemi-structuredtext.Thispaperiscommittedtotheresearchofautoma
8、ticconstructionmethodofhealthknowledgebase.Theresearchisaimedatcollectingtheinquirydataautomaticallyandextractingdiseasesymptoms,treatmentoptionsandcheckinformationfromthem,andcons
此文档下载收益归作者所有