基于电子病历的疾病预测方法研究及应用

基于电子病历的疾病预测方法研究及应用

ID:77669430

大小:485.90 KB

页数:69页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于电子病历的疾病预测方法研究及应用_第1页
基于电子病历的疾病预测方法研究及应用_第2页
基于电子病历的疾病预测方法研究及应用_第3页
基于电子病历的疾病预测方法研究及应用_第4页
基于电子病历的疾病预测方法研究及应用_第5页
基于电子病历的疾病预测方法研究及应用_第6页
基于电子病历的疾病预测方法研究及应用_第7页
基于电子病历的疾病预测方法研究及应用_第8页
基于电子病历的疾病预测方法研究及应用_第9页
基于电子病历的疾病预测方法研究及应用_第10页
资源描述:

《基于电子病历的疾病预测方法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

学校代码10459学号或申请号201522172223密级专业硕士学位论文基于电子病历的疾病预测方法研究及应用作者姓名:李慧林导师姓名:柴玉梅教授专业学位名称:工程硕士培养院系:信息工程学院完成时间:2018年5月 AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterResearchandApplicationofDiseasePredictionbasedonElectronicMedicalRecordsByHuilinLiSupervisor:Prof.YumeiChaiMasterofEngineeringSchoolofInformationEngineeringMay2018 摘要电子病历是指对病人就诊信息的电子化记录,它记录了病人从入院到出院期间的全部信息,可以为病人或医生提供查询及决策支持。电子病历一般包括图像和文字信息,而文字信息以半结构化文本或自由文本的形式存在,以电子病历为基础的医疗数据研究,具有重要的意义。本文针对电子病历文本,主要研究内容如下:(1)电子病历的匿名化处理。电子病历中包含很多隐私信息,这些有标识的信息如果被泄露会给病人带来危害,因此要识别其中的隐私信息并进行处理。先对文本进行清洗并规范化,生成基本结构和表示方法,提出了结合边界特征的深层条件随机场模型,选择最优特征集训练。将文本表示为词向量的形式,作为神经网络的输入进行模型训练,提出了基于块表示的BR-BiRNN、BR-BiLSTM-CRF命名实体识别模型,实验结果表明其F值均高于传统方法。(2)针对妊娠高血压疾病,提出了基于特征融合的循环神经网络预测模型。妊娠高血压疾病是孕妇妊娠期间所特有的一种疾病,该病的存在影响孕妇和胎儿健康,及早发现孕妇是否患病对保障母婴健康有重要意义。本文针对妇产科电子病历文本进行预处理后,提出了特征融合的方法,将词向量和词性向量进行拼接得到融合后的特征(mixedfeature),模型无需其他专业医疗经验,就可以实现较好的训练结果,分别采用wordfeature和mixedfeature进行对照实验,实验表明采用mixedfeature比采用单一wordfeature正确率提高了约2%。(3)提出了基于文本数值化的TQ-LSTM妊娠高血压预测模型。首先通过信息抽取将文本数值化表示,提取了与孕妇身体状态相关的生理参数作为特征向量,并对缺失数据进行了补全。同时与一般结构的RNN模型对比,实验结果显示TQ-LSTM模型实现了对妊娠高血压疾病的预测,而且比一般RNN模型的正确率更高。关键词:电子病历神经网络条件随机场信息抽取疾病预测数据挖掘I AbstractElectronicmedicalrecordsrefertotheelectronicnotesofthepatient'sconsultationinformation.Theyrecordalltheinformationofthepatientfromthetimeofadmissiontodischarge,andtheycanprovideinquiryanddecisionsupportforthepatientordoctor.Theelectronicmedicalrecordsgenerallyincludeimageandtextinformation,andthetextinformationexistsintheformofsemi-structuredtextorfreetext.Themedicaldataresearchbasedontheelectronicmedicalrecordsisofgreatsignificance.Thisthesisaimsattheelectronicmedicalrecordstext,themainresearchcontentsareasfollows:(1)De-identificationofelectronicmedicalrecords.Theelectronicmedicalrecordscontainmanyprivateinformation.Iftheidentifiedinformationiscompromised,itwillcauseharmtothepatient.Therefore,theprivateinformationmustbeidentifiedandprocessed.First,thetextiscleanedandnormalized,andthebasicstructureandrepresentationmethodaregenerated.Adeepconditionalrandomfieldmodelwithboundaryfeaturesisproposedandtheoptimalfeaturesetisselected.Thetextisexpressedasaformofwordvectorsandtrainedastheinputofneuralnetwork.BR-BiRNNandBR-BiLSTM-CRFnamedentityrecognitionmodelsbasedonblockrepresentationareproposed.ExperimentalresultsshowthattheFvalueishigherthanthetraditionalmethod.(2)Aimingatthehypertensivedisordersinpregnancy,weproposearecurrentneuralnetworkpredictionmodelbasedonafeaturemixedmethod.Hypertensivedisordersinpregnancyisadiseasethatonlyhappenstopregnantwomen.Thepresenceofthediseaseaffectsthehealthofpregnantwomenandfetuses.Itisimportanttodetectwhetherpregnantwomenaresickinordertoensuremotherandchildarehealthy.Inthisthesis,afterpreprocessingtheobstetricsandgynecologyelectronicmedicalrecords,afeaturemixedmethodisproposed.Afterthewordvectorsandthepartofspeechvectorsarestitchedtoobtainthemixedfeature,themodelcanachievebetterperformancewithoutanyotherprofessionalmedicalexperience.ThewordfeatureandII mixedfeatureareusedforcomparisonexperiments.Experimentsshowthattheuseofmixedfeaturesisapproximately2%betterthanusingasinglewordfeature.(3)ATQ-LSTMpredictionmodelofhypertensivedisordersinpregnancybasedontextquantificationisproposed.Firstly,thetextisexpressedquantitativelybyinformationextraction,physicalparametersrelatedtopregnantwomen'sphysicalstateareextractedasfeaturevectors,missingdataarecomplemented.Atthesametime,comparedwiththegeneralRNNmodel,theexperimentalresultsshowthattheTQ-LSTMmodelachievespredictionofhypertensivedisordersinpregnancyandtheaccuracyishigherthanthegeneralRNNmodel.KeyWords:ElectronicMedicalRecords;NeuralNetwork;ConditionalRandomField;InformationExtraction;DiseasePrediction;DataMiningIII 目录摘要............................................................................................................IAbstract......................................................................................................II目录.........................................................................................................IV图目录....................................................................................................VII表目录..................................................................................................VIII1绪论.......................................................................................................11.1研究背景及意义..............................................................................................11.2国内外研究现状..............................................................................................21.2.1电子病历处理方法................................................................................................21.2.2信息抽取方法........................................................................................................31.2.3预测和分类方法....................................................................................................41.3论文研究内容..................................................................................................51.4论文的组织结构..............................................................................................62相关理论及技术...................................................................................72.1电子病历处理技术..........................................................................................72.1.1支持向量机模型....................................................................................................72.1.2逻辑回归模型........................................................................................................92.2文本信息抽取................................................................................................112.2.1隐马尔科夫模型..................................................................................................112.2.2条件随机场模型..................................................................................................13IV 2.3预测和分类模型............................................................................................142.3.1神经网络介绍......................................................................................................142.3.2卷积神经网络(CNN)...........................................................................................152.3.3循环神经网络(RNN)...........................................................................................162.4本章小结........................................................................................................163基于深层网络模型的电子病历匿名化.............................................173.1基于深层条件随机场的匿名化模型............................................................173.1.1深层条件随机场模型..........................................................................................183.1.2特征模板..............................................................................................................193.2基于BR-BiRNN的匿名化模型...................................................................203.2.1块表示方法..........................................................................................................203.2.2词向量的生成......................................................................................................213.2.3BR-BiRNN模型...................................................................................................223.3基于BR-BiLSTM-CRF的匿名化模型........................................................233.3.1LSTM记忆单元结构............................................................................................233.3.2BR-BiLSTM-CRF模型........................................................................................253.4本章小结........................................................................................................274基于神经网络的妊娠高血压预测模型.............................................284.1基于特征融合的循环神经网络预测模型....................................................284.1.1信息抽取基本框架..............................................................................................284.1.2构建触发词词典..................................................................................................294.1.3规则设计..............................................................................................................314.1.4模型训练..............................................................................................................334.2基于文本数值化的TQ-LSTM预测模型....................................................354.2.1参数提取和文本数值化......................................................................................354.2.2缺失值处理..........................................................................................................384.2.3模型训练..............................................................................................................39V 4.3本章小结........................................................................................................415实验结果与分析.................................................................................425.1电子病历匿名化实验结果............................................................................425.1.1数据集..................................................................................................................425.1.2结果分析与讨论..................................................................................................435.2妊娠高血压疾病预测实验结果....................................................................465.2.1基于特征融合的循环神经网络预测模型结果分析...........................................465.2.2TQ-LSTM预测模型结果分析.............................................................................485.3本章小结........................................................................................................496总结和展望.........................................................................................506.1总结................................................................................................................506.2展望................................................................................................................51参考文献.................................................................................................52个人简历、在校期间发表的学术论文与研究成果.............................57致谢.........................................................................................................58VI 图目录图2.1线性分类器.......................................................................................................................7图2.2分离超平面.......................................................................................................................8图2.3支持向量机.......................................................................................................................9图2.4Viterbi算法.....................................................................................................................12图2.5全连接神经网络.............................................................................................................14图2.6卷积神经网络.................................................................................................................15图2.7循环神经网络.................................................................................................................16图3.1电子病历匿名化整体流程图..........................................................................................17图3.2深层条件随机场模型.....................................................................................................18图3.3BIO和BIOES表示法....................................................................................................21图3.4BR-BiRNN模型.............................................................................................................22图3.5LSTM单元组成结构......................................................................................................24图3.6BR-BiLSTM-CRF模型..................................................................................................25图4.1信息抽取流程.................................................................................................................29图4.2基于特征融合的RNN预测模型...................................................................................34图4.3特征集生成流程图.........................................................................................................37图4.4TQ-LSTM模型...............................................................................................................40图5.12006年I2B2各类隐私信息识别结果...............................................................................45图5.22014年I2B2各类隐私信息识别结果...............................................................................45图5.3妇产科真实数据集各类隐私信息识别结果......................................................................46VII 表目录表3.1原子特征模板.................................................................................................................19表3.2部分组合特征模板.........................................................................................................20表4.1电子病历信息.................................................................................................................28表4.2触发词词表.....................................................................................................................30表4.3中科院词性定义表.........................................................................................................31表4.4元字符定义表.................................................................................................................31表4.5特征模板.........................................................................................................................36表4.6抽取参数表.....................................................................................................................38表4.7缺失值常用处理方式.....................................................................................................39表5.1混淆矩阵.........................................................................................................................42表5.2不同模型结果对比.........................................................................................................43表5.3各个具体类别的实验结果.............................................................................................44表5.4本文模型与I2B2评测结果F值对比...........................................................................45表5.5本文实验结果及与他人工作对比..................................................................................47表5.6TQ-LSTM实验结果.......................................................................................................48VIII 1绪论1.1研究背景及意义近年来,医院信息管理系统的发展速度加快,由此产生了大量的医疗文本,这些文本记录了病人的相关就诊信息,包括首次病程记录、查房记录、诊疗经过、出院小结等信息。现实生活中,每天都产生着许多的电子病历(ElectronicMedicalRecords,EMRs),这些病历具有极高的医学研究价值,是开展科研和提供决策支持的宝贵资源。通过对电子病历数据的挖掘与分析,可以及时有效地监测病人的身体状况,努力做到早发现和早治疗。将病人在不同时期的电子病历都整合起来,有助于从时间序列上发现病人的潜在状况,通过对大规模电子病历的分析,也有助于找到可能致病的相关因素,或者发现不同疾病之间的关联,有利于从源头上对疾病进行预防。电子病历的使用在医疗机构中越来越普及,很多与病人相关的内容以电子的形式保存下来。病人可以通过电子病历随时了解自己的身体状况,并及时采取应对措施,保持良好的饮食或生活习惯,医生可以通过对数据进行分析找到与药物效果有关的因素,进一步提高公共医疗的效率,保障公共医疗的安全,甚至促进新药品的开发或诊疗方式的改进。医疗大数据的迅猛发展将为社会节约大量的经济成本,相比传统纸质版的病历,电子病历更利于大规模的保存和研究。使用医疗数据开展研究的前提是一系列相关问题的解决,包括如何收集并清洗信息、如何保证信息的安全性、如何对数据进行规范化表示和分析等。电子病历中既包含图像信息,也包含自由文本,文本采用自然语言记录,可能存在歧义或者包含许多不太规范的描述语言,因此要解决一系列的自然语言相关问题。通过对自由文本的分析,挖掘出其中的有用信息,利用信息抽取技术得到结构化或半结构化的电子病历,在此基础上再进行相关的分类或预测研究。电子病历想要开展大规模的研究,必须将医院中的真实医疗记录公布给各科研机构,但是,其中包含许多隐私信息(ProtectedHealthInformation,PHI),如病人的个人信息、地址、联系方式、医生的个人信息及医院名称地址等。隐私信息的存在使得传统的各个医疗机构间信息无法共享,缺乏大规模的医疗数据库,很多以临床医学为基础的工作就无法顺利地进行,而且信息无法整合到统一的1 资源库,造成了重复的研究,也增加了成本浪费了时间,为了保护这些隐私信息,需要对电子病历进行匿名化处理。1996年,美国出台HIPAA(HealthInsurancePortabilityandAccountabilityAct)法案,详细规定了电子病历中的18种受到保护的隐私信息,只有经过匿名化处理后的电子病历,才能大规模的用于医疗科研项目。开展医学研究的重要步骤之一就是信息抽取,信息抽取是后续一系列医学研究的前提和基础,许多机构和组织开展了关于信息抽取的评测任务,其中,I2B2(InformaticsforIntegratingBiologyandtheBedside)中心组织了多次医学信息抽取的评测任务,发布了多个数据集,促进了以电子病历为基础的语料标注和医疗领域自然语言处理的研究。通过建立模型分析电子病历内容,获知病人的身体状况,对生理和心理上进行疾病监测,可以为病人提出指导性意见,利用电子病历来提高医疗质量。本文旨在实现电子病历文本匿名化,实现疾病预测方法的研究并应用于妇产科真实病历。提出了基于块表示的DeepCRF、BR-BiRNN(BlockRepresentationBidirectionalRecurrentNeuralNetwork)、BR-BiLSTM-CRF(BlockRepresentationBidirectionalLongShort-TermMemoryandConditionalRandomField)命名实体识别模型,其识别精确率均高于传统的SVM和HMM模型。针对电子病历中的自由文本,引入相关触发词,结合语法规则进行了信息抽取后,提出了基于特征融合的循环神经网络妊娠高血压预测模型,新的特征的形式为词向量和词性向量的线性拼接,模型无需其他专业医疗经验,就可以实现较好的训练结果。同时提出了基于文本数值化的TQ-LSTM(TextQuantificationLongShort-TermMemory)疾病预测模型,并对缺失数据进行了补全,实验表明模型可以有效地对妊娠高血压进行预测。1.2国内外研究现状1.2.1电子病历处理方法电子病历在国外起步较早,美国最先开始使用电子病历,经过了一段自由发展的时期后,在政府的支持和相关政策的推动下,电子病历得到了更为迅速的发展,之后其他各国家也逐渐开启了电子病历的研究。Hillestad[1]将健康信息系统与其他产业进行比较分析,估计了广泛采用电子病历系统的潜在节约和成本,并2 得出结论认为,有效的电子病历实施每年最终可节省超过810亿美元。1996年,Sweeney[2]提出了第一个匿名化系统,尝试使用“常识模板”识别隐私信息,此后,开启了一系列针对电子病历的医学研究。将电子病历匿名化视为命名实体识别任务,常用的方法有基于规则和词典的方法[3-4],基于机器学习的方法[5-6],以及基于深度学习的方法[7-10]。Yang[11]基于词典和规则从医院出院摘要中提取药物信息,构建了许多词汇资源来描述不同类别药物的词汇或形态特征。基于规则和词典的方法考虑了数据的结构和特点,具有较好的识别效果,但对数据具有依赖性,可移植性差,而且手工编写规则模板需要许多时间。基于机器学习的方法可以更好的移植应用到不同的数据集,对未登录词也具有较好的识别效果。支持向量机模型(SupportVectorMachine,SVM)可以很容易地适应一个新的领域,并实现良好的性能,Guo[12]使用支持向量机在医疗出院摘要中识别个人健康信息,除了基本令牌级特征之外,包含了一组实体特定知识的规则。Roberts[13]基于SVM对心脏病危险因素进行识别,针对家庭历史设计了一个单独的基于规则的分类器。还有的采用了混合方法,其中使用较多而且性能较好的是联合条件随机场和规则。Lafferty[14]在2001年提出条件随机场模型(ConditionalRandomField,CRF),它能够融合大量的特征,在序列标注问题中性能较好。Liu[15]提出了分别基于字和词的匿名化处理方法,采用CRF并结合规则。Wei[16]针对医学命名实体,通过CRF进行实体识别,之后采用决策树和领域知识规则以提高精确率。Chen[17]将心脏病风险因素分为三类:基于短语的,基于逻辑的和基于话语的,结合CRF和SVM识别风险因素。Xu[18]利用电子病历数据,结合肝病严重程度和共病指数,提高了预测院内死亡率的区分能力。1.2.2信息抽取方法信息抽取是自然语言处理的关键步骤,它的定义是:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术[19]。不同的信息抽取都需要一组单独的规则来适用于不同领域和书写方式,Soderland[20]面向此问题,设计的系统通过自动学习提取规则,以便于克服此类知识工程瓶颈。Chang[21]设计了一个系统,可以从半结构化的文本中提取特定信息。Fader[22]针对开放信息抽取,引入了动词表达的二元关系的句法和词汇约束,在3 REVERBOpenIE系统中实施了约束,提高了精度。Gutierrez[23]进行了两个扩展:使用OBCIE模块将不同类型的实现集成到一个提取系统中、实现了基于本体的错误检测机制。针对中文文本也开展了许多研究,刘凯[24]应用多种机器学习模型来进行中医病历的实体识别,并进行了对比和讨论。刘峤[25]介绍了知识图谱的定义和架构,对相关核心技术进行了总结。杨锦锋[26]针对中文电子病历,提出了标注体系和相关规范。吴共庆[27]利用数节点的标签信息,对新闻内容实现了抽取。李景玉[28]以微博文本为研究对象,实现了评价对象的抽取。甘丽新[29]针对旅游文本进行了实体关系的抽取,使用SVM模型进行实验,其精确率高于现有方法。江腾蛟[30]针对金融领域的大量语料集,结合句法分析进行了抽取实验。1.2.3预测和分类方法随着大数据时代的到来,以数据挖掘为基础的研究逐渐展开,使用机器学习模型实现预测和分类有助于减轻人的负担,而且更为高效且节约了成本。近年来,基于深度学习[31-36]的研究发展尤为迅速,深度学习的概念由Hinton[37]等人提出,自提出后在语音识别[38-40]、图像识别[41-44]等多种应用下都取得了巨大进展。神经网络模型模拟了人类大脑的神经结构,能够处理大量的信息,通过对之前遇到的实例多次学习,完成对权值的修正,使得网络的权值分布在一个稳定的范围内,即完成了模型的训练,之后就可以实现对新的实例的分类和预测。深度学习模型和传统模型相比包含了更多的层次,而且突出了特征学习的关键性,通过各个层来提取特征,将数据映射到一个新的特征空间。神经网络的一种常用结构,称之为多层感知机(MultilayerPerceptron,MLP),它至少包括一个隐藏层,多层感知器不仅可以学习线性函数,也可以学习非线性函数。Lecun[45]提出了卷积神经网络减少了参数数量,从而也节省了时间提高了性能。深度学习在自然语言处理领域也得到了广泛的应用,在文本分类[46-47]、问答系统[48]、机器翻译[49]和情感分析[50]等领域都表现出了良好的性能,Chiu[51]提出了改进的神经网络,采用双向LSTM-CNNs结构,从而能够自动的学习基于词和基于字符的特征。Ma[52]提出一种双向的LSTM-CNNs-CRF端到端的实现模型,不需要对数据进行预处理,可以直接运用于序列标注任务。Yang[53]引入迁移学习,针对某些领域中训练数据不足的问题,研究使用少量的标注样本来进行实体识别。Peters[54]使用大量的没有标注的数据对模型进行训练,通过该模型来得到4 所要标注的词的向量,再把该向量添加到之前的模型中。Rei[55]引入注意力机制对向量进行了改进,之后使用神经网络来学习权重,从而有效地结合了字符向量和词向量。1.3论文研究内容本文以电子病历文本为基础,主要工作如下:(1)针对电子病历中的隐私实体,提出了三种深层网络模型来进行识别。其中,DeepCRF模型将实体识别任务分为两个子任务,分别是实体边界检测和实体种类的识别,针对每个子任务分别在不同层进行实现,模型采用了多种特征,更好地利用上下文信息。BR-BiRNN模型基于BIOES块表示方法,将原始文本进行向量化表示,由神经网络的输出层得到实体分类结果。BR-BiLSTM-CRF模型同样采用BIOES表示方法,结合了双向长短期记忆网络和链式条件随机场,将前向LSTM和后向LSTM的输出拼接为新的词向量,作为后层条件随机场的输入,最终识别出实体类别。分别在评测数据集和妇产科真实病历上进行了测试,实现对电子病历的匿名化处理。(2)将神经网络模型引入到疾病预测中,不再使用简单的词向量作为网络的输入,而是分别训练得到词向量和词性向量后,二者进行组合得到新的特征,将该特征传递到网络的输入层,从而实现对妊娠高血压疾病的预测。近年来,由于国家二胎政策的开放,出现了许多年龄较大的孕妇,这些孕妇更容易患有妊娠高血压疾病,患者轻则头晕呕吐,重则危及生命,因此,尽早发现和实施治疗尤为重要。本文采用基于特征融合的RNN模型实现了疾病预测,并与传统的逻辑回归、决策树等模型进行了对比,提高了预测的正确率。(3)通过信息抽取将电子病历进行数值化表示,提出了TQ-LSTM预测模型。提取了13种相关的生理参数组成特征向量,并针对其中缺失的参数进行了补全,采用LSTM模型进行训练,分别使用了UniLSTM和BiLSTM进行实验,同时还采用了一般的RNN模型作为对照实验,结果表明,LSTM作为内部结构的效果比传统RNN要好,此外,双向神经网络同时考虑了前向和后向特征,其结果比单向神经网络要好。5 1.4论文的组织结构论文共分为六个章节,各章节内容如下:第一章:绪论。介绍了相关的研究背景及意义,基于电子病历的研究现状和常用方法,介绍了本文的主要内容和结构。第二章:相关理论及技术。介绍了电子病历匿名化、信息抽取、预测和分类的常用模型,将文本匿名化和信息抽取视为序列标注任务,介绍了传统的机器学习模型,将疾病的预测视为分类问题,采用神经网络对实例样本反复学习,介绍了常见的CNN和RNN神经网络模型。第三章:基于深层网络模型的电子病历匿名化。详细介绍了本文提出的DeepCRF模型、BR-BiRNN模型和BR-BiLSTM-CRF模型,介绍了模型的特征选择和训练过程,实现了对隐私信息的保护。第四章:基于神经网络的妊娠高血压预测模型。介绍了本文数据预处理、信息抽取和缺失值补全的过程,详细介绍了本文提出的基于特征融合的循环神经网络妊娠高血压预测模型、基于文本数值化的TQ-LSTM的妊娠高血压预测模型。第五章:实验结果与分析。在评测数据集上进行电子病历匿名化模型的训练与测试,并应用到妇产科真实电子病历文本,通过实验与传统方法做了对比,提高了精确率。实验验证了本文提出的妊娠高血压疾病预测模型的有效性,并在不同RNN内部结构下进行了对比实验和分析讨论。第六章:总结和展望。对本文的工作进行总结,并讨论了研究中存在的不足和局限,对今后的研究方向进行了分析。6 2相关理论及技术2.1电子病历处理技术电子病历的处理和研究用到了多种技术和手段,其中常用的有基于规则和基于机器学习的方法,基于规则需要针对不同的电子病历制定不同的手工规则,当移植到不同的数据集时需要大量的修改工作,而基于统计知识的机器学习方法则具有较好的移植性。本节介绍了两种常用的学习模型:支持向量机和逻辑回归,二者都可以实现对电子病历文本的处理。2.1.1支持向量机模型支持向量机最早由Vapnik于20世纪80年代提出,主要用于处理数据分类问题,尤其是二分类问题,此类问题可以是布尔型如true或false,也可以是数值型如1或-1。SVM不仅可以应用于低维空间,在高维空间也表现出优异的性能,计算效率也非常高。此外,它还具有很好的泛化能力,适合于小样本分类空间,只需要很少的样本就可以训练得到性能好效率高的分类器。因此,SVM在工业中应用广泛,是一个十分吸引眼光和具有潜力的发展方向。如图2.1所示,假设有两类数据的集合,希望能够找到一个决策面可以把两类数据分开,这里的决策面是指位于两类数据之间的一条直线,决策面两侧可分为正类和负类,用1和-1来表示。图2.1线性分类器7 在将样本点映射到更高维的空间中时,有时会发生这样的问题,映射到高一维的空间后还是无法解决分类问题,那么就要映射到更高一维的空间中去解决,以此类推,可能要计算到特别高的维数,这就造成了高维灾难。为了缓解这个问题,减少计算量,引入了核函数的概念,核函数把在低维空间内线性不可分的样本进行转换,使其在高维空间内线性可分。通俗一点讲就是,当某个问题不是线性可分时,SVM的做法是在较低维的空间进行计算,之后选择一个合适的核函数将数据映射到高维空间,通过这种映射使得样本线性可分,SVM还可以与不同的算法相结合。因此,我们可以用不同形式的基于核函数的方法去解决不同的问题。利用SVM,通过间隔将两类数据进行分离,就是要找到一个可以满足距离最大化的超平面,如果找不到就把数据映射到更高维的空间内,例如对于图2.2中的左图,这些数据在二维空间中线性不可分,即无法找到一条直线将数据分隔为两类,因此,将数据映射到三维空间,就可以容易地找到分离超平面,实现数据的分类。分离超平面图2.2分离超平面SVM并不是随意地在两个数据集合之间选择一条直线,事实上,可以实现数据划分的直线有很多条,SVM要使得它们之间的距离最大化,要在这些直线中,找到使得两类不同的点间隔最大的那一条,如图2.3所示,分类间隔越大,对于新的样本点的判断就会越准确,尽量避免了间隔较小导致容易错分的情况。因此,SVM要求分类间隔要尽量大,即找到最大间隔的直线,映射到高维空间的话,就是要找到最大间隔的超平面。8 margin图2.3支持向量机以二分类问题为例,对于给定的样本集合(ݔ,݈,…,2,1=݅,)௜ݕ,௜ݔ௜是第݅个样本,ݕ,的分可性线是题问设假,签标的应对本样个݅第是௜ݕ௜∈{+1,−1},则超平面方程为:ݔ⋅ݓ+ܾ=0(2.1)其中,ݓ,量向入输是ݔ是权值向量,ܾ是偏置。为了使得模型能够对所有样本正确分类,而且保证最大分类间隔,即需要满足如下条件:ݕ,1+≥ܾ+௜ݔ⋅ݓ௜=+1൜(2.2)ݕ,1−≤ܾ+௜ݔ⋅ݓ௜=−1即:ݔ⋅ݓ(௜ݕ௜+ܾ)≥1,݅=1,2,…,݈(2.3)在服从上述约束的条件下,实现最大化分类间隔2/‖ݓ‖,转化为求约束下的最小化函数:ଵଶଵ߶(ݓ⋅ݓ(=‖ݓ‖=)ݓ)(2.4)ଶଶ2.1.2逻辑回归模型逻辑回归是一种常见的分类方法,它通过训练逻辑函数对新样本进行预测,例如对垃圾邮件的过滤,电子邮件的普及方便了大家,同时也带来了一些麻烦,垃圾内容影响了正常的通讯,也给用户带来了不好的使用体验,需要使用某种策略把邮件分类为正常邮件和垃圾邮件,最简单的想法是,根据线性回归预测的连续值结果设定一个阈值来进行分类。事实上,对于简单情况可以通过这种设置阈值的方式来解决,例如进行疾病诊断时,已知很多样本的肿瘤大小,判断新的样9 本是否为恶性肿瘤,首先建立线性回归模型ℎఏ(ݔ),之后设定一个阈值例如设为0.5,当ℎఏ(ݔ(ఏℎ当则否,瘤肿性恶是点该断判,时5.0≥)ݔ)<0.5时,判断该点为良性肿瘤。然而,实际的例子复杂很多,往往会出现一些干扰数据导致无法线性可分,此时,就引入了逻辑回归。逻辑回归模型的函数定义为:ℎఏ(ݖ(݃=)ݔ)(2.5)式中,z=ߠ்ݔ,ݔ是特征向量,函数݃是sigmoid函数,其表达式为:ଵ݃(ݖ)=(2.6)ଵା௘ష೥函数ℎ是逻辑回归函数,将函数݃代入,可得到:ଵℎఏ(ݔ)=(2.7)ଵା௘షഇ೅函数ℎ表示当输入特征为ݔ(ఏℎ如。率概的时1为出输算计ݔ据根,时ݔ)=0.8的含义是,病人有80%的可能患有恶性肿瘤。代价函数用来比较在某个参数下模型预测的结果和实际结果的差距,逻辑回归的代价函数是:ଵ∑௠ܥ݋ݏݐ(ℎ(௜)(௜)ܬ(θ)=௜ୀଵఏ(൫ݕ,൯ݔ))(2.8)௠其中:−log൫ℎఏ(ݕ݂݅൯)ݔ=1ܥ݋ݏݕ,ݔ(ఏℎ൫ݐ)൯=ቊ(2.9)−log൫1−ℎఏ(ݕ݂݅൯)ݔ=0合并后可得到:ଵ௠(௜)(௜)(௜)(௜)ܬ(θ)=−[∑௜ୀଵݔ൫ఏℎ−1ቀlog)ݕ−1(+ቁ൯ݔ൫ఏℎቀlogݕ൯ቁ](2.10)௠训练模型求出使得损失函数ܬ(θ)最小的参数θ,迭代更新时采用梯度下降法,参数的更新规则为:డߠ௝=ߠ௝−ߙܬ(θ)(2.11)డఏೕ求出偏导数后代入,可得迭代更新规则为:10 ଵ∑௠(ℎ(௜)(௜)(௜)ߠ௝=ߠ௝−ߙ௠௜ୀଵఏ൫ݔ)ݕ−൯ݔ௝(2.12)2.2文本信息抽取文本信息抽取是自然语言处理的基本任务之一,由于大多数语料是非结构化的自由文本,因此,需要对语料进行预处理,从中抽取出实验要用的信息,本节主要介绍信息抽取中常用的隐马尔科夫模型和条件随机场模型。2.2.1隐马尔科夫模型隐马尔科夫模型(HiddenMarkovModel,HMM)可以利用给出的观测值和对工作原理的假设,找到系统的隐含状态,其关键在于由已知的参数来确定未知参数,之后即可进行分析预测。马尔科夫链是把时序当作一条链来看待,每个节点的值只与它前面n个节点有关,隐藏的马尔科夫链生成的序列叫做状态序列,由其生成的序列叫做观测序列,观测序列不是唯一的。假设ܳ={ݍଵ,ݍଶ,…,ݍ௡}是所有可能的状态集合,ܸ={ݒ,…,ଶݒ,ଵݒ௠}是所有可能的观测状态,ܫ={݅ଵ,݅ଶ,…,݅௧}是状态序列,ܱ={݋ଵ,݋ଶ,…,݋௧}是观测序列,其中,ݍ是未知的,而ݒ是可以观察到的,模型可以看成一个五元组{ܳ,ܸ,ܣ,ܤ,ߨ},分别对应着两个状态和三个矩阵:(1)隐含状态ܳ:ܳ={ݍଵ,ݍଶ,…,ݍ௡},可能的状态有n种。(2)可观测状态ܸ:ܸ={ݒ,…,ଶݒ,ଵݒ௠},可能的输出状态有m种。(3)状态转移矩阵ܣ:ܣ=[ܽ௜௝]௡×௡(2.13)式中:ܽ௜௝=ܲ൫݅௧ାଵ=ݍ௝ห݅௧=ݍ௜൯,݅=1,2,…݊;݆=1,2,…,݊(2.14)其中,ܽ௜௝是状态转移概率。(4)观测概率矩阵ܤ:ܤ=[ܾ௝(݇)]௡×௠(2.15)ܾ௝(݇)=ܲ൫݋௧=ݒ௞ห݅௧=ݍ௝൯,݇=1,2,…݉;݆=1,2,…,݊(2.16)其中,ܾ௝(݇)是观测值概率。(5)初始状态概率向量ߨ={ߨଵ,ߨଶ,…,ߨ௡}。11 隐马尔科夫模型包括以下问题:评估、解码和预测。以用户访问某网站为例,用户可以有注册、浏览、购买或注销账号等行为,通过对用户行为的分析来发现潜在的消费群体,转移概率记录了用户行为模式的大量信息,通过它可以观察到用户行为与时间变化的关系,已知一个给定的观察结果时,通过用户的行为确定其隐含状态。评估是概率计算问题,指的是在已知的用户状态转移和观测时,某个序列出现的概率是多大。解码是学习问题,指的是给定一个序列时,它最可能的隐含状态是什么。预测则是指给定一个观测序列时,找到用户接下来最可能的行为是什么。针对信息抽取,主要解决其中的解码和预测问题,有监督通过极大似然法进行HMM模型的参数估计,无监督采用Baum-Weich算法训练学习,得到模型参数后,采用Viterbi算法进行解码,输出最有可能的状态标签序列,具体步骤如下:(1)首先需要估计出HMM模型的参数,假设样本中t时刻的状态ݍ௜转换到t+1时刻的状态ݍ௝的次数是ܣ௜௝,则状态转移概率ܽ௜௝是:஺೔ೕܽ௜௝=೙,݅=1,2,…݊;݆=1,2,…,݊(2.17)∑ೕసభ஺೔ೕ假设样本中时刻t时状态为ݍ௝的次数是ܤ௝௞,则观测概率ܾ௝(݇)是:஻ೕೖܾ௝(݇)=೘,݆=1,2,…݊;݇=1,2,…,݉(2.18)∑ೖసభ஻ೕೖ其中,ߨ௜是初始状态为ݍ௜的频率。(2)得到模型的参数后,当给定一个序列ܱ={݋ଵ,݋ଶ,݋ଷ,…,݋௧}时,采用Viterbi算法,如图2.4所示,预测出最有可能的状态标签序列。Viterbi算法旨在找到每个点的状态,使得序列结果最优,它把求解全局最优问题进行分解,转换为求解各阶段的最优结果。y11y21yn1y12y22yn2y13y23yn3图2.4Viterbi算法12 2.2.2条件随机场模型条件随机模型可以用来标记序列化数据,对于给定的观察序列,输出最有可能的标签序列,将信息抽取中的实体抽取视为序列标注任务,使用线性链条件随机场解决此类问题,针对电子病历文本,随机变量ܺ={ݔ,…,ଶݔ,ଵݔ௡}表示观察序列,随机变量ܻ={ݕ,…,ଶݕ,ଵݕ௡}表示相应的标签,ܲ(ܻ|ܺ)表示在已知X的条件下Y的分布,则条件随机场可表示为:ଵ݊ܲ(ݔ,݅ݕ,1−݅ݕ൫݂݇݇ߣ݇1=݅∑∑}exp)௫(௓=)ߣ,ݔ|ݕ,݅൯}(2.19)式中,݂௞(ݔ(ܼ,值权是௞ߣ,数函征特是)݅,ݔ,௜ݕ,ଵି௜ݕ)为归一化项:ܼ(ݔ,ݕ,ݕ(݂ߣ௡∑∑}exp∑=)ݔ,݅)}(2.20)௬௜ୀଵ௞௞௞௜ିଵ௜对于一个条件随机场模型,已知观察序列X时,概率最大的标记序列可以表示为:ܻ∗=argmaxܲ(ݔ|ݕ)(2.21)௒使用条件随机场训练模型,给定一个输入句,ܲ(ܻ|ܺ)值最大的那个就是输出的标记序列,即输入句中词序列对应的实体类别序列。已知训练集ܦ={(ܺଵ,ܻଵ),(ܺଶ,ܻଶ),…,(ܺ௞,ܻ௞)},ܲ෨(ݕ,ݔ)表示训练集的经验概率,则其对数似然函数形式为:ܮ(ߣ)=∏log݌(ݔ|ݕ,ߣ)௉෨(௫,௬)(2.22)௫,௬最大似然估计要找到参数ߣெ,使得训练样本的似然函数最大化,即:ߣெ=argmaxܮ(ߣ)(2.23)把对数似然函数公式取对数,则有:ܮ(ߣ)=∑ܲ෨(ݔ|ݕ(݌log)ݕ,ݔ,ߣ)(2.24)∑ఒమೖೖ为了防止过度学习,使用惩罚项,结合条件随机场的条件概率公式,则ଶఙమ对数似然函数形式为:∑ఒమೖೖܮ(ߣ)=∑௫,௬ܲ෨(ݔ(ܼlog)ݔ(෨ܲ௫∑−)ݔ,ݕ(௞݂௞ߣ௞∑)ݕ,ݔ)−ଶఙమ(2.25)参数估计可以使用L-BFGS算法,L-BFGS算法是对BFGS算法的改进,降低了数据存储空间。13 2.3预测和分类模型电子病历文本的预测和分类,常用到基于传统机器学习和基于深度学习的分类模型,传统机器学习方法如支持向量机、决策树和逻辑回归,已被广泛应用于科研和工业中,而以深度学习为基础的研究正在逐渐展开。本文使用的预测模型基于神经网络进行了改进,因此本节给出神经网络的基本理论,并介绍了两种广泛使用的模型:卷积神经网络和循环神经网络。2.3.1神经网络介绍神经网络由大量的神经元节点连接而成,它通过多次的函数映射完成预测输出,图2.5给出了一个全连接神经网络,神经网络的特别之处在于它使用了多个神经元,而神经元是一种加权函数,它通过某种映射完成输入到输出的转换,图中输入层有3个神经元,隐藏层有4个神经元,输出层有2个神经元,因此,该网络可以表示为3-4-2,神经网络的隐藏层数目可以是多个,例如隐藏层有2层,每层的神经元个数为4个,则网络可以表示为3-4-4-2。此外,还有很多其它结构的神经网络,他们的连接方式都有所不同。神经网络可以看作是一个函数,可以由输入值得到输出值,即:ݔ(௞௥௢௧௪௘௡݂=ݕ)(2.26)式中,ݔ以。量向入输是]ଷݔ,ଶݔ,ଵݔ]=ݔ,量向出输是]ଶݕ,ଵݕ]=ݕ作为神经网络的输入,把值传递给输入层的神经元,然后依次计算各层的神经元的值,直到最后一层,就得到了预测结果。a4w414x1w841w42a5w85y158x22a6y269x33a77图2.5全连接神经网络14 如图2.5所示,ݔ,量向出输是ݕ是输入向量,神经元的激活函数采用sigmoid函数,依次进行计算,首先计算隐藏层各个节点的输出值:ܽସ=sigmoid(ݓସଵݔଵ+ݓସଶݔଶ+ݓସଷݔଷ+ݓସ௕)(2.27)ܽହ=sigmoid(ݓହଵݔଵ+ݓହଶݔଶ+ݓହଷݔଷ+ݓହ௕)(2.28)ܽ଺=sigmoid(ݓ+ଷݔଷ଺ݓ+ଶݔଶ଺ݓ+ଵݔଵ଺ݓ଺௕)(2.29)ܽ଻=sigmoid(ݓ+ଷݔଷ଻ݓ+ଶݔଶ଻ݓ+ଵݔଵ଻ݓ଻௕)(2.30)接着就可以计算出输出层的值:ݕଵ=sigmoid(ݓ଼ସܽସ+ݓ଼ହܽହ+ݓ଼଺ܽ଺+ݓ଼଻ܽ଻+ݓ଼௕)(2.31)ݕଶ=sigmoid(ݓଽସܽସ+ݓଽହܽହ+ݓଽ଺ܽ଺+ݓଽ଻ܽ଻+ݓଽ௕)(2.32)2.3.2卷积神经网络(CNN)卷积神经网络采用了权值共享,减少了参数数量,提高了训练效率。网络结构采用局部连接,减少了很多参数,且一组连接可以使用相同的权重,之后在池化层使用Pooling技术减少样本数,再次减少了参数数量,降低了模型的复杂度。输入层卷积池化卷积池化全连接层图2.6卷积神经网络卷积神经网络由卷积层和池化层组成,卷积层通过卷积变换提取特征,池化层通过下采样减少卷积层的参数数量,如图2.6所示,对输入层接收到的数据进行卷积操作,定义特征映射的权重叫做共享权重,特征映射的偏置叫做共享偏置,而共享权重和偏置称之为一个卷积核,图中有3个卷积核,因此得到3个特征映射,接着由池化层进行下采样,得到了三个较小的特征映射,之后进入第二个卷积层,进行卷积操作,得到5个特征映射,接着由第二个池化层继续进行下采样,得到了5个更小的特征映射,最后两层是全连接层,这样就得到了整个网络的输出:15 ℎ=sigmiod(pooling൫sigmoid(ݔ⋅ݓ)൯+ܾ)(2.33)式中,ݓ和ܾ是需要训练的参数,sigmoid是激活函数。2.3.3循环神经网络(RNN)循环神经网络可以对时间序列上的变化进行记录,更适合处理变长或具有时序关系的数据,常用于词性标注或命名实体识别等序列标注任务中。循环神经网络中,当前的输出不仅与当前的输入有关,还与前面的输出有关,其结构如图2.7所示。ot-1otot+1.........VVVWWWW.........st-1UstUst+1U.........xt-1xtxt+1图2.7循环神经网络其中,ݔ௧是网络在t时刻的输入,ݏ௧是隐藏层的值,݋௧是输出值,ݏ௧ିଵ是上一时刻隐藏层的值,U、V、W是三个权重矩阵,ݏ௧的值不仅与ݔ௧有关,还与ݏ௧ିଵ有关,循环神经网络的隐藏层为:ݏ௧=݂(ܷݔ௧+ܹݏ௧ିଵ)(2.34)输出层为:݋௧=݃(ܸݏ௧)(2.35)式中,݂和݃是激活函数,݂是sigmoid或ReLU函数,݃一般是softmax函数。2.4本章小结本章主要结合电子病历介绍了常用的信息抽取和分类算法,介绍了神经网络模型的基本理论。将匿名化视为实体抽取任务,可以采用多种机器学习模型,神经网络同样可以用来解决抽取或分类任务,介绍了两种主要的神经网络模型:卷积神经网络和循环神经网络。16 3基于深层网络模型的电子病历匿名化本文采用三种深层网络模型实现电子病历的匿名化,电子病历匿名化可视为命名实体识别任务,深层条件随机场模型采用了多种特征,且没有独立性假设的约束,可以更好地利用上下文特征,深层条件随机场模型将复杂的实体识别问题分解为多个子问题,加入边界特征,针对每个子问题分别在不同层进行实现。BR-BiRNN模型基于块表示将医疗文本转化为词向量,以词向量作为神经网络的输入,由输出层输出预测结果。BR-BiLSTM-CRF模型同样基于块表示方法,结合了双向长短期记忆单元和链式条件随机场,将前向LSTM和后向LSTM的输出拼接为新的词向量作为后层条件随机场的输入,最终实现实体识别。整体流程如图3.1所示。特征抽取词特征预处理词性特征医疗文本深层条件随机(过滤、块表示拼写特征场模型训练清洗等)上下文特征输出结果联合特征生成词向量BR-BiRNN模型BR-BiLSTM-CRF训练模型训练输出结果输出结果图3.1电子病历匿名化整体流程图3.1基于深层条件随机场的匿名化模型电子病历匿名化任务,关键在于识别出文本中的隐私实体,很多工作显示条件随机场模型在这方面更具有优势,因此,本文对条件随机场进行改进,提出了基于深层条件随机场的匿名化模型,将实体识别分为实体边界检测和实体类别识别两个阶段的任务,分别在不同层进行实现,给出了模型的结构和选取的特征模板。17 3.1.1深层条件随机场模型条件随机场模型更好地利用了上下文的优势,在序列标注任务中更有优势,本文在传统条件随机场模型的基础上进行改进,提出了深层条件随机场模型,对问题进行拆分,将复杂的实体识别问题分解为子问题:实体边界检测和确定实体类别。如图3.2所示,针对子问题分别在模型中的不同网络层逐步实现。首先是实体边界检测,由第一层条件随机场完成,之后是确定实体类别,由第二层条件随机场完成。深层条件随机场模型将复杂问题拆分为多个子问题,第一层的输出为实体边界特征,并不涉及具体实体类别,包括隐私实体的开始,隐私实体的内部、隐私实体的结束、单个词构成的隐私实体和非隐私实体,由于只有五种类别更利于学习有效特征且提高了训练效率,第二层通过第一层的学习为最终分类提供支持。本文深层条件随机场模型中第二层的输入不仅包括第一层的输出,还包括原始词特征、词性特征及上下文特征。B-HOSPITALE-HOSPITALOO...S-DATE标记序列...第二层...BEOSO第一层...原始序列...MacanHospitalis...11/08.图3.2深层条件随机场模型已知训练集D={(ݕ,本样是ݔ,{)௞ݕ,௞ݔ(,…,)ଶݕ,ଶݔ(,)ଵݕ,ଵݔ是标签。特征函数݂௞(ݐ,)݅,ݔ,௜ݕ,ଵି௜ݕ(௞ݐ数函和)݅,ݔ,௜ݕ(௟ݏ数函括包)݅,ݔ,௜ݕ,ଵି௜ݕ௞表示观察序列位置݅−1和݅之间的转移特征函数,ݏ௟表示观察序列݅的状态特征函数,根据݅时刻时ݔ的真实特征获得模型的特征函数集,之后从训练数据学习模型的参数,即从训练数据中估计特征的权重。18 根据对数似然函数对相应的参数ߣ௞求偏导,对于未标记的序列,求解最可能的标记序列结果,将全局任务分解为多个阶段的小任务,针对每个小任务找到最可能的结果。深层条件随机场得到第一层网络的输出结果后,将此结果传递到第二层网络,通过加入第一层输出的实体边界特征,联合考虑当前词特征和前一个词的词性特征,最终输出实体标记序列。3.1.2特征模板特征模板定义了从训练集中提取特征的方法,本文对训练集进行处理后抽取如下特征:词特征:词本身特征。词性特征:词的词性。拼写特征:如是否包含数字或特殊符号等。上下文特征:当前词及其前后若干词组成的观察窗口。联合特征:如t0p-1,t0表示当前词,p-1表示前一个词的词性。特征函数集的生成由特征模板产生,初始特征函数集为空,依次取出特征模板中的模板与训练文件中的每个对应项进行匹配,若生成的特征函数不在特征函数集中,就将新产生的函数加入到集合中,即针对每一个模板,遍历训练文件中的每个对应项,生成对应的特征函数,特征函数是二值函数,若原始序列和状态序列满足条件则特征函数值为1,否则为0,之后使用最大似然估计法训练求解特征函数的权重,训练得到权重后即生成了模型,输入测试数据即可实现预测。一个模板生成的函数的数量是L∗N,其中,L是训练集中的种类数,N是由模板处理后得到的字符串种类数。原子特征模板描述了当前词及其词性信息等,本文选用的模板如表3.1所示,利用多个特征进行模型的训练与学习。表3.1原子特征模板模板形式模板说明ti(i=-7,-6,...,6,7)词特征pi(i=-2,-1,0,1,2)词性特征Oi(i=-2,-1,0,1,2)词的拼写特征19 组合特征相对原子特征加入了多种特征的组合形式,能表达出更多的上下文信息,因此需要对原子特征进行组合,本文部分组合特征模板如表3.2所示。表3.2部分组合特征模板模板形式模板说明t0p0当前词和当前词词性t0p-1当前词和前一个词词性p0p-1当前词词性和前一个词词性t0t-1当前词和前一个词p0t0p1当前词词性、当前词和后一个词词性t0O0当前词和当前词的拼写特征O0O-1当前词拼写特征和前一个词拼写特征p-1p0O0前一个词词性、当前词词性和拼写特征3.2基于BR-BiRNN的匿名化模型本文提出一种基于块表示方法的匿名化模型,将循环神将网络用于电子病历文本,采用双向RNN进行隐私实体的识别,首先介绍了块表示方法,之后给出了词向量的生成算法,神经网络不能直接以词语作为输入,因此得到词向量后传递给网络的输入层,由训练集进行模型的训练,之后对测试集进行预测,即预测出某个词是否属于隐私实体,并识别出具体属于哪一类隐私实体。3.2.1块表示方法将电子病历的匿名化视为序列标注任务,则需要对原始语料进行处理,将文本表示为适合序列标注的块表示方法。本文采用BIOES表示法,常见的BIO表示法以B(Begin)表示隐私实体的开始,I(Inside)表示隐私实体的中间,O(Outside)表示隐私实体的外部,即该词不是隐私实体。而BIOES表示法加入了E和S,其中的BIO与上述相同,此外,E(End)表示隐私实体的结束,S(Single)表示该词单独构成隐私实体,即该实体仅由一个词语组成。不同的块表示方法对隐私实体识别有不同的影响,图3.3给出了两种表示方法的比较。20 BIOrepresentation:On/O9-27/B,/Oshe/Oexperienced/Oanother/OEpisode/Oof/Oconstipation/Oand/Oimpaction/O,/Ocame/Oto/OLiccam/BCommunity/IMedical/ICenter/I./OBIOESrepresentation:On/O9-27/S,/Oshe/Oexperienced/Oanother/OEpisode/Oof/Oconstipation/Oand/Oimpaction/O,/Ocame/Oto/OLiccam/BCommunity/IMedical/ICenter/E./O图3.3BIO和BIOES表示法3.2.2词向量的生成神经网络不能直接接收词语作为输入,因此需要将文本表示为词向量的形式,以句子为单位,将数据表示为词向量的集合。通过生成词向量,将文本中的语言文字转化为数学表示,将词表示为相应的词向量,所有的词向量构成一个空间,每个词向量就是空间中的一个点,利用空间距离就可以计算词之间的相似性,通过这种数学化的表示,更利于挖掘语言中的相关特征。词典由大量语料生成,训练集和测试集中由于每个句子长度不同,采用窗口策略对语料进行处理,实验后设定窗口大小为5,即神经网络的输入ݔ,ݔ,ݔ,ݔ,ݔ}=)௜(ݔ}是当前词௜ିଶ௜ିଵ௜௜ାଵ௜ାଶ的词向量及其上下各两个词的词向量。当前词为句首词时,由于其前面并没有词,用负1填充,当前词为句尾词时类似,算法1以BIO表示法为例,给出了词向量的生成算法。算法1:词向量生成算法输入:训练数据集lex_train,ne_train,测试数据集lex_test,ne_test,词典dicts输出:训练好的词向量train_set,test_set1.words2idx=dicts[0];//将词转换为词向量2.labels2idx=dicts[1];//将标签转换为词向量3.idx2word=dict((k,v)forv,kinwords2idx.iteritems());4.idx2label=dict((k,v)forv,kinlabels2idx.iteritems());5.O_idx=labels2idx['O'];6.InitializeB_idx_list和I_idx_list为空;//初始为空7.Fork,vinidx2label.iteritems()8.Ifv.startswith('B')9.B_idx_list.append(k);10.Elifv.startswith('I')21 11.I_idx_list.append(k);12.Endfor13.Foreachlex_train[i][j]inlex_train14.lex_train[i][j]=words2idx[lex_train[i][j]];//生成词向量15.Endfor16.Foreachne_train[i][j]inne_train17.ne_train[i][j]=labels2idx[ne_train[i][j]];//生成词向量18.Endfor19.Foreachlex_test[i][j]inlex_test20.lex_test[i][j]=words2idx[lex_test[i][j]];//生成词向量21.Endfor22.Foreachne_test[i][j]inne_test23.ne_test[i][j]=labels2idx[ne_test[i][j]];//生成词向量24.Endfor25.训练集词向量集合train_set=[lex_train,ne_train];26.测试集词向量集合test_set=[lex_test,ne_test];3.2.3BR-BiRNN模型引入双向循环神经网络模型BiRNN进行隐私实体的识别,如图3.4所示,基于BIOES块表示方法,BR-BiRNN模型包含一个前向RNN层,一个后向RNN层,以生成的词向量作为输入,对前后两个方向时间序列上变化进行记录,经softmax层后输出识别结果。y1y2y3...yn-1yn...softmax层前向RNN层后向RNN层.........词向量x1x2x3...xn-1xn图3.4BR-BiRNN模型22 将原始文本预处理后转化为块表示方式,对每个词生成相应的词向量,以词向量作为网络的输入,传递给前向RNN和后向RNN,把前向RNN和后向RNN的输出拼接传递给softmax层,由softmax输出序列{ݕ,…,ଶݕ,ଵݕ௡},即预测标签,算法2给出了模型的训练过程。算法2:BR-BiRNN模型的训练算法输入:医疗文本输出:训练后的BR-BiRNN模型1.将文本表示为词向量形式train_set=[lex_train,ne_train];2.While不满足终止条件对train_setdo3.前向传播分别计算前向层和后向层的ݕ෤௧:4.ℎ௧=ߪ(ݖ௧)=ߪ(ܷݔ௧+ܹℎ௧ିଵ+ܾ)5.݋௧=ܸℎ௧+ܿ6.ݕ෤௧=ߪ(݋௧)ଵ(௜)(௜)(௜)(௜)7.计算误差:ܬ(ݔ()௕,௪(ℎ−1(log)ݕ−1(+)ݔ()௕,௪(ℎlogݕ(∑]−=)ܾ,ݓ))]௠డ௃(௪,௕)8.反向传播并更新权值:ݓ←ݓ−αడ௪డ௃(௪,௕)9.ܾ←ܾ−αడ௕10.Endwhile3.3基于BR-BiLSTM-CRF的匿名化模型提出了基于块表示的BR-BiLSTM-CRF匿名化模型,结合了双向LSTM和CRF,文本经预处理表示为词向量形式后,输入到双向LSTM网络,LSTM的输出层连接到一层CRF上,利用CRF在序列标注中的优势实现隐私实体的识别。3.3.1LSTM记忆单元结构简单的RNN不适合处理长距离的问题,长短期记忆网络LSTM是RNN的一种变形,它不仅可以保存短期的输入,还能保存长期的状态,LSTM增加了一个单元状态c来保存长期状态,其结构如图3.5所示。23 xtxtitotxtchttftxt图3.5LSTM单元组成结构LSTM单元c的内容由3个门来控制,分别是输入门݅௧、遗忘门݂௧、输出门݋௧。输入门݅௧控制前一时刻的状态ܿ௧ିଵ可以保留到当前ܿ௧的数量,遗忘门݂௧控制当前输入ݔ௧可以保留到当前ܿ௧的数量,输出门݋௧控制ܿ௧可以输出到LSTM的当前输出值ℎ௧的数量,使用如下定义实现:݅௧=ߪ(ܹ௜ℎ௧ିଵ+ܷ௜ݔ௧+ܾ௜)(3.1)݂௧=ߪ(ܹ௙ℎ௧ିଵ+ܷ௙ݔ௧+ܾ௙)(3.2)݋௧=ߪ(ܹ௢ℎ௧ିଵ+ܷ௢ݔ௧+ܾ௢)(3.3)ܿ௧̃=tanh(ܹ௖ℎ௧ିଵ+ܷ௖ݔ௧+ܾ௖)(3.4)ܿ௧=݂௧⋅ܿ௧ିଵ+݅௧⋅ܿ௧̃(3.5)ℎ௧=݋௧⋅tanh(ܿ௧)(3.6)其中,ܹ和ܷ是权重矩阵,ܾ是偏置,⋅是按元素乘,σ和tanh是激活函数。σ函数定义为:ଵߪ(ݔ)=(3.7)ଵା௘షtanh函数定义为:௘ି௘షtanh(ݔ)=(3.8)௘ା௘షLSTM单元记录长期依赖信息,针对复杂问题可以利用到距离当前位置很远的上下文信息,适合间隔和延迟都很长的场景。24 3.3.2BR-BiLSTM-CRF模型单向LSTM仅利用了过去的上下文信息,而双向LSTM弥补了这个不足,它用到了过去和将来两个时间方向上的上下文信息。BR-BiLSTM-CRF模型基于块表示方法,使用双向的LSTM模型检测隐私实体边界,可以实现自动提取特征,连接到链式条件随机场层,因为条件随机场模型有效利用了前后的标签来预测当前标签,在序列标注中更具有优势,它接收双向LSTM的输出作为输入,同时仅再加入词和词性特征,而不需要人工总结和添加其他特征。隐私实体边界检测不仅与当前词向量前面的词向量有关,还与当前词向量后面的词向量相关,因此本文采用双向LSTM更有效地利用数据之间的整体序列信息来检测实体边界,采用CRF识别实体类别,结构如图3.6所示,其基本思想是训练序列向前和向后形成两个LSTM网络,分别利用了过去和未来的上下文信息,它们同时连接到一个输出层,之后再连接到一层CRF上。OS-PATIENTOOS-PROFESSIONOCRF层OSOOSO输出层后向层LSTMLSTMLSTMLSTMLSTMLSTM前向层LSTMLSTMLSTMLSTMLSTMLSTM词向量Mr.Sandyisaneditor.图3.6BR-BiLSTM-CRF模型隐私实体边界识别模型的输入层接收词向量作为输入,隐藏层包括LSTM的前向层和后向层,经过前向LSTM和后向LSTM后得到前向输出ℎሬԦ௧和后向输出ℎശሬ௧,将两个结果合并为ℎ௧=[ℎሬԦ௧,ℎശሬ௧]作为隐藏层的输出,传递到输出层作为softmax分类器的输入,损失函数是:ଵ(௜)(௜)(௜)(௜)ܬ(ݔ()௕,௪(ℎ−1(log)ݕ−1(+)ݔ()௕,௪(ℎ݃݋݈ݕ(∑]−=)ܾ,ݓ))](3.9)௠25 式中,ݕ,值本样个݅第是)௜(ݔ,数个的本样是m,数参练训是ܾ和ݓ(௜)是第݅个样本的标签,ℎ(ݕ的到得测预ܾ和ݓ数参用本样个݅第是))௜(ݔ值。(௪,௕)模型训练过程首先是前向计算,分别计算出LSTM前向层和后向层的值,模型刚开始训练时,预测值和实际值不同,接着计算每个神经元的误差项,之后使用梯度下降法更新网络参数,LSTM的反向传播包括两个方向:一个是把误差项传递到神经网络的前一层,一个是从当前时刻算起,计算出各个时刻的误差。重复此一系列步骤,直到误差小于给定的值,一般是小于一个很小的数为止,算法3是隐私实体边界识别的训练过程。算法3:实体边界特征识别的训练算法输入:医疗文本输出:训练后的实体边界识别模型1.将文本表示为词向量形式train_set=[lex_train,ne_train];2.While不满足终止条件,对train_setdo3.前向传播:计算LSTM前向层t时刻的ଓԦ௧,݂Ԧ௧,݋Ԧ௧,ܿԦ௧,ℎሬԦ௧;4.计算LSTM后向层t时刻的ശଓ௧,݂ശ௧,݋ശ௧,ܿശ௧,ℎശሬ௧;5.输出层softmax分类器的输入为ℎ௧=[ℎሬԦ௧,ℎശሬ௧];6.计算损失:将预测得到的结果ℎ(ݔ(௜))和期望值(௪,௕)7.ℎ(ݔ(௜))比较,得到损失函数J(w,b);డ௃(௪,௕)డ௃(௪,௕)8.反向传播:计算损失函数偏微分,;డ௪డ௕9.更新参数:ݓ∆+ݓ←ݓ,ܾ←ܾ+∆ܾ;10.Endwhile经过BR-BiLSTM获得隐私实体边界特征后,连接到一层条件随机场,将此边界特征作为条件随机场的输入,此外利用了原始的词特征和词性特征,而不再需要通过规则构建其他领域特征,无需大量的专业知识,就可以很好的实现电子病历中隐私实体的识别。训练BR-BiLSTM-CRF模型,由最后一层的条件随机场确定具体的隐私实体类别。由于条件随机场模型的当前输出考虑了上一输出结果,因此,对隐私实体识别这样的序列标注问题更具有优势,如I后面可以有多个I,但O后面不应出现I,B后面不会紧接着再次出现B,相比于一般的分类器输出独立的分类结果,条件随机场的输出有效利用了前后的标签来预测当前标签。26 3.4本章小结电子病历的匿名化关键在于隐私实体的识别,将其视为命名实体识别任务,提出了三种深层网络模型:深层条件随机场模型、BR-BiRNN模型、BR-BiLSTM-CRF模型。深层条件随机场模型首先采用原子特征和组合特征检测实体边界,得到实体边界特征后,将此特征传入后层网络,识别实体类别输出标签序列。BR-BiRNN模型基于块表示方法,引入双向循环神经网络,将文本处理后表示为词向量形式,自动提取特征,训练后输出预测标签序列。BR-BiLSTM-CRF模型结合了神经网络层和条件随机场层,由双向LSTM模型得到实体边界特征,传递给最后的条件随机场层输出实体标注结果。27 4基于神经网络的妊娠高血压预测模型妊娠高血压疾病是孕妇妊娠期间所特有的一种疾病,轻者头晕水肿,重者昏迷不醒,甚至引起死亡。孕妇的电子病历中记录了孕妇的各项检查指标,以及一系列的住院检查结果,因此,通过对电子病历的分析,及早的发现孕妇是否患有该疾病对保障母婴健康有重要意义。本文提出了两种疾病预测模型:基于特征融合的循环神经网络模型和基于文本数值化的TQ-LSTM模型,首先对电子病历文本进行预处理和信息抽取,并对缺失值进行补全,之后训练模型实现疾病预测。4.1基于特征融合的循环神经网络预测模型常用的神经网络模型以词向量作为输入,本文在此基础上,提出了基于特征融合的循环神经网络模型,首先基于规则实现信息抽取,针对形式较乱的电子病历生成包含多个句子的规整文本,将这些文本及其对应的词性分别表示为词向量和词性向量,之后将词向量和词性向量进行拼接得到一个新的特征向量,将其作为神经网络的输入来训练模型,进而预测某个孕妇是否患有妊娠高血压疾病。4.1.1信息抽取基本框架原始电子病历文本来自于某妇幼保健院,包括孕妇的首次病程记录、查房记录、术前小结、术后首次病程记录、出院小结等记录,各记录下又包含具体的相关内容,如表4.1所示。表4.1电子病历信息记录具体内容首次病程记录时间、主诉、入院查体、产科检查、辅助检查、入院诊断、诊断依据、鉴别诊断、诊疗计划查房记录时间、产科检查、诊断、建议术前小结时间、主诉、术前诊断、手术指征术后首次病程记录时间、手术原因、经过、术后诊断出院小结时间、入院诊断、诊疗经过、出院诊断、出院医嘱28 原始电子病历的形式是自由文本,而且格式较为混乱,对于这种非结构化的数据,对语料进行预处理分词,分词后制定出相应的语法规则。首先对信息进行分割,由于每项记录都包含了时间,而时间作为隐私信息在电子病历匿名化阶段已经做过处理,所有的时间用字符串TIME代替,因此可以TIME作为分隔符,将不同记录先进行一个粗略的分割,分割为上表中的五大项,而各项中又包含了不同的有用信息,再进行进一步的抽取。观察语料可知,主诉用双引号引起来,而其他信息位于符号冒号之后,进一步抽取将考虑到这些特征。需要对抽取到的信息进行过滤,因为文本中包含一些重复的信息,如首次病程记录和术前小结中都提到了主诉,还有一些与实验无关的信息,如性别、五官等,需要进行信息的过滤,之后加入触发词词表,通过一系列制定好的规则,输出最终抽取的信息结果,流程如图4.1所示。信息抽取模块规则设计匿名化后的电子信息分割分词输出结果病历信息过滤信息生成触发词词表图4.1信息抽取流程4.1.2构建触发词词典需要抽取出一些与孕妇本身身体状况有关的信息,以便于后续判断孕妇是否患有妊娠高血压疾病。观察语料,可以抽取的相关信息有:孕妇的年龄、停经月数、孕期体重增加量、体温、心跳、呼吸、收缩压、舒张压、有无患病表现症状、尿蛋白含量、血小板含量、既往史、家族史等,以此为基础构建触发词词表,通过触发词直接定位到电子病历中的某个位置,之后基于规则抽取出需要的的信息,本文的触发词词表如表4.2所示。29 表4.2触发词词表抽取信息触发词年龄岁停经月数停经孕期体重增加量体重体温T、℃心跳P呼吸R收缩压BP、mmHg舒张压BP、mmHg有无患病表现症状浮肿、水肿、头晕、头痛、眼花、恶心、呕吐、腹痛、昏迷尿蛋白含量尿蛋白血小板含量血小板既往史既往史家族史家族史使用的语料已经匿名化处理过,但是由于疾病预测需要用到孕妇的年龄,因此匿名化识别出各个实体后,年龄信息进行了保留,孕妇的年龄位于电子病历的开头,形式为“女,*岁”,其中*代表字符串,这里是阿拉伯数字。停经月数在主诉中,主诉的形式是一句用双引号包括的话,如:以“停经7月余,头晕头痛3天,眼花1天”为主诉入院。首先定位到主诉,匹配主诉中的停经一词,事实上后面的数字即是停经月数。孕期体重增加量一般在“体重增加”这两个词之后,后面出现的数字Kg就是增加的千克数。体温、心跳、呼吸、收缩压和舒张压一起出现,如:“T:36.8℃,P:87次/分,R:20次/分,BP:180/110mmHg”,BP中前一个数值180指收缩压,110指舒张压。患病表现症状信息为包含上表中相关触发词的句子。尿蛋白含量位于尿蛋白一词附近,如“出现尿蛋白(+)、尿蛋白(++)、尿蛋白*mg/24h”。血小板含量的记录一般表现为变化,如增加或减少,或者诊断中提出要补充血小板,也有给出数值的,单位为L。既往史和家族史位于电子病历的末尾记录,独立成段,以字符串“既往史:”“家族史:”开头,冒号后的内容就是具体信息。其中,由于电子病历中存在个别重复内容,如出院30 小结中又再次复述了入院检查的相关内容和诊疗经过,句子的提取以第一次提取到的内容为准,当找到相应信息后即停止匹配。4.1.3规则设计实验分词和词性标注采用的是中科院的ICTCLAS工具,可以对中文文本进行分词及词性标注,其中常见的词性见表4.3。表4.3中科院词性定义表词性解释词性解释n名词c连词nr人名v动词ns地名u助词m数词p介词a形容词q量词d副词w标点符号根据触发词定位所要抽取的信息在电子病历中的大概位置,可以通过正则表达式来实现。正则表达式一般由普通字符和元字符组成,普通字符例如常见的A-Z字符等,元字符是一种特殊的字符,常用的元字符及其解释如表4.4所示。表4.4元字符定义表元字符描述*匹配前面的子表达式零次或多次+匹配前面的子表达式一次或多次.匹配除换行符外的任何单字符?匹配前面的子表达式零次或一次|两项中选择一个()标记一个子表达式的开始和结束的位置{n.m}最少匹配n次且最多匹配m次,n、m是非负整数且n<=m定义普通字符和元字符的组合形成一个规则字符串,从而匹配到电子病历中想要的字符串。其中,由于“*”“+”元字符都是贪婪的,即会尽可能多的匹31 配字符,而这里需要最小匹配,因此在后面加上一个“?”实现非贪婪匹配。结合语法结构,找到抽取的信息,具体抽取规则设计如下:(1)孕妇年龄:女.+?岁(2)停经月数:停/vi经.+?/t(3)孕期体重增加量:体重/n增加/v.+?Kg(4)体温、心跳、呼吸、收缩压、舒张压:T:.+?mmHg(5)有无患病表现症状:(无/v)?(浮肿|水肿|头晕|头痛|眼花|恶心|呕吐|腹痛|昏迷)(6)尿蛋白含量:(尿.+?蛋白.+?+)|(尿.+?蛋白.+?mg)|(出现/v尿.+?蛋白)(7)血小板含量:(血小板/n减?少)|(血小板/n.+?/m)|(补充.+?血小板)|(血小板.+?功能.+?低下)(8)既往史:既.+?往.+?史.+?:.+ (9)家族史:家族.+?史.+?:.+ 通过规则定位到某个位置后,需要抽取出其所在的句子,这样,针对每个电子病历,都可以处理得到一个由多个句子构成的病历文本,过滤了很多无用的或重复的信息,具体抽取步骤如下:1.年龄、停经月数、孕期体重增加量、体温、心跳、呼吸、收缩压、舒张压的抽取步骤如下:1)读取第一个样本的文本内容;2)根据相应触发词的抽取规则在文本中进行查找;3)若找到则返回其所在的句子,若未找到返回空,结束查找;4)读取下一样本的文本内容,并重复上述步骤。2.有无患病表现症状的抽取步骤如下:1)读取第一个样本的文本内容;2)根据相应触发词的抽取规则在文本中进行查找,即匹配字符串:(无/v)?(浮肿|水肿|头晕|头痛|眼花|恶心|呕吐|腹痛|昏迷);3)若找到则返回其所在的句子,若未找到返回空,结束查找;4)读取下一样本的文本内容,并重复上述步骤。32 3.尿蛋白含量的抽取步骤如下:1)读取第一个样本的文本内容;2)如果查找到“(尿.+?蛋白.+?+)|(尿.+?蛋白.+?mg)|(出现/v尿.+?蛋白)”中的任意一个则返回其所在句,否则返回空,结束查找;3)读取下一样本的文本内容,并重复上述步骤。4.血小板含量的抽取步骤如下:1)读取第一个样本的文本内容;2)如果查找到“(血小板/n减?少)|(血小板/n.+?/m)|(补充.+?血小板)|(血小板.+?功能.+?低下)”中的任意一个则返回其所在句,否则返回空,结束查找;3)读取下一样本的文本内容,并重复上述步骤。5.既往史、家族史的抽取步骤如下:1)读取第一个样本的文本内容;2)查找到“既.+?往.+?史.+?:.+ ”或“家族.+?史.+?:.+ ”,则返回其所在句,若未查找到,返回空结束查找;3)读取下一样本的文本内容,并重复上述步骤。4.1.4模型训练经过规则提取后,过滤了大量的重复和无关信息,完成了句子抽取,得到的电子病历文本包含多个句子,每个句子由多个词语构成。一般的神经网络模型直接采用词向量作为网络的输入,本文采用融合后的特征输入到神经网络来进行训练,该特征的形式为词向量和词性向量的线性拼接,不再需要领域专业的知识,就可以通过训练对新样本进行疾病的预测。将文本中的词表示为向量的形式,同样地,将所有词性也表示为向量的形式,词和词性的向量进行拼接得到新的向量,依次把该向量拼接起来得到文本的向量化表示,把这个向量特征作为神经网络的输入,利用多个样本训练模型得到最优参数,最终实现妊娠高血压的预测,即已知某个孕妇的电子病历时,用于判断其是否患有该疾病,模型的结构如图4.2所示。33 RNN模型RNNRNNRNNRNNRNN...特征融合词性向量...词性...词向量...词...图4.2基于特征融合的RNN预测模型根据语料构建词典,对于词典中的每一个词语,生成词向量,同样的构建词性词典,对每一种词性,生成词性向量。之后针对每个电子病历文本进行特征融合后得到新的特征,以此特征向量作为神经网络的输入,网络的最终输出为1或0,1代表患有妊娠高血压疾病,0代表没有患病,使用RNN模型来进行参数训练,模型的训练过程如下:(1)文本中第݅个句子可以表示为向量ݏ௜=(ݐ中其,)௠ݐ,…,ଵݐ,଴ݐ௝是句子中的第݆个词的词向量,第݅个句子对应的词性向量ܿ௜=(݌଴,݌ଵ,…,݌௠),其中݌௝是第݆个词的词性向量,采用拼接的方式,把词向量和词性向量拼接为一个新的向量,拼接后的向量为ݔ量向该以,]௜݌,௜ݐ]=௜ݔ௜作为神经网络的输入。34 (2)对模型前向计算每个神经元的输出值,设ܬ是网络的损失函数,ݓ௟表示௝௞从݈−1层的第݇个神经元到第݈层的第݆个神经元的权值,ܽ௟表示第݈层的神经元的激活值,σ表示sigmoid函数,则ܽ௟=ߪ(ݓ௟∗ܽ௟ିଵ+ܾ௟)。(3)进行反向误差计算,ݓ=௟ݖ௟∗ܽ௟ିଵ+ܾ௟,设第݈层的第݆个神经元的误௟௟డ௃்௃డ௃ᇱ௃差为δ௝,则δ௝=(డ௭೗),输出层的误差δ௝=಻ߪ(ݖ௝),中间层第݈层的误ೕడ௔ೕ差(ߜ௟)்=(ݖ(ᇱߪ⋅ଵା௟ߜ்)ଵା௟ݓ௟),其中,⋅代表按元素乘。ப௃ப௃(4)更新权值,ݓ=ݓ−ߙ,ܾ=ܾ−ߙ,其中,α是学习速率。ப୵ப௕(5)满足终止条件时停止,否则转步骤(2)继续训练。4.2基于文本数值化的TQ-LSTM预测模型直接将文本表示为词向量的形式,当文本很长时维度较大,考虑直接从电子病历文本中提取出相关参数值,将文本数值化表示后进行模型训练,神经网络的输入就是这些参数值的集合,本文共提取了13种生理参数,输入层节点个数是13,采用双向LSTM结构进行训练。4.2.1参数提取和文本数值化基于特征融合的RNN模型可以得到较好的结果,但是输入层维度较大,因为文本具有一定的长度,而且多个文本的长度不同,需要用0填充为相同的长度,考虑直接从文本中提取出与妊娠高血压疾病有关的参数,全部表示成数值形式,即将文本进行数值化,共提取13种参数,分别是:孕妇的年龄、停经月数、孕期体重增加量、体温、心跳、呼吸、收缩压、舒张压、有无患病表现症状、尿蛋白含量、血小板含量、既往史、家族史,参数提取可视为序列标注任务,采用条件随机场模型进行参数提取,之后采用LSTM模型进行训练。原始的电子病历文本经过匿名化处理,去掉了其中涉及到病人或医生的隐私信息,之后进行分词和词性标注,将词和词性作为选择的特征,此外,观察可知,如孕妇的年龄、停经月数、孕期体重增加量、体温、心跳、呼吸、收缩压、舒张压均为数字表示形式,而有无患病表现采用了之前总结的症状词语作为特征,标点符号冒号和引号在文本中具有一定的提示和标识作用,相比于其他标点符号更具有区分性,因此将他们单独提出来作为特征,句号记为1,冒号记为2,35 引号记为3,其他记为4。模型选择的特征共有以下四类:词特征、词性特征、是否是症状触发词、是否是句号或冒号或引号,模板的窗口大小一般选择为5。此外,还考虑了这些特征之间的结合,这种组合形式有时候对实体抽取更具有参考作用,鉴于电子病历的结构特点,有的参数前面一般都有固定的形式,如某个固定的词语或者标点符号等,采用这种组合形式更利于抽取出所需参数,本文采用的模板信息如表4.5所示。表4.5特征模板模板形式模板说明t-2当前词左边第二个词t-1当前词左边第一个词t0当前词t1当前词右边第一个词t2当前词右边第二个词p-2当前词左边第二个词的词性p-1当前词左边第一个词的词性p0当前词的词性p1当前词右边第一个词的词性p2当前词右边第二个词的词性w-1当前词左边第一个词是否是症状触发词w0当前词是否是症状触发词w1当前词右边第一个词是否是症状触发词f-2当前词左边第二个词是句号还是冒号还是引号f-1当前词左边第一个词当前词是句号还是冒号还是引号f0当前词当前词是句号还是冒号还是引号f1当前词右边第一个词是句号还是冒号还是引号f2当前词右边第二个词是句号还是冒号还是引号p0p1连续两个词的词性t-1w0左边第一个词+当前词是否是症状触发词f-1f0f1f2连续四个词的符号特征36 特征集的生成由特征模板产生,具体步骤为针对训练集中的每个词,依次与特征模板中的每一项进行匹配,将产生的特征加入到特征集中,实现流程如图4.3所示。得到特征集后训练条件随机场模型,采用最大似然估计和L-BFGS优化,加入了L2正则化防止过拟合问题,最后使用维特比算法输出抽取信息。开始Y生成一个特征依次读取特征函数模板N特征函数已在集合中?N计数值加1已生成最后一个特征函数?Y结束图4.3特征集生成流程图特征集生成的具体步骤如下:(1)输入为电子病历文本和特征模板;(2)初始特征集为空;(3)依次取出特征模板中的一个模板Ti作为当前模板;(4)依次读取电子病历文本中的词语ti,将其与当前模板Ti进行匹配,若生成的特征函数在特征集中,计数加1,否则将新产生的特征函数加入到特征集中;(5)若ti是训练集中最后一个词,转(6),否则转(4);(6)若Ti是特征模板中最后一个模板,转(7),否则转(3);(7)结束。37 本文采用妇产科语料集作为实验数据,将其中70%的数据作为训练集,剩下的30%的数据作为测试集,共抽取13种参数,分别是:孕妇的年龄、停经月数、孕期体重增加量、体温、心跳、呼吸、收缩压、舒张压、有无患病表现症状、尿蛋白含量、血小板含量、既往史、家族史。有些参数本身是数据,直接作为参数数值,有的是单词或短句,加入规则和人工修正,全部转换为数值表示。各参数名称及最终的参数形式如表4.6所示,将这些参数值组成的向量作为神经网络模型的输入,对多个样本进行反复训练,得到训练好的模型后,即可实现对妊娠高血压疾病的预测。表4.6抽取参数表参数名称格式参数数值年龄女,32岁32停经月数停经6月余6孕期体重增加量孕期体重增加12Kg12体温T:36.5℃36.5心跳P:80次/分80呼吸R:20次/分20收缩压BP:112/71mmHg112舒张压BP:112/71mmHg71有无患病症状下肢浮肿1尿蛋白含量出现尿蛋白(+)1血小板含量血小板减少1既往史无“高血压、糖尿病及心脏病”病史0家族史否认有家族遗传病及传染病史04.2.2缺失值处理电子病历由于记录者的不同或疏忽问题等,可能会存在缺失问题,有的参数在某些文本中并未被提及,那么也无法实现提取,缺失值有可能会影响到最终的预测结果,因此需要对这些缺失值进行处理。缺失值有多种处理方式,可以直接删除,也可以通过不同的填充策略进行补全。38 对于缺失值较多的特征,可以直接将该特征丢弃,否则反而会引入大量的噪音,如果不想直接删除,可以将特征映射到高维空间,这样做的好处是可以完整的保留原始的特征信息,不必考虑是否缺失,也不用考虑是否线性可分,缺点是计算量太大,这种映射到高维空间的做法,只有在样本的数据量很大时才有意义,否则数据量太小效果会很差。有一些数据的缺失仅存在于训练集中,即测试集中没有缺失值,这时可以对缺失值取均值或者中值或者众数,其中众数是指出现频率最高的值,根据测试集中的标签类别,将所有该标签下该特征的均值或者中值或者众数填入缺失值位置,也可以采用上下数据进行填充,不同缺失情况的处理如表4.7所示。表4.7缺失值常用处理方式处理方式缺失值情况具体方法删除缺失值数量多直接删除mean/median/mode填充缺失比例很小直接使用均值mean、中位数median、众数mode填充预测模型缺失值占总体通过预测模型得到一个值进行填充,如的比例适中KNN插值法等使用预测模型填充的过程比较复杂,用不存在缺失的数据集进行训练,将缺失值看作是需要预测的变量,那么,用训练好的模型得到的结果就是预测值,常见的有逻辑回归、方差分析、KNN等方法。本文提取的生理参数,如孕妇的年龄、停经月数、孕期体重增加量、体温、心跳、呼吸、收缩压、舒张压的缺失采用均值mean来填充。有无患病表现症状、尿蛋白含量、血小板含量用0补全,即认为不存在患病症状,不存在尿蛋白、不存在血小板异常,因为对于大多数孕妇来说,不患病的人数更多,而且电子病历中如果未提及该指标,一般是该项指标正常。既往史和家族史一般不存在缺失,个别缺失值用众数mode进行填充。4.2.3模型训练实验分别采用单向LSTM和双向LSTM进行模型的训练,模型结构如图4.4所示,并以基本的RNN模型训练结果作为对照组。基于文本数值化的TQ-LSTM模型首先对语料进行了许多处理,包括数据清洗、分词、词性标注、参数提取、39 缺失值处理,最终共提取13种参数,以此13种参数作为神经网络的输入,减少了大量无关信息的干扰,而且模型训练更快。LSTM模型LSTMLSTMLSTMLSTMLSTM...生理参数...向量图4.4TQ-LSTM模型TQ-LSTM模型的训练过程与基于特征融合的RNN模型类似,不同的是输入向量和RNN的内部结构,TQ-LSTM模型训练过程如下:(1)第݅个样本表示为向量ݔ,13为小大的n里这,)௡ݔ,…,ଶݔ,ଵݔ(=௜ݔ௜的值是提取好的与孕妇相关的参数。(2)对模型前向计算每个神经元的输出值,ܬ是LSTM网络的损失函数,计算t时刻的݅,݂,݋,ܿ,ℎ的值,将预测得到的结果ℎ(ݔ(௜))和期望௧௧௧௧௧(௪,௕)值ℎ(ݔ(௜))比较后得到损失函数ܬ。డ௃(௪,௕)డ௃(௪,௕)(3)进行反向误差计算,求出损失函数关于权值的偏微分,。డ௪డ௕ப௃(௪,௕)ப௃(௪,௕)(4)更新权值,ݓ=ݓ−ߙ,ܾ=ܾ−ߙ,其中,ߙ是学习速ப௪ப௕率。(5)满足终止条件时停止,否则转步骤(2)继续训练。40 4.3本章小结本章主要介绍了基于特征融合的循环神经网络疾病预测模型和基于文本数值化的TQ-LSTM疾病预测模型,给出了模型的结构和训练过程,针对妊娠高血压疾病进行预测。其中,在模型的预处理阶段,对电子病历文本进行了信息抽取,并对缺失数据进行了补全。基于特征融合的循环神经网络疾病预测模型采用融合后的特征进行训练,其形式为词向量和词性向量的线性拼接,模型无需其他专业医疗经验,就可以实现较好的训练结果。基于文本数值化的TQ-LSTM疾病预测模型首先提取出了与孕妇身体状态相关的生理参数作为特征向量,通过缺失值补全策略对存在缺失的样本进行了补全,有效利用了更多的样本信息。两种模型都建立在文本向量的基础上,不需要大量的专业领域知识,就可以对妊娠高血压疾病实现预测。41 5实验结果与分析5.1电子病历匿名化实验结果5.1.1数据集实验采用I2B2在2006年、2014年评测所给的数据集和某医院妇产科中文医疗文本。I2B2是美国国立卫生研究院资助的国家生物医学中心,2006年评测数据中隐私实体通过XML标签来标记,共包含8种命名实体:日期、病人年龄、姓名、电话、证件号码、医生姓名、医院名、地址。2014年数据集格式较之2006年有较大变化,通过命名实体在整个文本中的偏移量来标记,其中的隐私实体类别也比2006年更复杂,共有7个大类,分别是姓名、职业、地址、年龄、日期、联系方式和证件号码,大类下又更进一步划分为多个小类。妇产科医疗文本来自某医院真实数据,包括入院诊断、住院经过、出院诊断等,标注格式与2006年I2B2格式一致。中文数据首先进行分词处理,其他处理步骤与英文语料一致。评价指标采用精确率(Precision)、召回率(Recall)和F值,混淆矩阵如表5.1所示,其中,真正例TP(TruePositive)表示将一个正例正确判断为正例,伪正例FP(FalsePositive)表示将一个反例错误判断为正例,真反例TN(TrueNegative)表示将一个反例正确判断为反例,伪反例FN(FalseNegative)表示将一个正例错误判断为反例。表5.1混淆矩阵预测正例预测负例实际正例TPFN实际负例FPTN精确率、召回率和F值计算如下:Precision=TP/(TP+FP)×100%(5.1)Recall=TP/(TP+FN)×100%(5.2)F=(2×P×R)/(P+R)×100%(5.3)精确率是评估预测结果中目标实体所占的比例,召回率是评估召回目标实体的比例,精确率和召回率越高,说明实验结果越好,然而一般精确率高时召回率42 低,召回率高时精确率低,因此加入F值评价指标,F值综合考虑了精确率和召回率,是精确率和召回率的调和平均值。5.1.2结果分析与讨论实验共使用了三个数据集,在提出的三种不同的深层网络模型下进行实验:深层条件随机场模型、BR-BiRNN模型、BR-BiLSTM-CRF模型,并与传统的SVM、HMM和CRF模型进行对比,实验发现BIOES块表示法比BIO块表示法结果更优,给出的实验结果均是在BIOES表示法下的结果,如表5.2所示。其中,SVM使用高斯核函数,HMM-DP模型是Chen等人对HMM的改进结果,CRF是未做改进的基本CRF模型,分别使用了仅原子特征和原子+组合特征,DeepCRF模型是本文提出的深层条件随机场模型,BR-BiRNN模型、BR-BiLSTM-CRF模型是本文提出的另两种基于循环神经网络的深层网络模型。本文提出的三种模型在I2B2会议2006年和2014年的评测数据集中F值均超过90%,在妇产科医疗文本中F值超过85%。针对每种具体的实体类别,表5.3以2014年评测数据集为例给出了每个隐私实体类别的精确率、召回率和F值。表5.2不同模型结果对比2006I2B2数据集2014I2B2数据集妇产科数据集PRFPRFPRFSVM83.1181.2682.1785.2382.1483.6680.0476.3378.14HMM-DP(Chen)---94.3087.9091.00---CRF(AF)86.3383.2284.7590.6082.8086.5284.1780.2682.17CRF(AF+CF)88.5187.6588.0796.2683.9989.7085.7382.1883.92DeepCRF93.8891.3192.5895.1088.0391.4388.4485.3186.85BR-BiRNN94.0491.2392.6195.4189.2792.2490.5284.0287.15BR-BiLSTM-CRF94.2191.8693.0294.6990.4292.5191.0686.3088.62由表5.2可知,CRF模型在原子特征的基础上加入组合特征后,性能有所提高,因为组合特征包含了更多的上下文信息,能为模型的正确输出提供更多支持,因此本文深层条件随机场模型在检测隐私实体边界时,采用了原子特征和组合特征,深层条件随机场模型比SVM、HMM的精确率和召回率都有所提高,整体F值得到提高。BR-BiRNN模型基于循环神经网络,将文本处理后表示为词向43 量形式,不需要额外的专业领域知识,可以自动提取特征。BR-BiLSTM-CRF模型结合了神经网络层和条件随机场层,F值在三个语料上分别达到93.02%、92.51%和88.62%。妇产科医疗文本是中文语料集,由于中文预处理需要分词,存在一定的分词误差,其F值低于I2B2评测任务英文语料集结果。表5.3各个具体类别的实验结果PHI实体类别训练集测试集PRFNAME------PATIENT131587994.1775.3183.69-DOCTOR2877191289.0490.4889.75-USERNAME2649296.7095.6596.17PROFESSION23417992.1158.6671.67LOCATION------HOSPITAL143787582.3875.8979.00-ORGANIZATION1248270.5914.6324.24-STREET21613697.6792.6595.09-CITY39426069.1874.2371.61-STATE31419091.5073.6881.63-COUNTRY6611785.1919.6631.94-ZIP21214099.2392.1495.56-LOCATION-OTHER4130.000.000.00AGE123376496.4194.9095.65DATE7495498096.7297.0996.90CONTACT------PHONE30921594.1797.6795.89-FAX820.000.000.00-EMAIL41100.00100.00100.00IDs------MEDICALRECORD61142297.4197.8797.64-DEVICE780.000.000.00-IDNUM26119590.0087.6988.8344 实验所用的数据集中,I2B2评测数据集是公开数据集,本文提出的三种深层网络模型与评测任务提交结果的F值对比如表5.4所示。表5.4本文模型与I2B2评测结果F值对比2006数据集2014数据集评测结果0.76-0.960.44-0.93DeepCRF模型0.92580.9143BR-BiRNN模型0.92610.9224BR-BiLSTM-CRF模型0.93020.9251分析各个具体类别隐私实体的识别情况,对三个数据集中每一类实体的识别结果如图5.1、图5.2、图5.3所示。1008060精确率/%40召回率/%20F值/%0图5.12006年I2B2各类隐私信息识别结果1008060精确率/%40召回率/%20F值/%0图5.22014年I2B2各类隐私信息识别结果45 1008060精确率/%40召回率/%20F值/%0图5.3妇产科真实数据集各类隐私信息识别结果结合表5.3和图5.1、图5.2、图5.3可知,模型对于“DATE”、“ID”、“USERNAME”、“ZIP”、“EMAIL”、“MEDICALRECORD”和“PHONE”的识别率较高,因为它们一般具有较为固定的格式或特点。当数据集中个数很少时,难以学到更多信息,如2006年训练集中“AGE”仅有13个,测试集中“AGE”也仅有3个,因此F值为0,类似的还有2014年的“LOCATION-OTHER”、“FAX”和“DEVICE”。但数据集中个数较多时,其识别效果较好,如2014年“AGE”由于样本的增大,其F值超过90%,妇产科中文语料中“AGE”F值也很高。“DOCTOR”和“PATIENT”都属于人名,深层条件随机场网络加入了实体边界特征,BR-BiRNN、BR-BiLSTM-CRF模型引入循环神经网络,考虑了时序信息,使得更好地利用上下文信息,但是由于它们的格式和特点较为相似,容易互相错分。“LOCATION”、“ORGANIZATION”和“COUNTRY”的识别结果较低,因为它们往往是多个词语组成的长词组,有的其中包含有介词或符号,在进行识别时,往往是只识别出了实体中的部分词语作为了隐私实体。大部分类别都是精确率较高,召回率较低,说明把很多隐私实体标记为了非隐私实体或其它类别的实体,提高召回率将对F值有较大影响。5.2妊娠高血压疾病预测实验结果5.2.1基于特征融合的循环神经网络预测模型结果分析实验数据集来自某医院妇产科真实电子病历文本,经筛选后共选择489个样本,其中70%作为训练集,30%作为测试集,实验结果与他人结果对比如表5.546 所示,都是在数据挖掘的基础上,对疾病进行诊断和预测,不同研究工作所用语料可能来自不同科室,表中最后三行是本文妇产科电子病历的实验结果,wordfeature是一般的词向量特征,mixedfeature是本文提出的融合后的特征,RNN模型分别以wordfeature和mixedfeature进行了对比实验,BiRNN(BidirectionalRNN)是双向循环神经网络模型,评价指标采用敏感度(Sensitivity)、特异度(Specificity)和正确率(Accuracy):Sensitivity=TP/(TP+FN)×100%(5.4)Specificity=TN/(TN+FP)×100%(5.5)Accuracy=(TP+TN)/(TP+FP+TN+FN)×100%(5.6)表5.5本文实验结果及与他人工作对比模型SensitivitySpecificityAccuracySVM83.5285.2980.99RandomForest80.8082.6778.45DeepLearning83.8986.1880.99决策树--74.52LR91.0064.0082.10BP神经网络88.0081.0086.00NN--80.34本文RNN+wordfeature76.1981.7580.95本文RNN+mixedfeature85.7182.5482.99本文BiRNN+mixedfeature90.4882.5483.67表5.5中,SVM、RandomForest、DeepLearning是陆家发[56]等人针对心脏病数据集使用不同模型的预测结果,李奋华[57]等人基于决策树对二型糖尿病进行预测,樊楚[58]等人分别采用逻辑回归(LR)和BP神经网络,对儿童发热类疾病进行研究,常炳国[59]等人对多种指标进行筛选后,使用神经网络(NN)对慢性肝病进行预测。观察可知,使用神经网络对疾病预测,其正确率一般都高于传统的决策树、随机森林和逻辑回归等方法,本文提出的基于特征融合的RNN模型结果比一般的RNN正确率高,且双向神经网络的结果要优于单向神经网络。47 5.2.2TQ-LSTM预测模型结果分析TQ-LSTM妊娠高血压疾病预测模型以文本数值化为基础,首先进行了生理参数的提取,将参数值作为样本向量,训练向量得到模型后对疾病进行预测。其中LSTM同样分别使用了UniLSTM和BiLSTM来实验,UniLSTM(UnidirectionalLSTM)和BiLSTM(BidirectionalLSTM)分别是单向和双向的长短时记忆网络模型,还采用了一般的RNN模型作为对照实验,UniRNN(UnidirectionalRNN)是单向的循环神经网络,结果如表5.6所示。表5.6TQ-LSTM实验结果模型SensitivitySpecificityAccuracyTQ-UniRNN71.4384.1382.31TQ-BiRNN85.7183.3383.67TQ-UniLSTM90.4881.7582.99TQ-BiLSTM95.2482.5484.35由表5.6可知,直接提取出与疾病可能相关的生理参数后进行模型的训练,其正确率超过80%,采用的RNN内部结构不同时结果略有差异,通过定量表示把文本中关于孕妇的某些属性表示为具体的数值,之后作为神经网络的输入参与训练,提取的生理参数经过处理,补全了缺失值,这些生理参数只是影响妊娠高血压的候选因素,并非所有生理参数都可以致病,因此通过模型的训练找到误差最小的一组权值,疾病预测结果显示,双向LSTM作为内部结构的结果比一般RNN要好,双向神经网络同时考虑了前向和后向特征,其结果比单向神经网络要好。同时观察表5.6和表5.5,还可以发现,基于特征融合的RNN模型和基于文本数值化的RNN模型,当模型一致时,实验结果F值相差不多,但是基于文本数值化的模型输入向量维度更小,因此训练速度更快,通过对文本的一系列预处理,降低神经网络的输入向量的大小可以提高训练效率,同时可以得到近似性能的模型,参数的提取是关键,不同的语料效果可能不同。实验终止条件的设置采用了earlystopping策略,它的具体做法是,在每一次epoch结束时进行计算,随着epoch的增加,当测试结果不再提升时就就停止训练,即当结果不再提升时,再训练只是增加训练的时间而已。确认结果不再提48 升的依据并不是结果一旦降低就认为它不会再提升了,因为后面一次迭代有可能再次提升,应该是当连续5次,10次或者更多次没有提升时,就可以停止迭代了。提升的阈值由自己设置,只有当大于这个部分时才认为是结果提高了,本文实验earlystopping数设置为5,阈值设置为0.03%。5.3本章小结本章主要分析和讨论了实验的结果,包括电子病历匿名化模型和妊娠高血压疾病预测模型。针对电子病历匿名化,提出了三种模型:DeepCRF、BR-BiRNN和BR-BiLSTM-CRF,分别在评测医疗数据集和中文电子病历数据集上实验,并与传统的机器学习方法进行了对比实验,其F值更高,表明本文模型具有更好的效果。针对妊娠高血压疾病,提出了基于特征融合的RNN模型和TQ-LSTM模型,在妇产科真实病历上进行测试,并针对不同RNN内部结构进行了对比实验,其结果均达到80%以上,实验表明基于神经网络的模型可以较好的实现疾病预测任务。49 6总结和展望随着医院信息管理系统的不断完善,越来越多的采用电子化记录病人的就诊信息,由此产生了大量的电子病历,医疗研究进入大数据时代,针对电子病历开展的数据挖掘工作具有重要的意义。本文以电子病历为基础,采用多种机器学习方法对数据进行挖掘,使用神经网络建立模型和实现,主要完成了电子病历的匿名化和信息抽取,并对妊娠高血压疾病建立预测模型,本章总结了本文所做的工作,并对进一步的研究进行了展望。6.1总结电子病历一般为文本形式,采用自然语言的形式记录了病人的相关医疗内容,电子病历中最基本的就是包含了病人的基本信息,如姓名、电话、地址、身份证号等,其次就是病人的住院诊断、诊疗经过和出院小结等信息。对于包含病人隐私信息的文本,需要对其进行匿名化处理,识别和移除这些隐私信息。此外,妊娠高血压是孕妇妊娠期间所特有的一种疾病,轻者头痛呕吐,重者甚至引起死亡,严重危害孕妇和胎儿的健康,针对此疾病建立医疗预测模型,并应用于真实的妇产科电子病历上。本文的主要工作如下:(1)提出了基于深层网络模型的电子病历匿名化模型。首先基于BIOES块表示方法,对电子病历进行预处理后,结合实体边界构建DeepCRF模型,利用原子特征和组合特征进行训练,在三种数据集上实验,结果F值为92.58%、91.43%、86.85%,高于传统的SVM和HMM模型。之后将文本表示为词向量形式,提出了BR-BiRNN、BR-BiLSTM-CRF隐私实体识别模型,三种数据集的F值进一步提高,分别为92.61%、92.24%、87.15%和93.02%、92.51%、88.62%。(2)提出了基于特征融合的循环神经网络妊娠高血压预测模型。将神经网络模型引入到疾病预测中,分别训练得到词向量和词性向量后,进行组合得到新的特征,将该特征传递到网络的输入层,从而实现对妊娠高血压疾病的预测。实验分别采用一般特征和融合后的特征进行实验,结果表明基于特征融合的预测模型正确率提高了约2%,并与传统的逻辑回归、决策树等模型进行了对比,结果显示本文模型效果更好。50 (3)提出了基于文本数值化的TQ-LSTM妊娠高血压预测模型。针对妇产科真实病历,首先利用条件随机场模型抽取了13种生理参数,将文本数值化表示后,针对缺失的参数进行了补全。采用LSTM模型进行训练,分别使用了UniLSTM和BiLSTM进行实验,同时还以基本的RNN模型作为对照实验,结果显示LSTM作为内部结构的效果比传统RNN要好,基于TQ-LSTM的预测模型正确率超过80%,可以有效地进行疾病预测。6.2展望本文提出的电子病历匿名化和疾病预测模型,较之传统的机器学习算法都有更好的效果,但仍存在一些不足之处。首先,中文电子病历的预处理需要经过分词处理,而分词错误可能会造成后面的隐私实体分类错误,因此提高医疗文本的分词精确率,将对模型的识别率有一定的影响。其次,本文提出的模型多是基于神经网络模型,神经网络模型参数较多,训练开销依然很大,超参数的设置大部分仍依靠经验和大量实验来选择,如何最调参过程进行优化有待研究。同时,可以把神经网络和人工特征结合起来,除了利用神经网络模型的数据挖掘优势,加入专业领域知识后,可以帮助提高预测结果。此外,神经网络模型本身可以再次改进,如神经元之间的连接方式,权重矩阵的训练方式等。因此,对神经网络内部结构进行改进,结合专家决断和深度学习模型,实现高效自动地提取特征并进行准确预测是今后的重点研究方向。51 52 参考文献[1]HillestadR,BigelowJ,BowerA,etal.Canelectronicmedicalrecordsystemstransformhealthcare?Potentialhealthbenefits,savings,andcosts[J].HealthAff,2005,24(5):1103.[2]SweeneyL.Replacingpersonally-identifyinginformationinmedicalrecords,theScrubsystem[J].ProceedingsoftheAmiaAnnualFallSymposium,1996:333.[3]EftimovT,SeljakBK,KorošecP.Arule-basednamed-entityrecognitionmethodforknowledgeextractionofevidence-baseddietaryrecommendations[J].PlosOne,2017,12(6).[4]JhaK,RöderM,NgomoACN.AllthatGlittersIsNotGold–Rule-BasedCurationofReferenceDatasetsforNamedEntityRecognitionandEntityLinking[C]//EuropeanSemanticWebConference.Springer,Cham,2017:305-320.[5]YangM,ZhouL,YuZ,etal.LaoNamedEntityRecognitionbasedonconditionalrandomfieldswithsimpleheuristicinformation[C]//InternationalConferenceonFuzzySystemsandKnowledgeDiscovery.IEEE,2016:1426-1431.[6]WeiQ,ChenT,XuR,etal.Diseasenamedentityrecognitionbycombiningconditionalrandomfieldsandbidirectionalrecurrentneuralnetworks[J].Database,2016,1:8.[7]LampleG,BallesterosM,SubramanianS,etal.NeuralArchitecturesforNamedEntityRecognition[J].2016:260-270.[8]HabibiM,WeberL,NevesM,etal.Deeplearningwithwordembeddingsimprovesbiomedicalnamedentityrecognition[J].Bioinformatics,2017,33(14):i37-i48.[9]DernoncourtF,LeeJY,SzolovitsP.NeuroNER:aneasy-to-useprogramfornamed-entityrecognitionbasedonneuralnetworks[C]//Proceedingsofthe2017ConferenceonEmpiricalMethodsinNaturalLanguageProcessing:SystemDemonstrations.2017:97-102.[10]AlanaziS,SharpB,StanierC.ANamedEntityRecognitionSystemAppliedtoArabicTextintheMedicalDomain[J].InternationalJournalofComputerScienceIssues(IJCSI),2015,12(3):109.[11]YangH.Automaticextractionofmedicationinformationfrommedicaldischargesummaries[J].JournaloftheAmericanMedicalInformaticsAssociation,2010,17(5):545-548.[12]GuoY,GaizauskasR,RobertsI,etal.Identifyingpersonalhealthinformationusingsupportvectormachines[C]//i2b2workshoponchallengesinnaturallanguageprocessingforclinicaldata.2006:10-11.[13]RobertsK,ShooshanSE,RodriguezL,etal.Theroleoffine-grainedannotationsinsupervisedrecognitionofriskfactorsforheartdiseasefromEHRs[J].JournalofBiomedicalInformatics,2015,58(S):S111-S119.[14]LaffertyJ,McCallumA,PereiraFCN.ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData[C]//Proceedingsofthe18thInternationalConferenceonMachineLearning.2001,951(2001):282-289.[15]LiuZ,ChenY,TangB,etal.Automaticde-identificationofelectronicmedicalrecordsusingtoken-levelandcharacter-levelconditionalrandomfields[J].JournalofBiomedicalInformatics,2015,58:S47-S52.53 [16]WeiL,Da-zheZ.CombiningCRFandrulebasedmedicalnamedentityrecognition[J].ApplicationResearchofComputers,2015,32(2):1082-1086.[17]ChenQ,LiH,TangB,etal.Anautomaticsystemtoidentifyheartdiseaseriskfactorsinclinicaltextsovertime[J].JournalofBiomedicalInformatics,2015,58(Suppl):S158-S163.[18]XuY,LiN,LuM,etal.Comparisonofriskadjustmentmethodsinpatientswithliverdiseaseusingelectronicmedicalrecorddata[J].BmcGastroenterology,2017,17(1):5.[19]GrishmanR.Informationextraction:Techniquesandchallenges[M]//Informationextractionamultidisciplinaryapproachtoanemerginginformationtechnology.SpringerBerlinHeidelberg,1997:10-27.[20]SoderlandS.LearningInformationExtractionRulesforSemi-StructuredandFreeText[J].MachineLearning,1999,34(1-3):233-272.[21]ChangCH,LuiSC.IEPAD:informationextractionbasedonpatterndiscovery[J].Proc.WWW10,2001,2001:681-688.[22]FaderA,SoderlandS,EtzioniO.Identifyingrelationsforopeninformationextraction[C]//ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2011:1535-1545.[23]GutierrezF,DouD,FickasS,etal.Ahybridontology-basedinformationextractionsystem[J].JournalofInformationScience,2016,42(6):798-820.[24]刘凯,周雪忠,于剑,等.基于条件随机场的中医临床病历命名实体抽取[J].计算机工程,2014(9):312-316.[25]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.[26]杨锦锋,关毅,何彬,等.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746.[27]吴共庆,胡骏,李莉,等.基于标签路径特征融合的在线Web新闻内容抽取[J].软件学报,2016,27(3):714-735.[28]李景玉,张仰森,蒋玉茹.基于多特征融合的中文微博评价对象抽取方法[J].计算机应用研究,2016,33(2):378-383.[29]甘丽新,万常选,刘德喜,等.基于句法语义特征的中文实体关系抽取[J].计算机研究与发展,2016,53(2):284-302.[30]江腾蛟,万常选,刘德喜,等.基于语义分析的评价对象-情感词对抽取[J].计算机学报,2017,40(3):617-633.[31]PapernotN,McdanielP,JhaS,etal.TheLimitationsofDeepLearninginAdversarialSettings[J].2015:372-387.[32]DongX,QianL,GuanY,etal.Amulticlassclassificationmethodbasedondeeplearningfornamedentityrecognitioninelectronicmedicalrecords[C]//ScientificDataSummit.IEEE,2016:1-10.[33]GalY,GhahramaniZ.DropoutasaBayesianapproximation:representingmodeluncertaintyindeeplearning[C]//InternationalConferenceonInternationalConferenceonMachineLearning.JMLR.org,2016:1050-1059.54 [34]GreffK,SrivastavaRK,KoutnikJ,etal.LSTM:ASearchSpaceOdyssey[J].IEEETransactionsonNeuralNetworks&LearningSystems,2016,28(10):2222-2232.[35]XuK,ZhouZ,HaoT,etal.ABidirectionalLSTMandConditionalRandomFieldsApproachtoMedicalNamedEntityRecognition[C]//InternationalConferenceonAdvancedIntelligentSystemsandInformatics.Springer,Cham,2017:355-365.[36]ChenY,LinZ,ZhaoX,etal.DeepLearning-BasedClassificationofHyperspectralData[J].IEEEJournalofSelectedTopicsinAppliedEarthObservations&RemoteSensing,2017,7(6):2094-2107.[37]HintonGE,SalakhutdinovRR.Reducingthedimensionalityofdatawithneuralnetworks[J].Science,2006,313(5786):504-507.[38]WuZ,WangX,JiangYG,etal.ModelingSpatial-TemporalCluesinaHybridDeepLearningFrameworkforVideoClassification[C]//ACMInternationalConferenceonMultimedia.ACM,2015:461-470.[39]HersheyS,ChaudhuriS,EllisDPW,etal.CNNarchitecturesforlarge-scaleaudioclassification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2017:131-135.[40]MedhatF,ChesmoreD,RobinsonJ.MaskedConditionalNeuralNetworksforAudioClassification[C]//InternationalConferenceonArtificialNeuralNetworks.Springer,Cham,2017:349-358.[41]GreenspanH,GinnekenBV,SummersRM.GuestEditorialDeepLearninginMedicalImaging:OverviewandFuturePromiseofanExcitingNewTechnique[J].IEEETransactionsonMedicalImaging,2016,35(5):1153-1159.[42]LevG,SadehG,KleinB,etal.RNNFisherVectorsforActionRecognitionandImageAnnotation[C]//EuropeanConferenceonComputerVision.Springer,Cham,2016:833-850.[43]LitjensG,KooiT,BejnordiBE,etal.Asurveyondeeplearninginmedicalimageanalysis.[J].MedicalImageAnalysis,2017,42(9):60-88.[44]ZhangK,ZuoW,ChenY,etal.BeyondaGaussianDenoiser:ResidualLearningofDeepCNNforImageDenoising.[J].IEEETransactionsonImageProcessingAPublicationoftheIEEESignalProcessingSociety,2017,26(7):3142-3155.[45]LecunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.[46]ConneauA,SchwenkH,BarraultL,etal.VeryDeepConvolutionalNetworksforTextClassification[J].2016:1107-1116.[47]JiYL,DernoncourtF.SequentialShort-TextClassificationwithRecurrentandConvolutionalNeuralNetworks[J].2016:515-520.[48]ShenH,LiuG,WangH,etal.SocialQ&A:AnOnlineSocialNetworkBasedQuestionandAnswerSystem[J].IEEETransactionsonBigData,2017,PP(99):1-1.55 [49]ChoK,vanMerrienboerB,GulcehreC,etal.LearningPhraseRepresentationsusingRNNEncoder–DecoderforStatisticalMachineTranslation[C]//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).2014:1724-1734.[50]PoriaS,ChaturvediI,CambriaE,etal.ConvolutionalMKLBasedMultimodalEmotionRecognitionandSentimentAnalysis[C]//IEEE,InternationalConferenceonDataMining.IEEE,2017:439-448.[51]ChiuJPC,NicholsE.NamedEntityRecognitionwithBidirectionalLSTM-CNNs[J].TransactionsoftheAssociationforComputationalLinguistics,2016,4:357-370.[52]MaX,HovyE.End-to-endSequenceLabelingviaBi-directionalLSTM-CNNs-CRF[C]//Proceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).2016,1:1064-1074.[53]YangZ,SalakhutdinovR,CohenWW.Transferlearningforsequencetaggingwithhierarchicalrecurrentnetworks[J].arXivpreprintarXiv:1703.06345,2017.[54]PetersM,AmmarW,BhagavatulaC,etal.Semi-supervisedsequencetaggingwithbidirectionallanguagemodels[C]//Proceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).2017,1:1756-1765.[55]ReiM,CrichtonG,PyysaloS.AttendingtoCharactersinNeuralSequenceLabelingModels[C]//ProceedingsofCOLING2016,the26thInternationalConferenceonComputationalLinguistics:TechnicalPapers.2016:309-318.[56]陆家发,张国明,陈安琪.基于深度学习的疾病诊断[J].医学信息学杂志,2017,38(4):39-43.[57]李奋华,赵润林.基于数据挖掘的疾病预测模型的构建与分析[J].现代计算机,2016(18):14-17.[58]樊楚,贺向前,于跃,等.基于数据挖掘技术建立的BP神经网络模型鉴别儿童川崎病与发热性疾病的研究[J].中国循证儿科杂志,2017(1):22-26.[59]常炳国,李玉琴,冯智超,等.基于主成分机器学习算法的慢性肝病的智能预测新方法[J].计算机科学,2017(b11):65-67.56 个人简历、在校期间发表的学术论文与研究成果个人简历李慧林,女,1992年11月出生,河南周口人。2011年9月至2015年6月就读于南京理工大学,计算机科学与技术专业,工学学士。2015年9月至2018年6月就读于郑州大学,计算机技术专业,工程硕士。在校期间发表的学术论文李慧林,柴玉梅,孙穆祯.面向文本命名实体识别的深层网络模型[J]小型微型计算机系统.(已录用)研究成果2015年10月-2016年8月,参与分词及词性标注项目。2016年7月-2016年11月,参与短信标注及校对项目。2016年9月,参加第十三届全国研究生数学建模大赛并获得三等奖:《具有遗传性疾病和性状的遗传位点分析》。2016年10月-2017年12月,参与国家自然科学基金项目(U1636111):社会媒体文本情感可视计算方法研究。2017年7月,参加全国知识图谱与语义计算大会(CCKS)评测任务:电子病历命名实体识别。2017年8月,申请软件著作权《文本命名实体识别系统V1.0》,登记号:2017SR538010。57 致谢三年的研究生生活即将结束,感谢学校给予的科研环境和老师同学对我的帮助。特别感谢我的导师柴玉梅教授和王黎明教授,柴老师对科研的严谨态度带给了我很多启发,老师总是告诉我要坚持不懈的去学习,学到脑袋里的东西才是真正属于自己的,这些话一直使我备受鼓舞不断充实自己。从选题到整个论文的完成,老师给了我很多关键性的建议,针对论文中的不足耐心提出了修改意见,在老师的指导下,我参与了实验室的多个项目,包括国家自然科学基金项目和分词及词性标注项目等,这些经验的积累为我在自然语言处理方面奠定了基础,感谢老师的辛苦付出。还要特别感谢自然语言处理实验室的老师和同学们,感谢昝红英老师、穆玲玲老师、贾玉祥老师、张坤丽老师、韩英杰老师和赵丹老师,每次的讨论班会议,老师们都会针对每个人的方向和论文提出重要建议,给了我很大的帮助,也是从讨论班的交流中我学到了很多的算法和模型,感谢老师们的谆谆指导。感谢智能计算与智能系统实验室的同学们,我们一起参加数模竞赛,一起参与评测,一起完成项目,感谢朋友们的陪伴,感谢父母对我读研的支持,家人的支持是我不断学习的动力。58

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭