主动学习算法及其在心血管疾病诊断中的应用研究

主动学习算法及其在心血管疾病诊断中的应用研究

ID:33142517

大小:4.30 MB

页数:108页

时间:2019-02-21

主动学习算法及其在心血管疾病诊断中的应用研究_第1页
主动学习算法及其在心血管疾病诊断中的应用研究_第2页
主动学习算法及其在心血管疾病诊断中的应用研究_第3页
主动学习算法及其在心血管疾病诊断中的应用研究_第4页
主动学习算法及其在心血管疾病诊断中的应用研究_第5页
资源描述:

《主动学习算法及其在心血管疾病诊断中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中科技大学博士学位论文主动学习算法及其在心血管疾病诊断中的应用研究姓名:杨艳屏申请学位级别:博士专业:计算机应用技术指导教师:宋恩民2010-12-22华中科技大学博士学位论文摘要医疗机构每天都会有海量的未标记的样本数据产生,医学诊断如果只使用那些有标记的样本,训练出的辅助诊断系统往往很难具有较强的泛化能力,同时造成大量未标记样本的浪费。为此,研究将主动学习算法应用于医学辅助诊断中,希望选择最有利于提高诊断性能的未标记样本或属性进行类别标记或属性填充,从而从整体上减少所要标记的样本数量。在实际应用中,当前的主动学习算法还存在如下不足和值得改进的地方:

2、(1)目前的主动学习算法要么基于最近边界的方法来选取不确定性样本,要么基于最远边界的方法来选取确定性样本,或者二者结合。因没有考虑样本数据集的结构分布,所以容易陷入局部最优;(2)针对属性缺失的主动特征学习以单一的误分类代价最低为目标,不符合现实中存在的多种代价的实际情况(如查询代价);(3)主动学习算法在不平衡数据问题方面研究仅仅采用选择决策边界附近的相同数量的少数类和多数类样本,这样分类器所能分析的样本数量就会更少。为了避免陷入局部最优,研究了基于层次化聚类的探索数据集结构分布的策略,并采用兼顾探索和发掘的平衡策略,给出了一种对数据样本决策边界自动

3、定位的新方法。考虑到现实生活中存在的多代价情况,针对属性缺失数据的主动特征学习,给出了一种兼顾误分类代价和查询代价的学习方法。该学习方法以适合增量采样的基于最大期望改变的预测误差算法为基础,引入了特征不确定性度量,以追求训练所得的分类器分类精度和综合代价均为最优。另外,为了避免引入过多的无用的新特征,使用适合处理属性缺失值的属性相关性度量方法进行属性选择。在处理类间不平衡问题时,概念复杂度、训练样本规模会影响分类器的准确率。因此,采用随机子空间算法来降低概念复杂度,利用主动学习采样和添加人工数据样本来提高训练样本集的规模,并通过对少数类的误分类赋予较高

4、的权值来引导算法对少数类的关注。采用主动学习算法针对心血管疾病进行致病因素分析和诊断,并用湖北省疾病控制预防中心的真实的高血压疾病数据进行了实验。同时也针对公共数据集UCI中的医学数据进行了分析和诊断。I华中科技大学博士学位论文实验结果表明,基于层次化聚类的主动学习算法具有快速、准确确定样本决策边界位置的能力,考虑综合代价的主动特征学习算法不仅能发掘相关属性的能力,也使得分类器具有更高的分类精度。面向医学领域的非均衡数据样本时,仍能得到较高的预测精度。关键词:计算机辅助医疗诊断,主动学习算法,层次化聚类,特征采样,不平衡数据集II华中科技大学博士学位论

5、文AbstractTherearevolumesofunlabeledmedicaldatageneratedfrommedicaldiagnosiseveryday.Ifonlydependingonthelimitedlabeleddata,themedicaldecisionandsupportsystemcanhardlyhaveagoodperformanceofgeneralization.Therefore,weproposetomakeuseunlabeledsamplesorattributesbyimplementingactive

6、learningintothemedicaldecisionandsupportsystem,whichwillinturnreducethedependencyonthelabeleddata.Intherealworldlikemedicaldiagnosis,however,therearemanychallengesforactivelearning.(1)Mostofselectionstrategiesarebasedonthedecisionboundary.Theyeitherchoosetheuncertainsampleswitht

7、heclose-to-boundarymethod,orselectthecertainsampleswithfar-from-boundarymethod,orcombinationofbothmethods.But,noneofthemhastheconsiderationoftherealdistributionofwholedataset.So,thefinalsolutionmaybelocaloptimum;(2)Currentactivefeatureselectionalgorithmsfocusonthesinglegoalofdec

8、reasingtheclassificationerror.However,therealap

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。