基于失衡数据集分类模型的疾病检测方法研究

基于失衡数据集分类模型的疾病检测方法研究

ID:76137444

大小:1.36 MB

页数:67页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于失衡数据集分类模型的疾病检测方法研究_第1页
基于失衡数据集分类模型的疾病检测方法研究_第2页
基于失衡数据集分类模型的疾病检测方法研究_第3页
基于失衡数据集分类模型的疾病检测方法研究_第4页
基于失衡数据集分类模型的疾病检测方法研究_第5页
基于失衡数据集分类模型的疾病检测方法研究_第6页
基于失衡数据集分类模型的疾病检测方法研究_第7页
基于失衡数据集分类模型的疾病检测方法研究_第8页
基于失衡数据集分类模型的疾病检测方法研究_第9页
基于失衡数据集分类模型的疾病检测方法研究_第10页
资源描述:

《基于失衡数据集分类模型的疾病检测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

国内图书分类号:TP391.4工学硕士学位论文基于失衡数据集分类模型的疾病检测方法研究硕士研究生:毕婷婷导师:李鹏申请学位级别:工学硕士学科、专业:软件工程所在单位:计算机科学与技术学院答辩日期:2015年3月授予学位单位:哈尔滨理工大学 ClassifiedIndex:TP391.4DissertationfortheMasterDegreeinEngineeringDetectionMethodforDiseaseBasedonImbalanceDataClassificationModelCandidate:BiTingtingSupervisor:LiPengAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:SoftwareEngineeringDateofOralExamination:March,2015University:HarbinUniversityofScienceandTechnology 基于失衡数据集分类模型的疾病检测方法研究摘要失衡数据集是普遍存在的一种数据形态。在计算机科学、经济学、生物医学等诸多领域有着广泛的应用。失衡数据真实地反应了自然和现实社会的本质。但是在以往经验中,人们大多只关心小类别的特征情况。例如:在经济案件中的信用卡欺诈检测时,绝大多数的用户都是具有良好信用的,但是人们非常希望能从已知的少量类别数据中预测出潜在的非法用户;在石油勘探中,可能存在石油地区毕竟是少部分,但是这正是人们寻找的焦点;在公司破产预测中,能否从少数破产公司数据中寻找出目前本公司经营状况是否存在破产的迹象;疾病检测是失衡数据集的另一典型应用,在真实的医疗检测中,绝大多数的人一定是健康的,而我们恰恰关注的是患病的少数人。人们目的是能否通过现有少数患者的数据特征来预测疾病的发生;而根据已有的少数类别的特征来对未知的事物进行预测和分类一直是这个领域最具有挑战性的难点问题之一。本文基于这个背景,根据已知的数据模型来对未知的个例进行准确分类预测。在众多疾病中,乳腺癌的发病率之高以及严重影响之恶劣,近年来受到了人们广泛的关注。研究人员对于此领域的研究也越来越多,本文基于失衡数据的模型提出对于乳腺癌一套新的诊断流程。本文首先介绍了乳腺辅CAD的国内外研究现状,以及各国的研究学者在乳腺CAD研究中所做出的贡献和研究进展。其次介绍在诊断流程应用中,将X摄片进行特征提取,将图像特征转化为可供后续计算的数字化特征集,并在向量化特征数据集上,使用基于遗传算法的粗糙集属性约简方法对乳腺数据集进行特征约简;再次根据实际乳腺癌数据集是失衡的情况,受大类别基数大的影响,并考虑到失衡数据本身的特点:数据分类面倾斜导致数据淹没、少数类数据信息匮乏、采样后会导致有效信息损失等,传统的CAD模型在分类诊断时准确率急剧下降。本文针对以上问题提出基于簇边界采样的重采样策略,并在算法端结合基于遗传算法的粗糙集的属性约简方法、基于支持向量机的集成学习方法。提出了一个全面地针对失衡数据集分类问题的乳腺癌诊断策略。在实验构建与分析部分分别用弗罗里达大学的X摄片数据库和UCI数据集验证了本文-I- 提出方法的有效性和稳定性。本文将综合阶梯性策略应用到早期乳腺自动诊断的领域,实验结果表明本文提出的方法能够有效的提升乳腺癌检测的分类准确率,对医生的诊断有着一定实际指导的作用。关键词计算机辅助诊断;图像数据挖掘;支持向量机;聚类采样;集成学习-II- DetectionMethodforDiseaseBasedonImbalanceDataClassificationModelAbstractAnimbalanceddatasetisarealobservationdataformwidelyexistinginmanyfields,suchascomputerscience,economics,biologyandmedicine.Althoughitreflectsthenaturalessenceofobjectivethings,infact,peoplejusttendtocareaboutthecharacteristicsofsmallcategories.Forinstance,increditcardfrauddetection,althoughthevastmajorityofusersarelegitimate,it’sdesirabletopredictthepotentialillegalonesthroughdata;incorporatebankruptcyriskprediction,bankruptcompaniesareintheminority,whatbusinessmanagersreallyconcernaboutiswhetherthecurrentoperatingconditionsmayleadtoapotentialbankruptcy;inoilexploration,oilpossibleareaisnotmuch,however,itisthefocusthatexplorationresearchersdevotethemselvestofind;diseasedetectionisatypicalapplicationofimbalancedatasets.Inmedicaldiagnosis,healthypeoplemustbethemajorityinrealdataset,however,wefocusontheminoritywhoaresick,aimingtopredicttheoccurrenceofdiseasesthroughafewdatacharacteristics.Ithasalwaysbeenoneofthemostchallengingdifficultiesinthefieldthattopredicttheunknownthingsandclassifythem,accordingtotheexistingfeaturesofafewcategories.Basedonthebackground,anaccurateclassificationandpredictionismadeaboutunknownpatientsinthefieldofdiseasedetectionaccordingtoknownmodels.Amongmanydiseases,asbreastcancerhashighincidenceandseriousinfluence,ithasbeenpaidextensiveattentioninrecentyears.Meanwhile,agrowingbodyofintenseresearchcorrelativelyhasbeenconducted.Inthispaper,basedonthemodelofimbalanceddata,anewdiagnosticprocessforbreastcancerisputforward.Firstofall,overseasanddomesticresearchstatusofbreastComputerAidedDiagnosismodelisintroduced,aswellascontributionthatresearchershavemadeallovertheworldandresearchprogress.Secondly,themethodofX-rayradiographfeatureextractioninthediagnosisprocess-III- applicationisintroduced,whichmeansthatimagecharacteristicscanbeconvertedtodigitalfeaturesetsavailableforsubsequentcalculations,furthermore,onthebasisofthequantitativecharacteristicsofthedatasets,roughsetattributereductionalgorithmisusedforthefeaturereductionofthebreastdatasets.Finally,consideredthattheactualbreastcancerdatasetsareimbalanced,undertheinfluenceoftheinclineofdecisionsurfaceanddatasubmergence,thediagnosisaccuracyrateoftraditionalCADmodelintheclassificationfallssharply.Inthispaper,inordertosolvethedifficultproblemabove,aresearchstrategybasedonthemodelofimbalanceddatasetsisintroduced.Onabasisoffullconsiderationoftypicalfactorssuchaslackofinformation,datasubmergenceandinformationlossaftersampling,animbalanceddatare-samplingstrategybasedonclusterboundarysamplingisputforward.Meanwhile,combinedwiththeintegratedlearningmethodbasedonsupportvectormachine(SVM),abreastcancerdiagnosisstrategyaimedatimbalanceddatasetclassificationproblemisputforwardfromtwoaspectsofdataandalgorithm.Intheexperimentalconstructionandanalysisparts,withtheX-rayradiographydatabaseofuniversityofFloridaandUCIdatasets,theeffectivenessandstabilityoftheproposedmethodisverified.Comprehensivestep-shapedstrategyisappliedtothefieldofearlybreastautomaticdiagnosis.Theexperimentalresultshowsthattheclassificationaccuracyofbreastcancerdetectioncanbeeffectivelyimprovedbytheproposedmethodinthepaper,whichprovidessomepracticalguidanceforthediagnosisofdoctors.KeywordsComputer-AidedDiagnosis,ImageDataMining,SupportVectorMachine,ClusteringSampling,EnsembleLearning-IV- 目录摘要.............................................................................................................................IAbstract.......................................................................................................................III第1章绪论................................................................................................................11.1课题研究目的和意义.......................................................................................11.2乳腺癌CAD的研究概况与发展趋势.............................................................21.3失衡数据研究概况...........................................................................................31.3.1国外研究现状............................................................................................31.3.2国内研究概况............................................................................................41.4本课题研究的主要内容...................................................................................51.4.1课题来源....................................................................................................51.4.2课题的主要研究内容................................................................................6第2章乳腺图像处理................................................................................................72.1乳腺癌自动诊断的一般流程...........................................................................72.2乳腺钼靶X摄片处理......................................................................................92.2.1X摄片图像预处理.....................................................................................92.2.2图像特征提取..........................................................................................112.3基于粗糙集特征约简方法.............................................................................142.3.1粗糙集的基本理论..................................................................................152.3.2基于遗传算法的粗糙集属性约简方法..................................................152.4本章小结.........................................................................................................17第3章基于失衡数据集的乳腺癌检测..................................................................183.1失衡数据的解决方法.....................................................................................183.2基于DENCLUE密度分布聚类.....................................................................203.3基于聚类簇边界的采样方法.........................................................................213.3.1基于密度聚类的方法..............................................................................213.3.2基于邻域的簇边界确定方法..................................................................233.4本章小结.........................................................................................................25第4章基于集成学习的分类方法..........................................................................264.1支持向量机.....................................................................................................264.1.1支持向量机原理......................................................................................26 4.1.2常用核函数..............................................................................................284.1.3核函数在在乳腺癌诊断中的应用..........................................................294.2集成学习方法.................................................................................................304.2.1集成学习基本概念..................................................................................304.2.2分类器集成的主要算法..........................................................................314.2.3基于Adaboost-SVM的分类算法...........................................................334.3实验与分析.....................................................................................................354.4本章小结.........................................................................................................36第5章基于失衡数据早期乳腺癌检测应用..........................................................375.1乳腺癌辅助检测系统构架.............................................................................375.2模块设计.........................................................................................................385.3计算机辅助乳腺癌检测的评价指标.............................................................405.4实验验证.........................................................................................................425.4.1CBS预处理算法模块...............................................................................435.4.2集成学习算法模块..................................................................................445.4.3粗糙集数据约简方法模块......................................................................455.5本章小结.........................................................................................................46结论............................................................................................................................48参考文献....................................................................................................................49攻读硕士学位期间发表的学术论文........................................................................56致谢............................................................................................................................57 第1章绪论1.1课题研究目的和意义随着计算机软硬件水平的不断进步,计算机的存储技术也在不断进步。已经逐步走进了“信息爆炸”的时代。近年来,利用数据挖掘、机器学习等相关技术可以从海量数据中提取出对生产、经营、日常生活有益的隐含信息。在众多数据形态中存在一种特殊形态的数据集——失衡数据集(ImbalancedDataSets,IDS)。这类数据集类别往往是分布不平衡的,类别之间甚至可能出现数量级的差异[1]。失衡数据集作为自然界中普遍存在的一种状态,在很多领域有着广泛的应用。因此对于失衡数据集的研究是具备重要的现实意义和应用价值。疾病检测是众多应用领域中是一个典型的应用。其中乳腺癌发病率之高,趋于年轻化等特点,和其所带来的严重后果已经引起了人们的广泛关注,乳腺癌成为危害女性健康的第二大杀手。在全球范围内每年都有1,000,000的女性被诊断出罹患乳腺癌,并且超过500,000的女性死于乳腺癌[2],然而在确诊之后还没有有效的手段可以治愈。只有做到“早预防、早发现、早治疗”才是目前挽回乳腺癌致死率居高不下的有效办法[3]。研究表明乳腺癌的早期检测中若能结合计算机辅助诊断的相关手段将会大大提高诊断的准确率[4]。随着计算机辅助诊断(ComputerAidedDiagnosis,CAD)技术的出现和发展,以及数据挖掘技术在生物医学领域中广泛应用,在很大程度上促进了乳腺图像数字化自动检测的实现,推动了临床医学事业的不断发展进步[5]。然而,在真实数据中由于个体差距大、数据标签少以及数据失衡等因素都严重阻碍计算机辅助诊断在乳腺癌检测应用层面的进展[6]。因此将失衡数据的分类模型应用于在乳腺癌早期检测中是具备现实意义的。目前,在众多的策略中将失衡数据集的分类模型引入到乳腺癌早期检测中鲜有涉及,这也是本文研究和探讨的侧重点。如上文所述乳腺癌检测是典型的失衡数据集问题,现实数据中健康人一定是绝大多数,乳腺癌患者仅占很小一部分,如何通过这小部分人的乳腺钼靶图像来挖掘有效信息来预测疾病的发生是众多学者所关心的。图像挖掘技术能够利用全方位的信息进行客观地准确计算,避免了因个体医生知识结构和认知的不同而造成诊断结果的差异。本-1- 文以弗罗里达大学乳腺癌图像数据库为例,结合失衡数据分类模型研究方法,将综合策略应用在乳腺癌早期检测上。在面对疾病检测这类失衡数据集研究中,有监督的分类任务是一个核心问题[7]。经过了多年的研究,国内外很多学者对于分类技术提出了创新。查阅国内外对于失衡数据分类问题的相关资料,基于样本的研究方法无疑是最有效的[8]。传统的分类模型对于小样本,类别分布均衡的平衡数据集已经可以很好的解决,但是对于失衡数据集却不能得到令人满意的效果[9]。同时失衡数据集的分类问题一直是机器学习领域中的难点问题之一,本文针对失衡数据的预测分类方法的进行深入研究,探索出一套行之有效的乳腺癌失衡数据分类模型。因此综上所述基于失衡数据集的乳腺癌检测研究是具备现实意义,可以有效利用少数患病类中的特征信息对未知个体进行预测,实现提高医生在早期乳腺癌检出的成功率。本文的方法已成功应用在乳腺癌检测中,在其他疾病检测上也具备一定的借鉴作用。1.2乳腺癌CAD的研究概况与发展趋势计算机辅助诊断(ComputerAidedDiagnosis,CAD)的出现和不断发展以及数据挖掘和知识发现技术在医学诊断领域的广泛应用,促进了医学图像数字化的实现,为医学图像自动化奠定了基础,推动了临床医学事业的不断发展[10]。医疗诊断因此也变得更加客观,避免了很多人为因素的干扰,CAD的引入使得很多疾病的检查变得机械化并且更加科学[11]。早期乳腺CAD已经成为现代医学影像研究的热点问题之一,并在实际诊断中展示出其临床价值[12]。一般情况下,乳腺图像计算机辅助自动诊断分为三个部分:第一部分是对相关部位进行X射线照射,获得其医疗影像图像;第二部分是实现图像的向量化并实现特征提取;第三部分是采用合适的算法对数据进行分类识别,并得出结论(良恶性)。乳腺CAD技术在国外的起步较早,现阶段的研究也比较成熟。第一套乳腺CAD系统中Freer和Ulssey对12860张乳腺钼靶片采用了CAD的诊断,使得乳腺癌的检出率增加了19.5%[13]。之后,Markopoulos等对220例患者乳腺摄片上的240处微钙化灶采用神经网络的方法对病灶特征指标进行了详细的分析,其最终结论得出CAD在预测微钙化灶的良恶性方面有较好的表现[14]。近年来随着人工智能和计算机视觉的飞速发展,更多的新算法和新思想被引入到乳腺的-2- CAD当中,众多学者研究了基于小波变换的微钙化簇CAD系统,通过小波变换提取特征,并采用良好的分类算法进行分类检测,得到了较好的诊断结果[15]。2011年美国学者AI-Shamlan采取基于统计特征的方法判定X摄片可疑组织是良恶性,大大减少了判断错误的情况[16]。2012年,Engelken提出采用乳房体积密度评估来加强CAD软件[17]。2013年学者Srivastava在CAD流程中数据分段算法处理阶段引入模糊-C均值方法,提高了自动分类的准确性[18]。随后在2014年,Saraswathi提出一种改进的摄片分类技术:基于集成学习的全复值松弛神经网络,实验结果表明AUC值比传统方法有大幅度的提升[19]。同年,日本学者Sato采用决策树和马尔可夫模型概念基于可行的筛查和临床路径的方法来建立诊断系统[20]。近年来,国内也有很多学者致力于研究乳腺癌的早期诊断,江苏理工大学学者采用基于支持向量机的乳腺癌的诊断也取得了一定的成果[21]。哈工大研究人员采用乳房X光检查建立判别融合分析的技术对早期乳腺癌可以很好地进行诊断[22]。浙江大学的学者提出了基于内容的乳腺早期检测方法和基于自动随机游走的乳腺肿块分割方法[23][24]。北京大学学者引入人工智能技术,汇集钙化点进行自动检测及分类的研究[25]。清华大学学者提出了在乳腺CAD技术上乳腺肿块分割是一个重要的先前步骤,并提出将Gmac模型应用到分割技术[26]。东北大学的学者认为微钙化簇是乳腺癌一个重要的早期发现,并使用代价敏感学习SVM方法进行分类学习,提升乳腺CAD算法流程部分分类学习的泛化能力,其研究表明基于粒子群优化的代价敏感SVM组合分类算法较传统方法有了很大的提高[27]。1.3失衡数据研究概况纵观国内外的高水平文献,关于失衡数据集(ImbalancedDataSets)的研究受到了极大的关注,并且已经逐步从理论研究逐步过渡到应用。国内外的研究学者近年来对失衡数据集的研究做出了积极探索,使得这一课题逐渐成为机器学习、模式识别领域的热点问题。1.3.1国外研究现状国外研究学者对失衡数据的研究起步较早,关注度也较高。早在上世纪八十年代由著名的统计学学家埃齐沃思就在论文中提出了数据类别不一致的概念,并开展了一系列的探索延展研究。而失衡数据集的确切概念是在-3- 2000年,第一次人工智能大会上被确认的。会议明确定义了概念,并基于失衡数据的特点探讨出评价方法。此次会议也引起了国内外学者对于失衡数据集的广泛关注[28]。在2001年,美国学者LIU发表的论文针对失衡数据中提出SVM分类技术以及扩展的学习方法,开启了在失衡数据分类的研究开端[29]。同年,日本学者Shinozaki和Funatogawa提出了一种新的AVL树插入算法应用于失衡数据分类中,在其研究论文中首次计算出了失衡数据的调整概率[30]。2002年,意大利学者Roli提出了将失衡模式分类器进行固定和融合的观念,他分析并提出分类器的在不平衡的条件下给定一个的有效的规则,其分类的准确率可以显著优于另一个规则不清楚的模型[31]。经过几年的发展,在2004年,ACM会议针对失衡数据提出了研究议题,在本次会议中,着重对于失衡数据中的重采样技术进行了研究。由此,重采样技术受到了空前的重视并且成为此领域中重点和难点[32]。同年,IBM多伦多实验室Radivojac学者提出基于失衡数据集多采样技术的研究。其结果表明在采样过程中存在欠采样和过采样的现象,通过多采样的技术可以有效避免这类现象的发生,使得分类效果明显提升[33]。2005年,加拿大的学者把研究重点放在了分类器内核的研究上,并针对数据失衡提出改进内核边界对齐的情况对分类的正向影响[34]。澳大利亚学者Imam提出一种改进后的支持向量机模型—Z-SVM模型,定向训练并通过经验值来确定分类面。改善了不同类别间差异过大所造成的超平面倾斜等问题[35]。随后美国学者对采样技术进行研究,Seiffert提出了混合采样方法,此方法是融合随机过采样和随机欠采样两种技术,来构建平衡数据集的预处理算法,再进行分类研究的过程[36]。学者Weng提出了一种新的评价方法,在基本性能评价指标再提供特定指导,较之前单一的ROC曲线和AUC值的评价方法相比此方法可以更全面地评价一个分类体系的准确性[37]。除了在数据预处理方面的研究,特征选择也是影响分类效果的一个重要因素,美国学者Khoshgoftaar在其研究中提出了特征选择对于高失衡比的文本分类问题的重要性,并采用根据上下文中特性排名最后聚集在重复的特征上,并生成特征集[38]。随后英国学者Maruthi还对特征数据过多的情况下,采用遗传算法进行属性约简做了专门的研究[39]。1.3.2国内研究概况国内的学着对于这个机器学习领域的新型课题关注度也在逐年上升,并在分类算法、模型和数据预处理方面做出了突出贡献。-4- 在算法改进方面:清华大学的研究团队针对失衡数据提出的融合学习方法S-SMOTE,使用此方法可以获得更好预测精度[40]。清华大学的刁飞飞博士提出基于失衡数据采用集成簇的权重值采样的Boosting算法,此方法可以很好在数据端解决类别不平衡的情况[41]。浙江大学的曾志强、吴群等人提出了基于核的SMOTE算法,通过空间特征的距离来寻找输入空间的原像,此算法能有效的提高失衡数据的分类效果[42]。哈尔滨工业大学的邹权,郭茂祖等人提出了将反例均匀分割并与正例组合以处理正反例数据不平衡的分类方法,并成功了应用于生物信息学snoRNA等的识别问题中[43]。北京交通大学裘正定教授和谢纪刚博士提出了一种加权Fisher线性判别(WFELD),以减小样本失衡对分类器的影响[44]。西安电子科技大学的研究团队提出了一种模糊规则权重的计算方法,该算法不仅使模式匹配类内均匀分布,而且还有效地增强了类之间的对比性[45]。复旦大学的研究人员提出了基于KL距离的半监督学习算法,能够很好的应用于失衡数据集中,能够根据不同的训练样本赋予不同的KL距离,再加权推广到代价敏感学习中。该算法不仅稳定,并能够有效的提高准确率和召回率[46]。在分类模型改进方面:南京师范大学的学者在分类器上也做出了改进,提出了基于代价敏感的半监督SVM分类器,此研究表明在充分考虑噪声数据的影响,对噪声样本赋予较低的权重值可有效的改进分类器的有效性[47]。赵浣萍等人提出一种改进的Multi-Agent多分类器来根据差别情况有针对性的进行修正,此分类器不再依靠结果标签,而是采用统计分类结果的置信度来代替,大幅度提高了分类的准确率[48]。1.4本课题研究的主要内容1.4.1课题来源本课题来源于国家自然科学基金项目“面向失衡数据集的预测分类模型研究”(项目编号:61103149),黑龙江省自然科学基金项目“基于预测分类模型的数据类别失衡问题研究”(项目编号:QC2013C060)。哈尔滨市青年科技创新人才专项基金“面向互联网的问答式搜索引擎答案抽取技术研究”(2012RFQXG093)。-5- 1.4.2课题的主要研究内容针对乳腺癌早期X摄片人为难以甄别的问题,以及它所带来的严重后果,本文提出了一种新的基于失衡数据模型的检测方法,为计算机辅助乳腺癌早期诊断提供一套行之有效的解决方案。结合国内外的研究成果和本文硕士期间的科研工作,本课题主要包括如下内容:1.早期乳腺癌诊断一般流程与乳腺钼靶X图像处理介绍乳腺癌早期诊断的基本病理特征,与在X钼靶图像中的表现形式。结合图像挖掘方法和乳腺CAD技术,提出乳腺自动诊断的一般流程,并阐述在各个阶段所做的工作。2.特征提取与粗糙集属性约简方法介绍获取的医学影像X摄片的前期工作:首先,将具备不同的分辨率和灰度每一张X摄片预处理到统一的规格和灰度阈值。其次,在预处理后图像的基础上进行乳腺早期特征提取,将图像化特征转化成向量化特征。最后,由于提取的向量化特征集中存在冗余与重叠现象,采用基于遗传算法的粗糙集方法进行属性约简。并阐述在乳腺在早期诊断的人群中,罹患乳腺癌的女性占少数,引出乳腺早期诊断是一个典型的失衡问题,为下文结合失衡数据的模型的解决方法提供理论依据。3.数据重采样技术首先阐述由于数据类别的失衡问题所导致的后果及解决方法。其次对介绍常用的基于密度聚类算法—DENCLUE算法。对在DENCLUE算法的基础上对聚类边界提取进行深入研究,提出基于密度聚类的下采样技术,从而在数据端改善数据失衡的现象。4.基于集成学习的SVM分类器在乳腺癌早期诊断的实际应用首先,在算法端引入集成学习思想有效调节数据失衡对SVM分类算法产生的影响。其次介绍在乳腺早期检测系统中各个模块的作用。最后通过在佛罗里达大学的乳腺X摄片图像数据库和UCI数据中进行的对比实验来验证表明本文提出方法的有效性。-6- 第2章乳腺图像处理2.1乳腺癌自动诊断的一般流程乳腺CAD系统诊断的实质过程就是一个分类识别的问题。其原理是:对乳腺部位进行X射线的照射,并获取其医学影像。再对感兴趣的部位进行特征提取,随后通过输入的特征采用一定的算法建立分类器。最后利用已建立的分类器来判断未知图像中乳腺的良恶性。计算机辅助乳腺早期诊断主要包括两方面的工作:乳腺钼靶图像的特征提取与分析并选择合适的分类算法。现有的CAD模型可以分为两类:利用机器学习的方法将已经被标记的病例进行训练,生成分类器再对未知标记病例进行无监督的分类,生成良恶性结果来辅助医生进行诊断。目前支持向量机(SupportVectorMachine,SVM)和神经网络(NeuralNetworks,NNs)等被广泛用于乳腺癌的病灶检测中。另一类是采用基于内容的图像检索(Content-basedImageRetrieval,CBIR)方法,通过查询与待诊断的摄片相似的历史病例来进行比对从而做出辅助诊断。本文设计的乳腺CAD系统总共分为训练过程和识别过程两个部分,其总体框架如图2-1所示。X光乳腺摄待识别的乳片腺摄片可疑部位可疑部位肿块分割肿块分割特征提取特征提取数据数据预处理预处理训练分类器金标准进行分类分类器参数图2-1乳腺CAD诊断系统流程框架Fig.2-1SystemframeworkofbreastDiagnosisCAD由图2-1可以看出,在乳腺CAD系统中的两个部分:训练器生成部分-7- 和分类识别部分。两个部分相辅相成,训练器生成部分工作原理:获得可疑部位、肿块分割、特征提取模块是利用计算机强大的计算能力最大程度的保留X摄片的图像特征并转换成向量特征。然后,得到的向量特征集是典型的失衡数据集,在选择合适的数据预处理算法降低数据的失衡比。最后依靠有监督学习来完成训练器生成部分,给定良恶性的X摄片来对分类器反复训练,最后生成一个具备金标准参数的分类系统。识别分类部分,是将未知的X摄片进行分类的过程,对X图像处理模块到数据预处理模块是和训练器生成相对应的模块是完全相同的。最后分类的模块是一个无监督的分类过程,根据金标准中的参数来进行分类。在乳腺X摄片中,乳腺癌的典型症状主要有微钙化点蔟,肿块形态,肿块密度。早期症状是一个小结点、微小钙化、密度和致密性的变化。基于乳腺X摄片进行诊断主要的依据是分析图像中的肿块和微钙化的面积和病变情况。计算机辅助诊断主要利用模式识别技术将可疑部位进行提取。在众多乳腺患病特征中,肿块是一个重要的特征,肿块形态一般有:环形和星形两类。然而肿块一般会被正常致密的组织所覆盖,而且正常的组织往往和肿块有着相似的形态特征,导致对比性比较差。解决以上问题可以利用相关算法提取图像的有效特征实现对乳房的病灶区域进行检测和诊断。图像数字化处理主要是通过相关软件进行的,基本过程是对图像进行去噪和特征增强等,再提取具备诊断价值的特征。数字化图像处理可以减少计算机分析的数据量,提高速度,提高准确率。a)正常的乳腺X图像b)乳腺肿块X图像a)TheNormalX-rayimageb)ThebreastlumpX-rayimage图2-2乳腺摄片Fig.2-2BreastXrayimages-8- 2.2乳腺钼靶X摄片处理由于在临床中获得的乳腺钼靶X射线图像质量与很多因素有直接关系,在不同环境下,所获得的X射线图像具有不同的分辨率和灰度值,这些因素会导致进行图像对比时会造成一定的困难。因此,需要对图像进行预处理。本文使用的DDSM数据库中的乳腺图像也存在这种问题,因此对X图像进行预处理是必要的。2.2.1X摄片图像预处理式2-1是对不同灰度图像进行调整。图像的灰度值调整在0-255范围之间。255Gxy(,)((,)min())=−×GxyG(2-1)100max(GG)min(−)00在式2-1中,Gxy(,)为原乳腺X射线图像在(,)xy像素的灰度值,0Gxy(,)经过调整后的灰度归一后乳腺X射线图像在(,)xy像素的灰度值,后1面的实验均是在Gxy(,)上进行的。式2-2是对DDSM数据库中乳腺图像的1空间分辨率进行调整。GDDSM0GDDSM=(2-2)11282/2式2-3是对图像进行归一化处理,其中CP()为P对应的初始空间分辨01下乳腺图像各像素P在P中的权重。01areap()∩p10CP()=(2-3)0areaP()1在图像背景中存在着若干的噪声点,这对图像是很不利的,所以这里还需要对图像进行高斯平滑的处理。高斯滤波是一种线性平滑滤波,适用于消除高斯噪声,广泛应用于图像处理的减噪过程。通俗的讲,高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。后续的图像数字化工作都是在上述步骤处理完毕后进行的,噪声也是引起图像质量下降的一个重要原因。如下图是对典型乳腺癌的肿块区域进行预处理的各阶段结果。图像像素的灰度值-9- 用其加权平均值代替。a)原图像b)灰度化、统一化后图像a)Theoriginalimageb)Theimageaftergrayingandnormalizationc)校正后图像d)高斯平滑后图像c)Theimageaftercorrectingd)TheimageafterGaussianSmoothing图2-3预处理结果Fig.2-3Resultsofpretreatment对X摄片进行分析处理之后,图像中大量的冗余信息都会保留下来。为了提高分类识别的准确率,需要在图像中提取可能发生的微钙化点和肿块病灶区域提取特征,这个区域称之为感兴趣区域。感兴趣区域的自动提取是一个极为关键的步骤,感兴趣区域自动分割流程如图2-4所示。图中为感兴趣部位进行提取的全过程。预处理结果后,使得疑似的病灶区域易于与背景分割开来。然后使用最大熵分割,为活动轮廓模型精细分割提供一个初始轮廓,得到一个梯度图,再用此梯度图来拟合一个圆作为初始轮廓。最后输入到活动轮廓模型中,做精细分割[49]。这是整个分割阶段的大概流程。此部分不是本文研究的重点内容,不再赘述。在分割结束后进行乳腺图像特征提-10- 取,将其转化成向量特征。图2-4感兴趣部位分割流程图Fig.2-4Theflow-processofRIOdivision-11- 2.2.2图像特征提取在对感兴趣部分分割后,进行特征提取工作,将图像信息转化为向量化数据。由乳腺病理学知,良性的肿块具备圆形、平滑且边界清晰等特征,而恶性肿块通常是具有粗糙的边界[50]。本文根据一些乳腺部位的特征提取以下特征:1.统计特征统计特征是能够对图像的抽象进行描述,反映了图像灰度变化规律化的特征。通常使用在乳腺统计特征有:均值、方差、峰值等。这些特征能够表现图像灰度的变化规律,适合后续的计算。(1)均值:k1M1=∑Li(2-4)Ki=1(2)方差:K221ML21=−∑()iM(2-5)Ki=1(3)峰值:K14ML31=−4∑()iM(2-6)M2i=12.几何特征几何特征是采用线条提取图像突刺特征。本文为了更全面描述肿块的特性,也使用一些有代表性的几何特征。(1)致密度:4πaFC==−1(2-7)12p在式2-7中p和a分别代表周长与目标面积。较良性的肿块特征相比,恶性的肿块通常具有较高的C值。(2)弦长:K1FL2=∑i(2-8)Ki=1其中,K为肿块边界上点的数量;L为肿块边界上两点之间的距离。i3.肿块特征在对感兴趣部位进行提取后,对乳腺钼靶X射线图像预处理中,肿块是一类重要的特征。资料表明,有87%-95%的病例有此特征[51]。其中肿块的灰度、面积、密度的数字特征都是分类判断的依据。医生往往也是根据肿块的形状、密度等一些基本特征来判断。面积特征是A,mass-12- 灰度特征σ,平均灰度特征μ,对比度特征Cont。肿块的分形维数massmassmass特征D常用合计数法[52]来计算。massDN=−log()/logrr(2-9)mass式2-9中,Nr()是覆盖一个二维点集所需的半径r的开圆个数,r用来调节分形测量尺度。(1)边缘均方差特征σ(特征用C表示),其计算公式如2-10所示。edge11/2⎛⎞2⎜⎟∑((,)fxy−μedgeX)=⎜⎟(,)xyR∈edgeσ(2-10)edge⎜⎟Aedge⎜⎟⎝⎠式中,R是肿块的边缘,A是边缘带的面积。此特征体现了肿块边edgeedge缘的清晰度。(2)边缘平均梯度特征:Grade(特征用C表示),计算公式如2-11所edge2示。∑gxy(,)(,)Rexy∈dgeGrade=(2-11)edgeAedge式中,gxy(,)表示边缘带的梯度。4.图像的形状特征不变矩理论是常用来表示图像形状。由于图像常会存在旋转、平移等操作,因此采用形状特征矩是广泛被接受的模式特征[53]。图像I(,)ij的α,β阶中心矩定义如式2-12所示,中心矩表示图像的基本特征。nnαβφαβ,∑∑I(,)(ijii−−)(jj)(2-12)ij==11根据各阶中心距而定义的7个著名的不变矩[54]如下所示:N=φ+φ(2-13)12,00,222N=−+()φφφ4(2-14)22,00,21,122N=−+−(3)(φφ3φφ)(2-15)33,01,22,10,3-13- 22N=−+−()φφ()φφ(2-16)43,01,22,10,322N=−(φφφφφφ3)(+)[(+−+)3(φφ)]53,01,23,01,23,01,23,01,222+−(3φφφφφφ)(+)[(3+−+)(φφ)](2-17)2,10,32,10,33,01,22,10,322N=−(φφφφφφ)[(+−++)()]4φφφφφ(+)(+)(2-18)62,00,23,01,22,10,31,13,01,22,10,322N=−(3φφφφφφ)(+)[(+−+)3(φφ)]72,10,33,01,23,01,22,10,322−−(φφφφφφ3)(+)[(3+−+)(φφ)](2-19)3,01,22,10,33,01,22,10,3对不同的钼靶乳腺X图像提取这7个不变矩形成特征向量。5.病理学特征结合上文提取的图像特征本文再辅助一些其他病理学上的特征,形成表在如表2-1所示的9个特征。这9个属性分别被赋予1-10之间的某值,分类标签良性所对应的值为2,恶性所对应的是4。表2-1临床病理学特征Table2-1Characteristicsofclinicalpathology标签属性值域D肿块密度1-101D细胞大小均匀性1-102D细胞形状均匀性1-103D边缘属性1-104D单一上皮细胞大小1-105D裸核1-106D单一染色质1-107D常规核1-108D细胞分裂1-1092.3基于粗糙集特征约简方法由上文可知,经过乳腺图像特征提取后确定了23个属性特征,如表2--14- 2所示,但是这些特征中存在一些混叠的现象,特征之间相似度太大会导致后续的分类诊断正确率下降,本文基于粗糙集方法对乳腺X摄片中的数字向量特征进行特征提取,避免特征的冗余并且剔除对分类具备反向作用的属性。表2-2早期乳腺特征Table2-2Thecharacteristicsofearlybreast属性归类名称个数统计特征(M-M)313几何特征(F、F)212肿块特征(C、C)212图像不变形特征(N-N)717病理特征(D-D)9192.3.1粗糙集的基本理论粗糙集最早是Pawlak教授在八十年代初提出的一个用来处理模糊和不确定问题的新型数学分析工具[55]。粗糙集最主要的特点是不需要任何先验知识就能获得一些分析,仅利用数据本身提供的信息即可进行分析。另外粗糙集以不可辩关系为基础,在保留关键信息的前提下对信息进行约简,进而求出知识的最小表达。在粗糙集理论中,称SUA=<>,,,,FDG为决策表,其中Uxxx={,…,}为对象集,U中的每一个x()in≤称为一个对象;12niAaaa={,…,}为属性集,A中的每一个ajm()≤成为一个属性;12mjFfjm=≤{;}为U和A的关系集,f:()UVjm→≤,V为属性a的值域;jjjjjDddd={,…,}为目标属性集或者决策属性集;Ggjp={:≤}为U和D的12pj关系集,gUVjp:(→≤),V为属性d的值域。jjjj但是通常存在一些对象集中的属性并不能提供任何信息,因此,有必要在不失去重要的分类信息前提下约简属性集。设C和D⊆A,一个约简后的属性集INDC()=INDD(),其REDA()表示所有相应的A的属性。CD,集中的表示的属性与全集中属性是一样的。-15- 2.3.2基于遗传算法的粗糙集属性约简方法属性约简技术是实现特征选择有效策略之一,它在保持原有属性不变的前提下,剔除对于总体走势不重要、冗余甚至有反向作用的信息,从而实现有效地获得决策表中最小的属性集合。但是,由于其是一个NP-hard问题,还没有一个能在多项式时间内的有效约简算法[56]。现有的算法主要是从内核出发,逐步采用启发式算法,根据信息熵准则的评判属性重要性系数,从而添加信息增益化最大属性到已有集合构造最小属相约简集合。然而研究表明这种算法并不完善,在进行属性约简时会删除重要属性。因此本文采用基于遗传算法的粗糙集属性约简的方法,本算法可以解决启发式算法不能解决的部分约简问题。其实现过程如下:1.设PC⊆,对于划分PCYYY⊆,{,…,}的P的近似精度为:12kkγpi=−∑cardPY()/(cardU)(2-13)i=1其中表示集合的基数。2.适应值函数:Fx()(1=−+cardxnk()/)(2-14)输入:一个决策表SUA=(,,,)VF,A=CD∪,C是条件属性,D是决策属性。输出:此决策表的属性约简R。(1)由计算式(2-13)出决策D属性对条件属性C的依赖度γ()D。c(2)令CoreC()=ϕ,逐个曲调一个属性cC∈。若γ≠γ,则Cc−cCoreC()=∪CoreC(){}c,即核为CoreC();若γ()DD=γ(),则Core即为corec最小相对约简,否则执行第三步。(3)随机产生m个长度为n(条件属性的个数)的二进制串组成初始群体:对于核中的属性,对应位取1,其他则对应随机取0或1。(4)由式(2-13)计算出决策属性对每个个体所含条件属性的依赖度;由公式(2-14)计算出每个个体的适应值;再计算出每个个体被选择的概率;最后使用模拟赌盘操作(即到之间的随机数)01来选择个体。(5)根据交叉概率pc进行交叉操作,采用单点交叉方式。(6)pm进行变异操作,采用基本变异方式,其中核中属性的对应位置不发生变异。(7)采用最优保存策略,将最优个体复制到下一代群体中。-16- (8)如果连续keep代的最优个体适应值不再提高,则终止计算,否则进行第四步。2.4本章小结这章主要介绍了一般乳腺癌检测的一般步骤,以及在前期处理乳腺X图片的工作,包括对X摄片的去噪,并且根据乳腺癌早期的病理特征提取向量特征,并形成可供后续计算的多属性维向量化数据集,并采用遗传算法的粗糙集进行属性约简去除冗余的特征和一些有反向作用的特征。-17- 第3章基于失衡数据集的乳腺癌检测本章首先介绍数据集失衡所带来的后果和解决失衡数据集的主要方法。从算法端来解决失衡数据集的分类问题是行之有效的方法之一,而最常用的方法是数据的预处理技术。采用重采样技术可以有效的减少数据分类面的倾斜状态。但是采用重采样技术也会带来一定的影响,会减少造成一定量的数据损失。如何能够做到既平衡数据的分布并在最大程度上降低数据的损失是研究重点。基于此本章提出簇边界采样的预处理技术来解决上述问题。从而使乳腺癌数据集中良恶性样本个数趋于相同。3.1失衡数据的解决方法数据失衡的情况主要是由于正反例样本差距巨大引起的,样本分布反映整个空间的特征。在最常用的二分类的情况下,数据类别由于数量级之间的差距往往会导致超平面倾斜和“数据淹没”现象[57],如图3-1(a)所示,理想超平面方向产生了很大的偏离会导致错分的现象,使得出现信息损失现象,如图3-1(b)所示。因为在失衡数据集中样本分布有其固有特性,所以对于可以有效解决常规数据集分类的方法和策略在该问题上所得的结果难以令人满意。这就需要改进现有的分类策略,可以从数据端和算法端两方面来入手。a)数据淹没现象a)Thephenomenaofdataflow-18- b)信息损失现象b)Thephenomenaofinformationloss图3-1数据失衡的影响Fig3-1Theinfluenceofdatasetimbalance1.数据端改进方法目前数据端技术可以从两个方向入手,其一是通过删除大样本中不必要的信息样本,并且保留原本的信息样本,从而降低失衡比;其二是通过一些技术手段来增加小样本的信息量,同样可以达到降低失衡比的目的。(1)上采样方法上采样(Up-sampling)方法通过采取增加正例样本的数量来避免正反例样本数量失衡问题。由于对正例样本决策边界进行了扩展,致使分类面的倾斜向反例样本方向移动,这样数据淹没现象将有效的被避免。虽然该采样方法通过刻意的增加样本数量使数据集的样本分布达到平衡来避免数据淹没,但是无法保证人为增加的元素可以与数据集分布相匹配,也无法确认该数据所携带的信息是否有意义,同时单单通过采取增加正例样本的数量来保证正反例样本不失衡,不但会增加建模时间同时也给系统带来了不必要的开销,随着正例样本的增加有可能出现过学习现象,这样分类效果反而会更不理想。为了解决上采样出现的问题,众多的学者对该采样方法进行研究和改进,多种有效的采样技术被提出。其中比较有代表性如下:美国著名学者Chawla等人提出的SMOTE算法通过采用线性插值的方式来指导数据空间正例的导入,其本质为在距离相近的样本中插入相应的人造数据元素,这样即可有效的保证所插入数据尽可能的与原有数据相似[58];2009年Bunkhumpornpat等人在SMOTE算法基础上进行改进提出了Safe-Level-SMOTE方法,通过对所插入数据的配备不同的权重,来保证所插入的数据更有效[59]。-19- (2)下采样方法下采样(Under-sampling)方法与上采样方法恰好相反,通过采取减少反例样本的数量来避免正反例样本数量失衡问题。其目的也是降低失衡比,这种技术虽然能在根本上降低两类数据的失衡比,采样后的数据集规模要减少很多,能够有效的降低建模时间,减少系统的开销。但是,这种方式会带来信息缺失等问题的出现,该方式下分类器在训练过程中所得到的超平面将与理想的超平面有较大的偏离,该方式的分类结果也并非理想。2.算法端改进方法除了从数据端解决数据分布不平衡外,从算法端解决分类问题也是常用方法。其中使用最为广泛的是代价敏感学习和集成学习算法[60]。由于失衡数据集类别分布的特殊性,使得正反例错分的意义有所区别,而代价敏感就是针对于不同类别的元素建立的不同错分代价的学习机制。另外,集成学习方法也是一种有效的方法,通过建立多个子分类器进而形成一个强分类器,这样即可克服传统单一分类器所面临的无法克服失衡问题,该方法最终采用调整内部迭代来形成分类结果。3.2基于DENCLUE密度分布聚类对数据样本聚类的目的是将分到同一组的样本差异尽可能小,而组间的样本差异尽可能大。基于密度聚类的方法就是根据数据在空间分布中的稠密程度为依据进行聚类,无需预先设定簇的个数。因此特别适合对于未知内容的数据集进行聚类。DENCLUE(DENsity-basedCLUstEring)密度聚类是常用的聚类方法。DENCLUE聚类方法具有坚实的数学基础,并涵盖了其他的聚类方法,对于具有大量噪声的数据也能显示出良好聚类形状。对于高维的数据也可聚成任意形状[61]。DENCLUE属于一种函数聚类算法,这种算法是在同一组密度下进行分布的。此算法使用的思想包括三个:第一个是一个数据点的影响,能够借助于一个数字函数来进行建模操作,来描述此数据点在邻域中的影响。第二是数据集中的密度,能够借助于数据点来显示。第三是数据点形成的簇,能够对密度吸引点进行识别。d假设x和y是d维输入空间F中的对象点,数据对象y对x的影响函数yd+是函数f:FR→,它用基本的影响函数f定义:B0Byf()xfx=(,)y(3-1)BB用其计算高斯影响函数:-20- 2dxy(,)22σfx(,)ye=(3-2)Gauss其中σ为核函数的窗宽,通过搜索全局密度函数的局部极大值实现基于中心或任意形状的聚类划分。图3-2是一个二维数据集及其生成的密度函数。a)二维点集b)DENCLUE聚类a)Twodimensionalpointsetb)ClusteringbasedDENCLUE图3-2分布函数聚类Fig3-2Distributionfunctionclustering3.3基于聚类簇边界的采样方法针对失衡数据的分类问题,预处理是一个不可忽视的重要步骤。近几年基于密度聚类的采样方式得到了广泛的推广和认可,并取得了很好的效果。通过下采样技术,删除一些反例信息,而还要保持信息的完整性,这是一个矛盾统一的问题。通过学者大量的研究积累发现,样本中所包含的信息不是均匀的分布,核心的信息主要存在于簇边界上的样本,这也是如何对分簇间做出区分的重要因素,更是影响分类的关键。由此,本节在DENCLUE算法的基础上提出一种基于聚类簇边界采样的方法对数据进行重采样。3.3.1基于密度聚类的方法基于密度聚类不受数据属性、维度、排列顺序和空间分布的制约,并能够自动识别聚类簇的个数,有较强的抗干扰能力。基于密度的聚类算法将簇看成是数据空间中被较低密度的区域分隔开的高密度对象区域,它可以发现任意形状的簇,并能识别噪声数据。假定一个数据对象由d个属性描述,则若干个具有d个属性的数据对象-21- 就构成了d维数据空间。在d维空间中,数据对象被称作d维数据点,则d维数据点x可表示为x=⋅(,,)xx⋅⋅,其中x表示第i个属性值,d表示空间1di的维数。由n个d维数据点组成的集合。S可表示为Sss=(,,)⋅⋅⋅,其中1nsss=(,,)⋅⋅⋅,且s表示第i个数据点的第j个属性值。根据数据点之间iii1dij的相似性,将d维数据集V划分成{,,CC⋅⋅⋅C}的过程称为聚类分析,其12k中knC≤≠,,(∅⊆=⋅CVi1,2,⋅⋅,k),∪=CV。这里,C一般被称做簇。iiii数据矩阵:用p个变量(也称度量或属性)表示n个对象,或np×(n个对象×p个变量)矩阵,如公式3-3所示:⎡⎤x11xx12...1p⎢⎥xxx...⎢⎥21222p(3-3)⎢⎥............⎢⎥⎢⎥⎣⎦xnn12xx...np相异度矩阵:存储所有成对的n个对象的邻近度,通常用一个nn×矩阵表示。其中,dij(,)是对象i和对象j之间的测量差或相异度。通常,dij(,)是一个非负的数值,对象i和j越相似,其值越接近0;两个对象越不同,其值越大。由于dij(,)=dji(,),并且dii(,)0=,如公式3-4所示。⎡⎤0⎢⎥d(2,1)0⎢⎥⎢⎥dd(3,1)(3,2)0(3-4)⎢⎥.........⎢⎥⎢⎥⎣⎦dn(,1)dn(,2)......0相似度通常根据数据点之间的距离来定义:距离越短,相似度越大;反之,距离越长,相似度越小。理想情况下,数据点v和v的距离d必须满ijij足以下条件:1.d≥0;ij2.d=0如果vv=;ijij3.dd=;ijji4.ddd≤+,其中vvv≠≠。ikijjkijk满足上述条件的d的取值在(0,)∞,d越小,v和v的相似度越大,反ijijij之,d越大,v和v的相似度越小。ijijαα(),(),xxx...,()α(3-5)12n其中,α()x表示实例x的第k个属性。那么两个实例x和x间的欧几kij-22- 得距离定义为:n2dxx(,)ij=−∑(()ααkixkj())x(3-6)k=1在数据集D中,实例x的邻域可以定义为:EPSx(){=y∈≤Ddxy|(,)EPS}(3-7)3.3.2基于邻域的簇边界确定方法通过失衡数据集分类问题的学习,研究分析发现在采样方法上,存在众多的反例被聚成簇样本,直接去除整个簇样本不是最优的解决策略。簇与簇之间的信息量并不是平均分配的,并且簇中存在一种核心的信息能够较完整的反映簇的基本状态,这类核心信息也是采样点关键所在。因此,提出一种假设:簇样本处于边界的数据能够代替本簇内数据的核心信息,并能最大化区分与其它簇。经过大量的实验验证这种假设是正确的。本文提出的基于簇边界采样技术来解决数据失衡的中重采样的问题。同时因为本文实验过程采用支持向量机作为主要的分类算法,支持向量机在决定分类面时通常是与边界上的信息有关,所以簇边界上的数据被选取作为为保留信息。由于失衡数据集中,正反例的数据分布严重不平衡。在高失衡比的数据集中,反例的数量可能会是正例的指数倍。因此,为了避免正例的信息损失,保留全部的正例信息,只针对于反例来进行密度聚类,提取簇的边界,删除大量簇中的元素信息。尽可能降低失衡比。基本思想如图3-3所示:图3-3基于反例簇的边界环抽样原理Fig.3-3Boundaryloopsamplingprinciplebasedonnegativeclusters-23- 本方法是基于邻域的定义来确定聚类簇的边界点。对于一个聚类簇中的元素,某个元素邻域内的元素数量越多说明该元素所在的位置越接近簇的中心,反之某个元素邻域内元素数量少,说明其靠近簇的边界,该元素也就接近簇的边界点。我们可以使用|(EPSx)|代表数据元素x所在邻域内数据元素的个数。为了进一步准确的找到簇的边界,提取簇的边界环,通过选取2组密度阈值。其中一组密度阈值成为聚类密度阈值,是根据整体数据集的特征和平均距离来估算,用来将整个数据集划分成若干个簇;另外一组称为边界密度阈值,通过每个簇的规模来估计,用来寻找所得到簇的边界数据对象。我们使用第一组聚类密度阈值EPS和MINP来寻找数据集中相11似的数据元素,将数据集中的数据元素划分成若干个簇C。对每个簇Ci使用第二组边界密度阈值EPS和MINP来寻找簇的边界环,边界cici密度阈值的确定取决于簇C的规模。本文用D代表全体训练数据集合,Cii代表D中划分出的第i个簇,B代表簇C的边界环,则有:iiDCCCCC={,,,...,,}(3-8)123nnoiseCxDE=∈{|(PSxM)≥INP}(3-9)i1B=∈{|(xCEPSx)≥MINP}(3-10)iici具体算法的实现过程描述如下:1.遍历D中数据元素,计算D中元素与元素之间的距离;2.估算聚类密度阈值MINP;13.使用第一组密度阈值对D进行聚类;4.标记D中元素,属于簇C或噪声C;inoise5.对于一个簇C,计算簇中数据元素的个数N;ici6.根据N估算簇C的密度阈值MINPciici7.计算每一个数据元素在某个邻域内与其属于同一簇的元素的个数;8.根据第二组密度阈值MINP,从簇C中提取边界元素B;ciii9.重复第4步,知道D中所有非噪声元素所在的簇都被遍历。10.得到的所有的B。i为了验证基于邻域的聚类簇边界确定与校准算法,我们测试数据集对算法进行测试,并且用二维散点图的形式直观的显示出来。图3-3(a)表示对原始数据D采用密度聚类后得到的一个簇C,图3-3(b)表示对簇C采用该方ii法得到的聚类簇的边界点的集合B。图3-3可以很直观的证明本文提出的簇i-24- 边界采样方法(CBS,clusteringbasedboundaries)可以有效地取得聚类簇的边界,并且得到的边界是准确的。图3-4基于邻域的聚类簇边界的确定与校准Fig.3-4Neighborhood-basedclusteringtodeterminetheclusterboundaries由于失衡数据集中正例和反例分布不平衡,高失衡比的数据集中,正例和反例的个数往往差距巨大,所以在对失衡数据进行聚类提取簇边界环时,要保证占少数的正例信息尽可能的完整,而占绝大多数的反例信息尽可能的具有代表性。本文也是保留全部的正例信息,对反例信息进行类聚,并提取簇的边界。最后将全体正例和反例簇的边界样本作为SVM分类学习数据。3.4本章小结本章介绍由于数据类别失衡所导致的后果以及解决失衡数据常用的方法,包括数据端的采样技术聚类分析方法。结合这些方法的优缺点创新地提出基于密度聚类簇边界采样技术(CBS),并介绍了CBS的算法和执行过程。-25- 第4章基于集成学习的分类方法在第三章中介绍了从数据端改变数据失衡的方法,本章从算法角度针对失衡数据的问题对分类器进行改良,主要介绍集成学习方法对传统分类器的影响。本文采用支持向量机(SVM)作为基分类器,引入集成学习的方法改进基分类器使之成为更适合失衡数据的分类模型。4.1支持向量机4.1.1支持向量机原理支持向量机属于一种机器学习方式,这种方式是著名学者Vapnik等人提出来的,能够在分类和回归探究上进行应用,这种方式被视为小样本状况下的统计学习典型方式[62]。其原理如图4-1所示。由图可知SVM算法思想是寻找一个超平面将两类线性可分的类别分开。以两类数据分类为例,给定训练样本集:Lx={(,yxy),(,),…,(,xy)}1122nnd其中x∈R,y∈{1,1},−=in1,2,…,,y为样本x的类别,d属于样本位数,iiiin为训练样本数,存在一个超平面使得训练样本分类,该超平面可以描述为:w*xb+=0.(4-1)其中w为超平面法向量,b为超平面的偏移量。SVM学习问题为最小化目标函数:n12min()φww=+||||C(∑ξi).(4-2)2i=1满足约束条件:y()wxb⋅+≥−=1ξ;i1,2,…,n.(4-3)iiin12其中:||w||/2代表了结构复杂度;C()∑ξi为经验风险;ξi是松弛2i=1变量;C>0是一个常数,为错分样本的惩罚因子。因为存在线性无法分的问题,所以SVM的主要理念指的是,把输入的向量进行映射操作,映射到一个向量空间,这种空间属于高维空间,并且在此空间中塑造一个最优分类面。-26- w⋅x+=b1w⋅xb+=0ww⋅xb+=−12/w图4-1支持向量机原理Fig.4-1SVMprinciplen将x做从输入空间R到特征空间H是变换φ,得Τx→=φφφφ()((),(),,()).xxxx…(4-4)12i以特征向量φ()x代替输入向量x,则可以得到最优分类函数:n⎛⎞f()sgn(xw=⋅+φφ())sgnxb=⎜⎟∑aiiy()()xi⋅+φxb(4-5)⎝⎠i=1非线性可分映射到高维空间之后,其示意图如图4-2所示。X2Z1X1Z3Z2图4-2SVM高维分类模型图Fig.4-2SVMhighdimensionalclassificationmodeldiagram一般情况下SVM在数据上的不均衡并不带有敏感性。但是假如对SVM展开合理的完善,能够对不均衡数据分类展开更为全面的处理。简单的分类,是将被分类的对象,向着多数类进行移动,来保证尽量少的样本出-27- 现误判。另外是对正类和负类分别给出相应的代价,使之成为SVM中的两个惩罚因子。除此之外,还能够针对支持向量裁剪下来,将一部分分类精度剔除出去,来保证少数类的精度。4.1.2常用核函数为了解决现实生活中诸多线性不可分的问题,由此引入核函数,将输入空间的向量引入到高维的特征空间中去,建立一个新的空间可以增加非线性决策面,进而增加线性学习机器的计算能力。在实际应用中,引入不同的核函数可以解决不同的问题,因此可以看出核函数的引入是至关重要的。使用核函数可以避免维数过大的问题,将难以解决的问题转化成标准的二分类问题,并且在小样本的判别式上具有较高的鲁棒性。这恰是符合判断乳腺癌的X摄片是否异常的两分类模式。满足Mercer条件的内积函数Kxx(,)′称之为核函数,其定理如下所示:∝2对称函数KuvL(,)∈能够以正系数ak>0展开Kuv(,)=∑akkφ()v形式充分必k=12要条件是:对所有满足∫gudu()<∞,且g≠0的函数gu(),有∫∫Kuvgugvdudv(,)()()≥0成立。1.核函数的性质性质(1):若核函数KK,,且有两个正整数ab,,则公式4-6也是核函12数KxyaKxybKxy(,)=(,)+(,)(4-6)12性质(2):在满足性质1的条件下,则公式4-7也是核函数KxyaKxybKxy(,)=(,)⋅(,)(4-7)12性质(3):若有核函数K,则满足公式4-8也是核函数1Kxy(,)exp((,))=Kxy(4-8)1性质(4):若B是nn×的正定矩阵,则满足公式4-9也是核函数TKxyxBy(,)=(4-9)2.常见的核函数采用不同的核函数可以构造出不同的非线性分类面,下文介绍几种在实际应用中采用的核函数:(1)线性内积核函数:-28- Kxx(,)=xx⋅(4-10)ijij线性内积核函数也是最常见的,构造最优分类面函数为:n∗∗f()xy=+sgn(∑αiiK(,xijx)b)(4-11)i=1(2)多项式内积函数:qKxy(,)(=⋅+⎡xy)1⎤(4-12)ij⎣ij⎦其构造的最优分类面函数为:nq∗∗f()xy=⋅sgn(⎡⎤α(xx)+b)(4-13)∑⎣⎦iiiji=1(3)Sigmoid内积函数:Kxy(,)=tanh((vxy⋅+)γ)(4-14)ijij最优的分类判别函数为:n∗∗f()xv=⋅sgn(∑αγiitanh((xyj)+)+b)(4-15)i=1在处理不同实际问题时,选择合适的核函数对分类有着极大的影响。因此在解决问题时,应该全面考虑并且积极尝试,最终根据结果来决定选取哪一个最合适。4.1.3核函数在在乳腺癌诊断中的应用大量文献[63][64]表明径向基核函数的性能在这一领域中的表现性能是最出色的。而在选取不同参数σ相应的分类效果也是不同的。在本节中,针对乳腺早期诊断的特征,选取1000幅乳腺钼靶图像组成的数据集,其中包含了890幅良性数据和110幅恶性的数据作为训练样本来选择最适当的σ值。其实验结果如表4-1所示。表4-1参数σ对分类正确率的影响Table4-1Theinfluenceoftheσparametersontherateofcorrectclassification.核参数σ运行时间(s)正确率SVM个数10085.320781.5%25001095.268490.3%25001450.996693.5%1900-29- 续表4-10.11997.553296%10000.01453.253497%21000.01453.54697%21000.001102.245697%2800由表4-1可知,分类器的正确率跟σ有着密切的关系,当σ的值达到最大时,支持向量的个数也是最多。其分类器的分类正确率相反最低,但是此时训练样本的时间需要的最少。而当σ取到最小值是,分类器的分类效果达到了最高,训练的时间也是最多的。由此可以看出训练的分类能力是具有最高的鲁棒性。如何在选取σ值时,使得取某一个值可以达到最高的分类准确率,并且具备最好的鲁棒性是值得今后工作中深入研究的问题。在本文中使用同样使用径向基核函数,并且选取σ=0.001来设置SVM的基本设置参数。4.2集成学习方法集成学习(EnsembleLearning)是一种机器学习的模式,其思想是使用一系列的子学习器来进行学习,并使用某种规则将子学习器的结果进行整合迭代来得到一个比单个学习器更好效果的强分类器。集成学习在机器学习领域、生产生活、科研中有着广泛的应用。4.2.1集成学习基本概念集成学习是利用相同类型的子学习器来解决同一个问题,而现如今的定义是只要是采用多个学习器来解决问题,就认为是集成学习。并且越来越多的学者更倾向于这个概念。在这个定义下,又赋予了集成学习更多的功能,集成学习也在更大的研究领域中得以应用。构成集成学习的方法大致可以分为四种:1.输入变量集重构法:当输入的变量集具有高度重叠冗余的情况时,适合这种方法。将输入的数据能够很好进行整合,以免影响最后的集成结果。2.输出变量集重构法:这种方法主要是通过改变输出变量集将多分类的问题转化成为最基础的二分类的问题来解决。3.样本集重新抽样法:这种方法也是目前众多学者集中研究的问题。-30- 使用最为广泛的算法,这种方法对于表现不稳定的情况能够取得很好的效果。算法包括:Bagging,Boosting等。4.参数选择法:在选择算法前首先要设置算法的参数,对于很多情况下参数的选择没有规则可依,需要学者根据实际经验进行选择。参数的选择不同,会导致最后的结果有很大的差异。在用传统分类算法解决失衡数据集的问题时,单个分类器往往很难得到满意的结果,在此使用集成学习的方法可以提高分类的泛化能力,避免了单一分类器造成的不稳定情况发生。本文中主要是采用第三种方式来解决失衡数据的分类问题。在面对训练集时,采用有效的规则将若干个子分类器合并成强分类器。其主要步骤如图4-3所示。训练样本集T子集T1子集T2……子集Tn构建分类模型基分类器1基分类器2……基分类器n分类结果集成分类器测试样本集图4-3集成学习方法示意图Fig.4-3Schematicofensemblelearning4.2.2分类器集成的主要算法经过各国学者长期坚持不懈的努力,集成学习已经逐步发展成一个重要的算法。很多学者提出了很多不同的算法。在众多的算法中,以Boosting和Bagging算法最著名。这两个算法已经在很多领域内有了广泛的应用。本文中对Boosting算法进行研究,并在Boosting算法的基础上扩展算法AdaBoost算法来提高SVM的分类稳定性和准确率。-31- Kearns和Valiant于上世纪90年末提出弱学习的概念,并构建了弱学习的模型。而随后Schapire通过数学构造仿造的方法对弱学习的概念给予了肯定,并证明了集成多个弱学习器能集成一个强分类器。这就是Boosting算法的初步提出。在1995年,AdaBoost算法的提出,此算法可以更加有效的应用到实际问题中,用以解决分类和回归等问题,并且精度也大幅度的提高了[65]。下文着重介绍AdaBoost算法的流程;对于二分类的问题,设输入的n个训练样本为:{(,xyxy),(,),…,(,xy)},其中x是输入的训练样本,y∈{1,1}−+分别表示1122nnii正样本和负样本,其中正样本数为l,负样本数为m。即nlm=+,具体步骤如下:1.(1)初始化每个样本的权重wi(),iDi∈();l(2)对每个tT=1,2,…,(T为弱分器的个数);1把权重统一成一个概率分布:wti,w=(4-16)ti,n∑wtj,j=12对每个特征f,训练一个弱分类器h计算对应所有特征的弱分类器j的加权错误率:nεjt=∑wxhx()()iji≠yi(4-17)i=13选取最佳的弱分类器h(拥有最小错误率):εtt4根据这个最佳弱分类器,调整权重:ww=β1−εt(4-18)ti+1,tit,其中ε=0表示被正确地分类,ε=1,表示被错误地分类:iiεtβ=(4-19)t1−εt2.最后的强分类器为:-32- rr11⎧⎪+≥1(∑∑αtthx)Xi,lαt=oghx()=⎨tt==112βt(4-20)⎪⎩−1otherwise4.2.3基于Adaboost-SVM的分类算法目前的研究中SVM分类算法对于小规模、标注完整并且分布均匀的数据集能够很好应用。但是,在面对失衡数据集时,SVM的分类性能急剧下降。在SVM理论中,该分类模型同其他分类模型相比对数据失衡的影响最不敏感,原因为其用于分类训练的样本均是从与分界面相近的样本中选取作为支持向量,这样可以去除与分界面较远的样本影响。如果数据失衡轻微存在,这样原有分类算法即可得到较理想的结果。SVM的学习机制为我们在对分类模型的认识和改进方面提供很大的空间。因此,本文仍然选择SVM作为失衡数据分类的基本算法模型。SVM处理分类问题的基本过程如下:d训练样本集Lx={(,yxy),(,),…,(,xy)},其中x∈R,1122nniy∈−={1,1},in1,2,…,,y为样本x的类别,d为样本位数,n为训练样本iii数,存在一个超平面使得训练样本分类,该超平面,该超平面可以描述为:w*xb+=0.(4-21)其中w为超平面法向量,b为超平面的偏移量。SVM学习问题为最小化目标函数:n12min()φww=+||||C(∑ξi)(4-22)2i=1y()wxb⋅+≥−=1ξ;i1,2,…,n.(4-23)iiin12其中:||w||代表了结构复杂度;C()∑ξi为经验风险;ξi是松弛变2i=1量;C>0是一个常数,为错分样本的惩罚因子。n将x做从输入空间R到特征空间H是变换φ,得:Τx→=φφφφ()((),(),,()).xxxx…(4-24)12i以特征向量φ()x输入向量x则可以得到最优分类函数:n⎛⎞f()xw=⋅+sgn(φφ()xb)=sgn⎜⎟∑aiiy()xi⋅+φ()xb(4-25)⎝⎠i=1值得注意的是,失衡数据集中的样本类别失衡以及实际应用型数据集的复杂性都会造成分类器的不稳定,分类器的不稳定性会直接影响最终分类识别。集成学习对于不稳定的分类器有着明显的改善作用。-33- 在本文中引入集成学习中的AdaBoost机制将一次分类过程等分成若干个使用SVM的弱分类器,再通过逐层迭代权重的方法将难以分类的数据样本重新定义权重值,能整体提高分类器的性能。将AdaBoost算法集成到SVM的关键是要找到两者契合的高斯宽度σ值。σ值相对过大,SVM产的子分类器的性能越弱,所导致的最终分类性能也随之下降;相对的,σ值相对较小,SVM的子分类器会相对比较健壮,子分类器的错误高度相关,差异性小,使得集成学习方法失效。但是一味的追求σ值最小化,甚至会导致分类器对于训练样本的过拟合,从而造成泛化能力大大下降,准确率也随之降低。因此本文旨在通过训练每一个分量分类器的样本的标准差作为该分量分类器的σ值,以控制分量分类器的分类精度,从而得到一种基于AdaBoost的SVM分类器,通过选择合适的σ和C的值可以有效的避免过拟合的产生。分类算法流程如下:1.一组有标记的训练集Dx={(,yx),(,x),…,(,xyxX)},∈=−+{1,1}1122nni得到弱分类器RBFSVM,迭代次数T。2.初始化:初始化各样本对应的权值:wi()1/,=ni=1,2,…n。13.FortT=1,2,…,。(1)按wi()在D中采样,得到训练分类器C的训练样本集d;1tt(2)计算d的标准差σ:sqrt(mean(var(d)));tt(3)以d为训练样本集,σ为参数训练弱分类器C的训练样本集h,Ctttt为以σ为参数的RBFSVM;(4)计算C的训练误差ε:ttnεtt=≠∑wiyhx(),it()i(4-26)i=1即ε相当于错分样本的权值w之和;tt(5)设置弱分类器C的权值:t1⎛⎞1−εtα=ln⎜⎟(4-27)t2ε⎝⎠t(6)更新训练样本的权重:wi()Di()⎧ei−αtfh()xy=tttiiwi()=×=×FE()⎨(4-28)tt+1αZZ⎩eitfhxy()≠tttii4.输出:总体分类器的分类函数:nHxsign()=[∑ahxtt()](4-29)i=1-34- 4.3实验与分析失衡数据的特点有两个:其一是类别分布的严重失衡,失衡比大。其二是信息匮乏,是指小样本中类别的信息量少。本节为了验证AdaBoost-SVM算法相对与SVM的在失衡数据集上有效性。选择UCI数据集中有代表性的四类数据来进行实验,这四类数据涵盖了所有失衡数据的可能性,避免了实验的单一性和片面性。表4-3列出了四类数据集的特点及其信息。表4-34个UCI数据集的基本信息Table4-3ThebasicinformationoffourUCIdatasets数据集反例样本数正例样本数失衡比数据描述Shuttle67829186364:1高失衡比高信息量Abalone652449133:1高失衡比低信息量Yeast16986326:1低失衡比低信息量Churn53648036:1低失衡比高信息量使用本文的AdaBoosy-SVM方法在四中失衡数据集上做比较试验(对比SVM),其前后对比结果量化的呈现在表4-4中。表4-4SVM和AdaBoost-SVM算法AUC数值Table4-4TheAUCvalueofSVMandSVM-AdaBoostalgorithmDataSetSVMAdaBoost-SVMShuttle0.50910.7670Abalone0.51590.7004Yeast0.55400.8487Churn0.87450.9053由表4-4中AUC值可知,针对失衡数据集,AdaBoost可以很大程度提高基分类器的稳定性并且提升了准确率。由此可知引入集成学习的方法可以形成一套完整可行的分类方案。因此,为了更好的对乳腺癌早期进行分类检测我们使用AdaBoost-SVM算法应用到有监督的分类器生成模块中。为了更形象的说明AdaBoost对于各种情况的失衡数据集均有很好的提升效果,采用ROC曲线对比图辅助说明。如图4-4所示。由此可知,针对失衡数据集的分类的问题,相比传统的SVM分类器,本文采用集成学习的方法能很好地提高基分类器SVM的泛化性。-35- a)Shuttle数据集的对比实验b)Yeast数据集的对比实验a)ContrastexperimentofShuttledatasetb)ContrastexperimentofYeastdatasetc)Churn数据集的对比实验d)Abalone数据集对比实验c)ContrastexperimentofShuttledatasetd)ContrastexperimentofYeastdataset图4-4与传统SVM的对比实验Fig.4-4ContrastexperimentwithtraditionalSVM4.4本章小结本章介绍了集成学习的基本概念,并且分析了对于失衡数据集引入集成学习对于分类的正向作用。并针对几种形式的失衡形式,通过分组迭代和更新权重的集成学习方式训练强分类器。最后在UCI四种有代表性的数据上验证了AdaBoost-SVM算法的优势。-36- 第5章基于失衡数据早期乳腺癌检测应用在过去的十年中,乳腺癌的发病率在不断的上升,尽管专家称很多因素可能增加罹患乳腺癌的几率,如:遗传、基因变异、肥胖、没有孕育过孩子等,但是最主要的病因至今还没有定论,另外由于医疗技术和设备等因素限制,目前还没有有效的手段可以根治乳腺癌。研究表明在未扩散的情况下,乳腺癌的早期诊断和治疗是唯一能够拯救患者生命的有效途径。本文以此为背景开发基于失衡数据的辅助诊断系统。本章主要介绍了系统的构架、处理流程、模块设计以及实验验证等内容。5.1乳腺癌辅助检测系统构架本文针对乳腺癌早期诊断系统构建的构架体系,并通过佛罗里达大学DDSM数据库上构建了对比实验并进行分析。设计了一套以辅助医生为目的的诊断体系,从图像处理到分类诊断的完整过程。本系统业务流程如图5-1所示:新病例入库选择录入填写待检乳腺诊断分类器检测良/恶性诊断测的钼靶结束报告病例图像病例状态:已检查医生否选择医生会诊描述填写已诊查看诊断结果是钼靶诊断断病钼靶否一致图像报告诊断例图像是结束病例状态:诊断完成图5-1诊断业务流程Fig.5-1Operationflowofdiagnose在图5-1中介绍了此系统的业务流程图,首先检查病例的状态,将待检测的钼靶图像输入到系统中,已经训练好的分类器对其进行分类诊断。并输出诊断结果。然后医生再对钼靶图像和病例生理指标进行诊断,若结果一致-37- 则完成了诊断,若结果不一样则进行会诊或者二次诊断,从而减少了漏检率。分类器是此系统的重点,分类的内部流程图如图5-2所示分类器内部流程模块一模块二模块三模块四模块五将提取的特AdaBoost-图像特征提图像预处理征进行属性数据预处理SVM分类算取约简法提取ROI灰度化部位基于遗设置CBS数传算法σ参数据预处肿块分割的粗糙理归一化集进行属性约特征提取集成强(统计、简分类器几何、肿块特征)图5-2分类器内部流程Fig.5-2Theinternalflowofclassifier图5-2概要性的描述了是分类器的核心流程,可以看出分类器主要包括了五个部分,这五个部分需满足先后的关系。每一个部分相互关联,缺一不可。在分类器的内部也是五个相对独立又相互依存的模块。其中模块三、四、五是本文的重点。由这三个模块方法可以验证本文方法是阶梯式的提升乳腺癌早期诊断的准确率。在5.3小节中将结合实验来详细证明。5.2模块设计1.图像预处理模块系统的图像预处理模块主要是前期将输入的X图像实行预处理,用集成的算法将输入的X乳腺图像统一成相同的灰度值,并且后续对图像的灰度值进行归一化。图像预处理模块必须以数据文件或者链接数据库的形式进行输入。输入一张X乳腺图像,返回一张X乳腺图像。并将图像暂存起来,准备传输给下一个模块使用。在预处理模块中,必须根据输入图像的大小和像素点值,分析相关参数。由于实际过程中个体差距较大,预处理模块是必不可少的。其详细过程如图所示。-38- 原乳腺预处理后的X图像去噪灰度化图像增强灰度归一化X图像乳腺X图像计算图像平针对乳腺早局灰度值针对X乳腺期图像特征K,用K像素图像,采用调整灰度值使用KNN平代替所有待直方图均衡在0-255之间滑滤波器所例的像素化算法点图5-3图像预处理模块Fig5-3Imagepreprocessingmodule2.图像特征提取模块图像特征提取模块主要包括两部分工作。首先将预处理的图像进行RIO区域提取,这部分内容在第二章详细介绍过,在这里就不再赘述。再对感兴趣部分进行切割后在对图像进行特征提取。这一步是将图像特征转化成特征向量,主要提取四类特征以后后续计算使用。其流程如图5-4所示预处理后的RIO区域X图像特征的特征提取乳腺X图像提取向量化集合统几肿图像计何块的形状特特特特征征征征图5-4图像特征提取模块Fig5-4Imagefeatureextractionmodule3.属性约简模块采用基于遗传算法的粗糙集方法将提取的23个特征进行约简,使得数据的耦合性降低,留下15个特征子集。属性约简模块步骤较少,在这里不再详细阐述。4.数据预处理模块因为输入的图像的属性特征集是典型的失衡数据集,因此在进行分类时有必要进行数据的预处理。根据第三章所述本文采用基于密度聚类的簇边界采样方法来处理良恶性类别失衡的情况。首先计算接收的向量数据中每个向量点的欧式距离进行,设置阈值进行聚类。然后在大类别的簇中,根据CBS算法提取簇边界,保留簇边界特征并且删除簇中间的数据。使得两个类别的数据相对于趋近平衡。其过程如图5-5所示。-39- 图5-5CBS采样模块Fig.5-5CBSsamplingmodule5.AdaBoost-SVM算法模块算法模块分为训练部分和分类部分。首先接收预处理之后的数据集,选择合适的惩罚因子等系数作为训练参数,再将训练后的模型作为分类模型。最后输入未知的X图像特征集来进行分类,输出分类结果。其过程图5-6所示。引入向量特设置SVM惩训练分类模分类结果AdaBoost征集罚因子型(良/恶性)算法未知的向量特征图5-6算法模块Fig.5-6Thealgorithmmodule5.3计算机辅助乳腺癌检测的评价指标目前,主要有两种体系指标用于评价计算机辅助诊断。应用较广泛的是用真阳性率/假阳性率来表示肿瘤检测准确与否。用二分类表示诊断结果,其中阴性代表正常反之阳性代表患病。该方式诊断结果会出现四种基于正确和错误的诊断。(如表5-1所示),分别是真阳(TruePositive,TP):被正确分类的恶性肿瘤的个数;假阳(FalsePositive,FP):被错误分类的良性肿瘤的个数;真阴(TrueNegative,TN):被正确分类的良性肿瘤的个数;假阴(FalseNegative,FN):被错误分类的恶性肿瘤的个数。其中,真阳性率越高,说明该算法的准确率越高。为防止片面最求真阳性率的提升,通常采用真阳性率与真阴性率的几何平均数来综合衡量检测算法的效果。-40- 表5-1混淆矩阵Table5-1Theconfusionmatrix预测类真实性预测阳性预测阴性真实阳性真阳性(TP)假阴性(FN)真实阴性假阳性(FP)真阴性(TN)真阳性率(TruePositiveRate):TPt=(5-1)ptTPFN+真阴性率(TrueNegativeRate):TNt=(5-2)ntTN+FP几何平均数:Gmeantt−=×(5-3)ptnt近年来,最新的研究表明使用ROC曲线(ReceiverOperatingCharacteristiccurve,简称ROC曲线)和AUC(AreaUnderrocCurve,AUC)评价计算机辅助乳腺检测与诊断结果具有明显的优势。因为ROC曲线和AUC的值不受数据类别是否失衡,数据形态是否正态分布的影响。即当测试数据中的正例和反例数目发生改变时,ROC曲线和AUC也不会随之改变。另外它允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法可以更加科学、直观、广泛地评价分类效果。ROC曲线是一个二维曲线,横坐标表示FPR(FalsePositiveRate),纵坐标表示TPR(TruePositiveRate)。在本文癌症检测应用中以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。测试数据越多,ROC曲线也越平滑。在ROC曲线中,如果曲线X始终位于曲线Y上方,则说明曲线X优于曲线Y,就意味着,对于所有可能的错误分类代价和类分布,X对应分类器的期望代价始终比Y的期望代价更低。虽然ROC曲线可以直观的表现出分类结果的好坏,但是在实际应用中还是希望使用一种用数值描述的方式来评价分类结果。如图2所示,如果两条ROC曲线X和Y相交我们只能直观的发现在FPR小于0.23时X优于Y,FPR大于0.23时Y优于X。如果仅使用ROC曲线来衡量,很难说明X-41- 和Y哪个分类效果更好,更无法说明两者之间的差距具体有多大。针对这个问题,我们可以通过计算ROC曲线下方的面积,即AUC的值来解决。更加直观、清晰的表示分类效果的好坏。图5-7两条相交的ROC曲线Fig.5-7TwoROCcurvesXandYAUC值一般在0.5到1.0之间,可以直观表明诊断检测方法的有效性。在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好。AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。1TPFP1NAUC==∫∫dTPdFP(5-4)00PNPN⋅5.4实验验证为了验证本文设计的模块都对早期乳腺癌诊断具有正向作用,在DDSM数据库上构建对比实验并进行分析。在数据集上验证基于遗传算法的粗糙集属性约简,采样方法和集成学习这三种方法在乳腺癌检测中的作用。5.4.1CBS预处理算法模块基于第二章提出的特征全集的情况下,验证使用基分类器SVM的前提下,采用本文提出的簇边界采样预处理技术的作用,在表5-2中显示了在传统指标下,采用两种技术前后对比结果。-42- 表5-2采样前后传统指标的对比结果Table.5-2ThecomparisonoftraditionalindexbeforeandafterSampling算法tpt%tnt%G-mean%采样前40.295.862.1SVM采样后78.788.683.5图5-8SVM采样前后的ROC曲线Fig5-8ROCcurvebeforeandafterCBSbasedonSVM表5-3两种不同情况的AUC值Table5-3AUCvalueofTwoSituationsDDSM数字特征数据集SVM(AUC值)采样前0.577采样后0.717通过以上实验结果我们可以看到,使用SVM作为基础分类算法的前提,采用本文提出基于密度聚类簇边界采样的方法对乳腺癌检测的能力具有显著的提升作用。虽然真阴性率有所下降,但真阳性率显著提高,几何平均数从62.1%上升到83.5%;AUC值也从0.577上升到0.717。精确度的提升是显而易见的。由此可以得出结论:基于密度聚类簇边界采样(CBS)方法可以有效平衡不同类型样本的数量、提炼数据的核心信息、消减噪声数据,从而使得分类效果得以显著提高。将CBS作为处理失衡数据集预处理阶段的算法是可靠的。-43- 5.4.2集成学习算法模块基于5.3.1密度聚类簇边界采样的基础上,本节引入集成学习算法来提升基分类器SVM。以验证集成学习算法对于乳腺癌检测的作用。在数据特征全集情况下,表5-4表现了在传统指标下对比SVM算法和AdaBoost-SVM算法的前后差异。图5-9中ROC曲线直观比较了引入集成学习方法所产生的变化趋势表5-4采样前后传统指标下的对比结果Table.5-4ThecomparisonoftraditionalindexbeforeandafterSampling算法tpt%tnt%G-mean%SVM78.788.683.5CBS采样后Adaboost-SVM84.392.188.1图5-9两种算法ROC曲线Fig.5-9ROCcurveoftwoalgorithm由ROC曲线直观显示了对于SVM不稳定的情况下引入AdaBoost算法可以更好的提高算法的准确率。通过多次迭代,使得难以分类的数据能够计算出合适的阈值,使得子分类器的泛化效果更好,鲁棒性更强。下面用AUC值量化的说明提升效果,如表5-5所示。-44- 表5-5两种算法的AUC值Table5-5AUCvalueoffourSituationsDDSM数字特征数据集SVMAdaboost_SVM采样后0.7170.83由上文可以看出,真阳率从78.7%提升到了84.3%,真阴率由88.6%提升到了92.1%,几何平均值由88.5%提升到了88.1%。从病理学的角度可以看出可见AdaBoost算法对弱分类器有加强的作用。从失衡数据集评价角度出发,AUC值从0.717提高到了0.83,意味分类的准确率提高了12个百分点。因此我们得出引入集成学习方法对乳腺癌早期诊断有全面的提升作用。5.4.3粗糙集数据约简方法模块本节继续验证粗糙集属性约简方法对乳腺癌检测的效果。在数据特征全集上进行特征选择,剔除对分类有反向作用的属性,最终得到的最佳特征约简子集如表5-6所示。并结合上文的方法在特征选择前后分别采用基于聚类簇边界采样Adaboost-SVM算法.具体ROC曲线实验结果如图5-10所示。表5-6最佳特征约简子集Table5-6Theoptimumfeaturereductionsubset{3个统计特征,2个几何特征,2个肿块X射线图像特征提取(23个)特征,7个图像不变特征,9个病理特征}{2个统计特征,2个几何特征,2个肿块最佳特征约简子集(15个)特征,4个图像不变特征,5个病理特征}图5-10采用粗糙集属性约简算法前后的ROC曲线Fig.5-10ROCcurvesofbeforeandafterfeaturereductionbasedonroughsetalgorithm-45- 表5-7特征约简下AdaBoost-SVM算法前后AUC值Table5-7AUCvaluebeforeandafterfeaturereductionbasedonAdaBoost-SVMalgorithmDDSM数字特征数据集Adaboost-SVM全集0.83#子集0.89通过上述实验我们可以看出,使用神经算法粗糙集进行特征约简后得到的#子集,再利用5.3.1和5.3.2的簇边界采样和AdaBoost-SVM算法进行分类。从图5-10和表5-7可以非常直观的看出,AUC值从0.83提升到0.89。由此我们可以得出结论:在属性特征较多的情况下,其中有一些特征对于分类是起到了消极作用,本文采用的基于遗传算法的粗糙集对于此类特征进行选择与优化在一定程度上提高了分类的整体效果。图5-11三种技术的AUC值Fig.5-11AUCvalueofthreetechniques综上所述,通过以上三部分实验可以证明,本文所提出的乳腺癌早期辅助检测方法可以对乳腺X摄片进行有效的甄别,其中所涉及的三种具体技术对于检测效果起到了稳步提升的作用(如图5-11所示)。这表明三种方法具有很好的互补性,达到了较好的融合效果。5.5本章小结本章对诊断业务流程和每一个模块进行详细介绍,并介绍结合失衡数据集的乳腺癌早期检测方法的评价指标。针对文中提出的技术进行分别验证,-46- 并且使用传统指标来验证本文提出的三种方法的有效性。-47- 结论本文针对乳腺癌早期分类诊断X摄片难以甄别的问题,提出了基于图像数据挖掘的检测方法,为早期乳腺癌检测提供了一套有效的解决方案。本方法主要贡献有三点:首先,采用基于遗传算法的粗糙集方法对X摄片图像进行预处理和特征选择优化,形成可供后续计算的多属性维向量化数据集,并进行属性约简。其次,创造性地提出了基于聚类簇边界采样的方法对数据集进行重采样,可以有效降低数据的失衡比、提炼数据的核心信息、消减噪声数据,从而使得分类效果得以显著提高。最后,采用基于Adaboost-SVM的分类方法对数据进行分类,将集成学习的思想引入到分类之中,采用分层组合和迭代权重可以增强分类器的稳定性从而提高分类能力。通过对比实验表明,本文所提出的方法与传统方法相比对于乳腺癌早期检测性能的提升非常明显,可以提高医生诊断的客观性,降低误检率,达到辅助医疗的最终效果。在今后的工作中,针对乳腺癌X摄片早期诊断的问题还应该在以下两个方面进行进一步探索。第一,乳腺癌检测是典型的失衡问题,失衡数据是自然科学领域的一个热点问题。在算法深度上进行研究,例如核函数的选取会影响到分类器的性能,如何来进行相应的选择、并且对于失衡数据建立一个更加有效分类模型都是难点问题。第二,基于同源、同分布乳腺X摄片的检测,本文提出的方法具体很高的准确率。然而,在真实诊断中,数据来源往往存在不同源,不同分布的现象,检测方法准确率会急剧下降。在今后工作中,我们引入迁移学习的方法来解决以上问题,使得基于乳腺X摄片的检测向真实工作进一步推进。-48- 参考文献[1]李鹏,王晓龙,刘远超.一种基于混合策略的失衡数据集分类方法[J].电子学报,2007,35(11):2161-2165.[2]MME,IF,B.BS.Astatisticalbasedfeatureextractionmethodforbreastcancerdiagnosisindigitalmammogramusingmultiresolutionrepresentation[J].Computersinbiologyandmedicine,2012,42(1):123–128.[3]KRAWCZYKB,SCHAEFERG.Ahybridclassifiercommitteeforanalysingasymmetryfeaturesinbreastthermograms[J].AppliedSoftComputing,2014,20(2):112-118.[4]SANTOSV,DATIAN,PATOMPM.Classificationperformanceofdataminingalgorithmsappliedtobreastcancerdata[J].ComputationalVisionandMedicalImageProcessingIV:VIPIMAGE,2013,24(3),300:307.[5]WILLIAMSAC,HITTA,VOISINS,etal.Automatedassessmentofbilateralbreastvolumeasymmetryasabreastcancerbiomarkerduringmammographicscreening[C].SPIEMedicalImaging.InternationalSocietyforOpticsandPhotonics,2013,18(5),124:130.[6]LiP,BiT,HUANGJ,ETAL.Breastcancerearlydiagnosisbasedonhybridstrategy[J].Bio-medicalmaterialsandengineering,2014,24(6),3397:3404.[7]WANGX,LIL,LIUW,etal.Aninteractivesystemforcomputer-aideddiagnosisofbreastmasses[J].Journalofdigitalimaging,2012,25(5):570-579.[8]DebowskiB,AreibiS,GréwalG,etal.Adynamicsamplingframeworkformulti-classimbalanceddata[C].MachineLearningandApplications(ICMLA),201211thInternationalConferenceon.IEEE,2012,2(5):113-118.[9]PENGL,ZHANGH,YANGB,etal.Anewapproachforimbalanceddataclassificationbasedondatagravitation[J].InformationSciences,2014,18(3)288:347-373.[10]BASELGAJ,CAMPONEM,PICARTM,etal.Everolimusinpostmenopausalhormone-receptor–positiveadvancedbreastcancer[J].NewEnglandJournalofMedicine,2012,366(6):520-529.-49- [11]KIMSJ,MOONWK,KIMSY,etal.Comparisonoftwosoftwareversionsofacommerciallyavailablecomputer-aideddetection(CAD)systemfordetectingbreastcancer[J].ActaRadiologica,2010,51(5):482-490.[12]WIEMKERR,ROGALLAP,BLAFFERTlT,etal.Aspectsofcomputer-aideddetection(CAD)andvolumetryofpulmonarynodulesusingmultisliceCT[J].2014,23(6):46-56.[13]NIKULINV.Classificationofimbalanceddatawithrandomsetsandmean-variancefiltering[J].StrategicAdvancementsinUtilizingDataMiningandWarehousingTechnologies:NewConceptsandDevelopments:NewConceptsandDevelopments,2009,18(3):331-338.[14]CHENGHD,SHANJ,JUW,etal.Automatedbreastcancerdetectionandclassificationusingultrasoundimages:Asurvey[J].PatternRecognition,2010,43(1):299-317.[15]PISANOED,GATSONISC,HENDRICKE,etal.Diagnosticperformanceofdigitalversusfilmmammographyforbreast-cancerscreening[J].NewEnglandJournalofMedicine,2005,353(17):1773-1783.[16]AL-SHAMLANH,El-ZAARTA.Featureextractionvaluesforbreastcancermammographyimages[C].BioinformaticsandBiomedicalTechnology(ICBBT),2010InternationalConferenceon.IEEE,2010,36(15):335-340.[17]POELLINGERA,BUROCKS,GROSENICKD,etal.Breastcancer:early-andlate-fluorescencenear-infraredimagingwithindocyaninegreen—apreliminarystudy[J].Radiology,2011,258(2):409-416.[18]ESSERMANLJ,THOMPSONIM,REIDB.Overdiagnosisandovertreatmentincancer:anopportunityforimprovement[J].Jama,2013,310(8):797-798.[19]SIVAMANIS,BAENJ,SHINCS,etal.AnOWL-BasedOntologyModelforIntelligentServiceinVerticalFarm[M].AdvancesinComputerScienceanditsApplications.SpringerBerlinHeidelberg,2014,29(7):327-332.[20]MURAKAMIR,KUMITAS,TANIH,etal.Detectionofbreastcancerwithacomputer-aideddetectionappliedtofull-fielddigitalmammography[J].Journalofdigitalimaging,2013,26(4):768-773.[21]LiJB,WANGYH,TANGLL.Mammogram-baseddiscriminantfusion-50- analysisforbreastcancerdiagnosis[J].Clinicalimaging,2012,36(6):710-716.[22]CHENHL,YANGB,LIUJ,etal.Asupportvectormachineclassifierwithroughset-basedfeatureselectionforbreastcancerdiagnosis[J].ExpertSystemswithApplications,2011,38(7):9014-9022.[23]SHENY,LIMD,XIASR.Learningalgorithmwithnon-balanceddataforcomputer-aideddiagnosisofbreastcancer[J].JournalofZhejiangUniversity.EngineeringScience,2013,47(1):1-7.[24]GAOS,LIH.Breastcancerdiagnosisbasedonsupportvectormachine[C].UncertaintyReasoningandKnowledgeEngineering(URKE),20122ndInternationalConferenceon.IEEE,2012,16(5):240-243.[25]WUJ,GANM,JIANGR.Ageneticalgorithmforoptimizingsubnetworkmarkersforthestudyofbreastcancermetastasis[C].NaturalComputation(ICNC),2011SeventhInternationalConferenceon.IEEE,2011,3(14):1578-1582.[26]WENGS,ZHANGC,ZhangX.Nonlineardimensionalityreductionintheanalysisofhighdimensionalmedicaldata[J].JOURNAL-TSINGHUAUNIVERSITY,2004,44(4):485-488.[27]CAOY,HAOX,ZHUXE,etal.Mammographicmasssegmentationalgorithmbasedonautomaticrandomwalks[J].JournalofZhejiangUniversity.EngineeringScience,2011,45(10):1753-1760.[28]GETTELMANA,SOBELAH.Directdiagnosesofstratosphere-troposphereexchange[J].Journaloftheatmosphericsciences,2000,57(1):3-16.[29]LIUQC,WANGHPB.Acasestudyonmultisensordatafusionforimbalancediagnosisofrotatingmachinery[J].AIEDAM,2001,15(03):203-210.[30]SHINOZAKIM,FUNATIGAWAO,KOBAYASHIM.Studyofstatorstructuremodelingforrotordynamicanalysis[C].ASMETurboExpo2001:PowerforLand,Sea,andAir.AmericanSocietyofMechanicalEngineers,2001,31(5),364-370.[31]ROLIF,FUMERAG,KITTLERJ.Fixedandtrainedcombinersforfusionofimbalancedpatternclassifiers[C].InformationFusion,2002.Proceedings-51- oftheFifthInternationalConferenceon.IEEE,2002,1(5):278-284.[32]PANAITL,LUKES.Cooperativemulti-agentlearning:Thestateoftheart[J].AutonomousAgentsandMulti-AgentSystems,2005,11(3):387-434.[33]PELAYOL,DICKS.Applyingnovelresamplingstrategiestosoftwaredefectprediction[C].FuzzyInformationProcessingSociety,2007.NAFIPS'07.AnnualMeetingoftheNorthAmerican.IEEE,2007,16(5):69-72.[34]CHAWLANV,JAPKOWICZN,KOTCZA.Editorial:specialissueonlearningfromimbalanceddatasets[J].ACMSigkddExplorationsNewsletter,2004,6(1):1-6.[35]IMAMT,TINGKM,KAMRUZZAMANJ.z-SVM:AnSVMforimprovedclassificationofimbalanceddata[M].AI2006:AdvancesinArtificialIntelligence.SpringerBerlinHeidelberg,2006,6(3):264-273.[36]SEIFFERTC,KHOSHGOFAARTM,VANHULSEJ,etal.Miningdatawithrareevents:acasestudy[C].ToolswithArtificialIntelligence,2007.ICTAI2007.19thIEEEInternationalConferenceon.IEEE,2007,2(7):132-139.[37]GAOK,KHOSHGOFTAARTM,VanHulseJ.AnEvaluationofSamplingonFilter-BasedFeatureSelectionMethods[C].FLAIRSConference.2010,7(5):678-683[38]KHOSHGOFTAARTM,GAOK.Anovelsoftwaremetricselectiontechniqueusingtheareaunderroccurves[C].Proceedingsofthe22ndinternationalconferenceonsoftwareengineeringandknowledgeengineering.2010,22(6):203-208.[39]MARUTHILRM,TKACHEVI,CARTAA,etal.TowardsReal-TimeControlofGeneExpressionattheSingleCellLevel:AStochasticControlApproach[C].ComputationalMethodsinSystemsBiology.SpringerInternationalPublishing,2014,2(6):155-172.[40]翟云,王树鹏,马楠,等.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319.[41]刁力力,胡可云.用Boosting方法组合增强Stumps进行文本分类[J].软件学报,2002,13(8):1361-1367.[42]LIXF,LIJ,DONGYF,etal.Anewlearningalgorithmforimbalanced-52- data-PCBoost[J].JisuanjiXuebao(ChineseJournalofComputers),2012,35(2):202-209.[43]郝秀兰,陶晓鹏,徐和祥,等.kNN文本分类器类偏斜问题的一种处理对策[J].计算机研究与发展,2009,46(1):52-61.[44]谢纪刚,裘正定.非平衡数据集Fisher线性判别模型[J].北京交通大学学报:自然科学版,2006,30(5):15-18.[45]董元方,李雄飞,李军.一种不平衡数据渐进学习算法[J].ComputerEngineering,2010,36(24):67-72.[46]ZONGW,HUANGGB,CHENY.Weightedextremelearningmachineforimbalancelearning[J].Neurocomputing,2013,60(5):229-242.[47]HUANGGB,ZHUQY,SIEWCK.Extremelearningmachine:theoryandapplications[J].Neurocomputing,2006,70(1):489-501.[48]赵浣萍,徐伟栋,厉力华,等.一种基于改进型Multi-Agent多分类器融合的乳腺钼靶肿块分类算法[J].仪器仪表学报,2011,32(9):2034-2040.[49]Pérez-MonjarasA,Cervantes-RoldánR,Meneses-MoralesI,etal.Impairedbiotinidaseactivitydisruptsholocarboxylasesynthetaseexpressioninlateonsetmultiplecarboxylasedeficiency[J].JournalofBiologicalChemistry,2008,283(49):34150-34158.[50]RODRIGUESPS,GIRALDIGA,CHANGRF,etal.Non-extensiveentropyforcadsystemsofbreastcancerimages[C].ComputerGraphicsandImageProcessing,2006.SIBGRAPI'06.19thBrazilianSymposiumon.IEEE,2006,36(7):121-128.[51]BOJESENSE,POOLEYKA,JOHNATTYSE,etal.MultipleindependentvariantsattheTERTlocusareassociatedwithtelomerelengthandrisksofbreastandovariancancer[J].Naturegenetics,2013,45(4):371-384.[52]BURTONC,SHIH,MAY.SimultaneousDetectionofSixUrinaryPteridinesandCreatininebyHigh-PerformanceLiquidChromatography-TandemMassSpectrometryforClinicalBreastCancerDetection[J].Analyticalchemistry,2013,85(22):11137-11145.[53]PARSHALLKH,ROWEDE.Towardahistoryofnineteenth-centuryinvarianttheory[J].Thehistoryofmodernmathematics,2014,1(7):157-208.[54]SAMETIM,WARDRK,MORGAN-PARKSJ,etal.ImageFeatureExtractionintheLastScreeningMammogramsPriortoDetectionofBreast-53- Cancer[J].SelectedTopicsinSignalProcessing,IEEEJournalof,2009,3(1):46-52.[55]BINGZS,FUJY.Algorithmonruleextractionbasedonroughsetandneuralnetworktheory[C].StrategicTechnology(IFOST),20116thInternationalForumon.IEEE,2011,2(6):1137-1140.[56]YAOY,ZHAOY.Attributereductionindecision-theoreticroughsetmodels[J].Informationsciences,2008,178(17):3356-3373.[57]LIUTY.Easyensembleandfeatureselectionforimbalancedatasets[C].Bioinformatics,SystemsBiologyandIntelligentComputing,2009.IJCBS'09.InternationalJointConferenceon.IEEE,2009,37(7):517-520.[58]曾志强,吴群,廖备水,等.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495.[59]MACIEJEWSKIT,STEFANOWSKIJ.LocalneighbourhoodextensionofSMOTEforminingimbalanceddata[C].ComputationalIntelligenceandDataMining(CIDM),2011IEEESymposiumon.IEEE,2011,36(6):104-111.[60]PengL,Ting-tingB,Xiao-yangY,etal.ImbalancedDataClassificationBasedonAdaBoost-SVM[J].InternationalJournalofDatabaseTheory&Application,2014,7(5):412-418.[61]HINNEBURGA,GABRIELHH.Denclue2.0:Fastclusteringbasedonkerneldensityestimation[M].AdvancesinIntelligentDataAnalysisVII.SpringerBerlinHeidelberg,2007,36(47):70-80.[62]PANGS,KIMD,BANGSY.MembershipauthenticationinthedynamicgroupbyfaceclassificationusingSVMensemble[J].PatternRecognitionLetters,2003,24(1):215-225.[63]LANDJRWH,MCKEEDW,AndersonFR,etal.Breastcancerclassificationimprovementsusinganewkernelfunctionwithevolutionary-programming-configuredsupportvectormachines[C].MedicalImaging2004.InternationalSocietyforOpticsandPhotonics,2004,6(1):880-887.[64]JAGANATHANP,RAJKUMARN,NAGALAKSHMIR.AKernelBasedFeatureSelectionMethodUsedintheDiagnosisofWisconsinBreastCancerDataset[M].AdvancesinComputingandCommunications.SpringerBerlinHeidelberg,2011,36(6):683-690.-54- [65]CHENGWC,JHANDM.Aself-constructingcascadeclassifierwithAdaBoostandSVMforpedestriandetection[J].EngineeringApplicationsofArtificialIntelligence,2013,26(3):1016-1028.-55- 攻读硕士学位期间发表的学术论文[1]LiP,BiT,HuangJ,etal.Breastcancerearlydiagnosisbasedonhybridstrategy[J].Bio-medicalmaterialsandengineering,2014,24(6):3397-3404.(SCI/EI双检索)[2]李鹏,毕婷婷,于晓洋,等.基于失衡数据挖掘的乳腺癌早期辅助检测方法[J].仪器仪表学报,2014,35(9):2045-2052.(A类)[3]PengL,Ting-tingB,Xiao-yangY,etal.ImbalancedDataClassificationBasedonAdaBoost-SVM[J].InternationalJournalofDatabaseTheory&Application,2014,7(5).(EI期刊)[4]LiPeng,BiTingting,YuXiaoyang,LiuJiuling.SVMclassificationforhigh-dimensionalimbalanceddatabasedonSNRandUnder-sampling[J]InternationalJournalofAdvancementsinComputingTechnology.(EI期刊)[5]PengL,Xiao-yangY,Ting-tingB,etal.ImbalancedDataSVMClassificationMethodBasedonClusterBoundarySamplingandDT-KNNPruning[J].InternationalJournalofSignalProcessing,ImageProcessingandPatternRecognition,2014,7(2):61-68.(EI期刊)[6]LiPeng,LiSiben,BiTingting,ZhangKaihui.TelecomCustomerChurnPredictionMethodBasedonClusterStratifiedSamplingLogisticRegression[C].InternationalConferenceonFrontiersofInternetofThings(EI待检索)[7]LiPeng,HuangJiuling,BiTingting.ImbalanceDataClassificationMethodBasedonClusterBoundarySamplingRF-Bagging[C].InternationalConferenceonFrontiersofInternetofThings.(EI待检索)-56- 致谢两年半的研究生生活即将结束,自从我19岁来到哈尔滨理工大学,到今天已经有了将近7年的时间。在马上毕业之际我想感谢的是理工大学对我培养,使我彻头彻尾的成长,在这里我学习了科学知识,学会了做人的道理。我要感谢我研究生的导师李鹏教授对我论文细心指导。不仅如此在研究生期间是李老师对我的学术上的指导和生活上的关心才使得我取得了今天的成绩。这两年半里,在李老师身上学到的更多的是做人做事的准则,使得我眼界更宽眼光更远。我还要感谢D806师兄、同窗以及全体师弟师妹们,是你们让我感受到了家的温暖。感谢寝室的好姐妹们,在这俩年中我们朝夕相处,是你们让我学生时代多姿多彩不再寂寞。感谢我所有的好朋友,这么多年一直在我身边,一同经历酸甜苦辣。感谢计算学院的辅导员段云菲老师,戴湘竹老师。感谢金恩海老师,唐远新老师,孙广路老师。以及计算机学院的所有老师们。你们是我学术的启蒙者,是我一生的榜样。我尤其要感谢我的父母从小到大无微不至的关怀照顾,正是有你们这样坚强的后盾,正是你们义无反顾的支持我的梦想,我才能在跌倒的时候也能积极对待。我还要感谢我男朋友,感谢命运的安排让你出现在我最好的年华里,成为与我走完一生的人。是你一直的陪伴,在我伤心难过的时候对我不厌其烦的安慰开导。感谢我们在一起的那些日子,感谢你每一次给我带来的感动和温暖,使我成为有依靠有牵挂的人。毕业之际要感谢的人太多太多,我割舍不下在理工的这段岁月。一转眼我即将离开理工大学,离开哈尔滨,我难掩这份悲伤。终点也是起点,我会带着这些牵挂投入到另一段工作学习中去。衷心感谢那些帮助过我的所有人!-57-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭