基于Ⅳ属性选择的随机森林模型研究

基于Ⅳ属性选择的随机森林模型研究

ID:36847434

大小:3.01 MB

页数:52页

时间:2019-05-16

基于Ⅳ属性选择的随机森林模型研究_第1页
基于Ⅳ属性选择的随机森林模型研究_第2页
基于Ⅳ属性选择的随机森林模型研究_第3页
基于Ⅳ属性选择的随机森林模型研究_第4页
基于Ⅳ属性选择的随机森林模型研究_第5页
资源描述:

《基于Ⅳ属性选择的随机森林模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于IV属性选择的随机森林模型研究摘要随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战,尤其是处理数据流等问题时,模型的实时性无法保障,使得更注重训练数据质量的分类模型训练周期变长,精度下降。因此,如何有效的减小数据规模,提高数据质量对提高分类模型的性能有着重要意义。本文针对属性选择及分类问题开展了以下工作的研究:(1)针对数据挖掘所面临的挑战,分析了有效缩减数据规模是重要的可行方法,并在此基础上概述了各类经典属性

2、选择方法,探讨了它们的特点与不足。(2)针对已有属性选择方法在处理高维、海量数据时,时空性能与效果上的不足,分析了将WoE与IV指标引入属性选择的可行性及存在的问题,在解决这些问题的基础上提出了基于IV指标的属性选择方法FS.IV,实验表明该算法是有效的,与经典属性选择方法相比时空性能有明显优势,并具有一定的抗噪性。(3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题,分析了解决手段,将FS.IV方法与随机森林模型结合,提出了基于IV指标的随机森林模型,实验表明该模型与C4.5,朴素贝叶斯及经过FS.IV约简的C4.5与朴素贝叶斯模型相比,在不损

3、失精度的情况下,时间性能大幅提升。(4)根据高维、海量、流数据等实际问题,对FS.IV及IV.RF模型做了适应性改进,实验表明它们对高维、海量数据有着很好的处理效果。关键词:属性选择,IV指标,随机森林,数据挖掘TheResearchOilRandomForestBasedonIVFeatureSelectionAbstractWiththerapiddevelopmentofinformationtechnology,anexplosiveamountofdataisbroughtoutinthefieldslikebanking,financialservices,e-co

4、mmerce,bioinformaticsandnetworksecurity.Thesepracticaldatathatminingtasksfaceareoftenofhigh—dimension,redundantfeatures,aswellasnoises,whichmayleadtolowerprecisionandcostmoretime,especiallyinclassificationmodeling,sincehighqualitydataarepreferred.Thus,itwillbehelpfultousethosepredictivefeatu

5、resforimprovingtheperformancesInthisthesis,researchesarecarriedoutonfeatureselectionandclassificationasbelow:(1)Accordingtothechallengesthatdataminingfaces,apossiblewayistoreducehugedatasizeeffectivelysuchasfeatureselection.Wesummarizemostclassicalmethodsoffeatureselection,andpointouttheirch

6、aracteristicsaswellasweakpointsbasedontheanalysis.(2)Duetothedefectsoftraditionalmodelsthatwementioned,thefeasibilityandthedifficultyofusingWoEandIVasafeatureselectionmethodsareanalyzed.Undertheanalysis,afeatureselectionmodelFS-IVisproposedbasedontheIVindex.Experimentsshowthatthemodelperform

7、swithashortenedtimeandhassomenoiseimmunity.(3)Fortheproblemsthatfeatureselectionbrings,suchasthenotablecutondataandthegatheringofsuperiorfeatures,asuitableclassificationmodelIVoRFisproposed.ExperimentsshowthatthemodelhasasatisfiedtimecostWithlittle

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。