logistic模型对非平衡数据的敏感性测度、修正与比较

logistic模型对非平衡数据的敏感性测度、修正与比较

ID:35137745

大小:6.35 MB

页数:71页

时间:2019-03-20

logistic模型对非平衡数据的敏感性测度、修正与比较_第1页
logistic模型对非平衡数据的敏感性测度、修正与比较_第2页
logistic模型对非平衡数据的敏感性测度、修正与比较_第3页
logistic模型对非平衡数据的敏感性测度、修正与比较_第4页
logistic模型对非平衡数据的敏感性测度、修正与比较_第5页
资源描述:

《logistic模型对非平衡数据的敏感性测度、修正与比较》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校编码:10173分类号密级___学号:2014100470UDC__?杂化资/、夸硕±学位论文Loistic模型对非平衡数据的敏感性;g测度、修正与比较TheSensi村vitofLois村CReressio凸toUnbalancedData:yggMeasurement,CorrectionandComparison指导教师姓名:魏珪瑞—级学科名琼:统计学二级学科名祿:统计学论文答辨时间:2016年11月摘要一近年来,非平衡数据分类问题已成为机器学习和数据挖掘领域的个研究热点一类或某些

2、类的样木量与其他类相差悬。非平衡数据集是指数据集中某殊,其中样本量较少的称为稀有类,而样本量较多的称为多数类。由于数据集的非平衡性,,使得传统分类算法对稀有类的识别能力大大减弱。在实际问题中遗漏或错分稀有类往往会造成严重的损失,因此,人们更加关注稀有类的分类准确率,,这。针对上述问题解决非平衡数据分类问题的新方法应运而生些方一i法主要可■分为两种,种是基于算法层面的改进方法,即在传统分类算法的ti基础上进行相应地改进,使改进后的新算法在分类过程中不但关注整体的分类效果,而且更加注重稀有类的分类效果,进而提高稀有类的分类准确率,如代价敏感学习一、集成学习、单类

3、学习、特征选择和训练集划分等;另种是基于数据层面的改进方法,即采用不同的抽样方法对原有的非平衡数据集进行预处理,使处理后的数据集中稀有类与多数类的分布基本平衡,如简单随机抽样、单边选择、SMOTE等。在非平衡数据分类问题的研究中,评价指标的选取也一是至关重要的,评价指标不能单独考虑某类的分类准确率,而要综合考虑稀有类与多数类的分类效果,如AUC值、G统计量、F统计量、民0C曲线等。其中,最直观的方式是采用民OC曲线,民0C曲线完整地显示了分类器在不同参数或阔值条件下对稀有类与多数类分类错误的所有可能的组合。随着机器学习和数据挖掘的不断发展与完善,用于分类的模

4、型算法越来越多,分类技术也日趋成熟,如判别分析、Logistic模型、KNN算法、决策树、支持向量机等,,也取。在实际问题中这些分类算法都得到了广泛的应用得了不错的分类效果。本文选取解释性较强、稳健性较高的Logistic模型作为研究l对象,^UCI数据库为研究样本,并对数据样本施W平衡化的五折交叉验证技术,分析Logistic模型对不同程度非平衡数据的敏感性。研究表明:(1)Loistic模型在分类预测中会受到非平衡数据的影响g,且数据非平衡iti程度越高,logsc模型对稀有类的识别能力越差。(2)相对于民0S、RUS和SMCXTE等其他修正方法,OS

5、S方法的改进效民0SRUS这果不明显且不稳定,和类简单随机抽样方法的;相对于复杂抽样修正效果更优。I+(3)在模型评估方面,构造平衡化的五折交叉验证,发现相对于Acc和G统计量,,AUC值不适宜于非平衡数据条件下的模型选择因为在非平衡数据条件下,它既不能有效地区分四种修正方法之优劣,而且修正前后的差异亦不能辩。关键词:Logistic模型,非平衡数据,ROC曲线,AUC值,平衡化五折交叉验证IIABSTRACTInrecentearsclass行cationforunbalanceddatasetshasbecomeahot

6、toiciny,ipthefieldofmachi打eleami打ganddatami打i打.Theunbalanceddatasetsrefertothat呂thesamplesofoneclassarelessthantheoth巧o打eorothers.AndtheclassCO打tai打i打go打lyafewsamplesisc过liedr过recalss,\vhiletheothero打eCO打tai打ingmoresamesscalledmaotcassThetradi

7、tionamachneleami打aorithmsplijriyl.liglgperformbadlyontherareclassduetotheimbalanceintheclassdistribution.虹realitythecostofmissinormisclassifintherareclassisusuallmuchhiher,gygyg

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。