数据预处理概述ppt课件.ppt

数据预处理概述ppt课件.ppt

ID:58588182

大小:1.76 MB

页数:114页

时间:2020-10-20

数据预处理概述ppt课件.ppt_第1页
数据预处理概述ppt课件.ppt_第2页
数据预处理概述ppt课件.ppt_第3页
数据预处理概述ppt课件.ppt_第4页
数据预处理概述ppt课件.ppt_第5页
资源描述:

《数据预处理概述ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、4.数据预处理2021/8/122021/8/121为什么要进行数据挖掘?现实世界的数据是脏的不完整:缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据e.g.,occupation=“”有噪声:包含错误的数据或异常值e.g.,Salary=“-10”不一致:在代码或者名字中存在矛盾或不一致e.g.,Age=“42”Birthday=“03/07/1997”e.g.,Wasrating“1,2,3”,nowrating“A,B,C”e.g.,discrepancybetweenduplicaterecor

2、ds2021/8/122为什么数据预处理重要?Noqualitydata,noqualityminingresults!Qualitydecisionsmustbebasedonqualitydatae.g.,duplicateormissingdatamaycauseincorrectorevenmisleadingstatistics.DatawarehouseneedsconsistentintegrationofqualitydataDataextraction,cleaning,andtrans

3、formationcomprisesthemajorityoftheworkofbuildingadatawarehouse2021/8/123数据预处理的主要内容:2021/8/124数据预处理的主要内容一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约2021/8/122021/8/125数据样本是数据挖掘过程的基本组成部分。一、原始数据的表述每个样本都用几个特征来描述,每个特征有不同类型的值。2021/8/1262021/8/12常见的数据类型有:数值型和分类型。数值型包括实型变

4、量和整型变量注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。2021/8/1272021/8/12一个有两个值的分类型变量:分类型变量的两个值可以平等或不平等。原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。2021/8/1282021/8/12例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。特征值编码黑色1000蓝色0100绿色0010褐色00012021/8/129

5、2021/8/12变量的分类:连续型变量和离散型变量。连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。注:一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。2021/8/12102021/8/12与时间有关的数据分类:静态数据——数据不随时间变化而变化动态数据(时间数据)——随时间变化而变化的属性。注:大多数数据挖掘方法更适用于静态数据,在对动态数据进行挖掘时要有特殊的考虑和预处理。2021/8/1

6、211二、数据清理——缺失值的填补2021/8/12对数据挖掘的实际应用而言,即使数据量很大,具有完整数据的案例也非常少,这样就面临数据的缺失问题。应用数据挖掘方法之前如何处理这样现象,最简单的办法是减少数据集,去掉所有有缺失值的样本。如果我们不想扔掉这些有缺失值的样本,就必须找到它们的缺失值,用什么方法来实现呢?填补缺失值。2021/8/12121、单一填补法(1)均值填补法。均值填补法是根据与含缺失值的目标属性相关性高的其它属性的信息将样品分为若干组,然后分别计算各组目标属性的均值,将各组均值作为组内

7、所有缺失项的填补值。均值填补的优点是操作简便,并且可以有效地降低其点估计的偏差。但它的缺点也比较突出:首先,由于同组中的缺失值由同一个值填补,填补结果歪曲了目标属性的分布;其次,也导致在均值和总量估计中对方差的低估。2021/8/122021/8/1213例:2021/8/1214均值填补:2021/8/1215(2)随机填补法。随机填补法是采用某种概率抽样的方式,从有完整信息的元组中抽取缺失数据的填补值的方法。它虽然能够避免均值填补中填补值过于凝集以及容易扭曲目标属性分布的弱点,使得填补值的分布与真值分

8、布更为接近。但它却增大了估计量的方差,并且稳定性不够。2021/8/122021/8/1216(3)热卡填补法。热卡填补法(hotdeckimputation)是规定一个或多个排序属性,按其观察值大小对全部观察单位排序,如果选择的是两个以上的属性,排序按属性的入选顺序依次进行。排序属性值完全相同的观察单位称为匹配,缺失值就用与之匹配的观察单位的属性值来填补。如果有多例相匹配,可取第一例或随机取其一。如果没有相匹配的,可以每次减

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。