数据清洗与数据预处理

数据清洗与数据预处理

ID:15296490

大小:1.68 MB

页数:65页

时间:2018-08-02

数据清洗与数据预处理_第1页
数据清洗与数据预处理_第2页
数据清洗与数据预处理_第3页
数据清洗与数据预处理_第4页
数据清洗与数据预处理_第5页
资源描述:

《数据清洗与数据预处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据清洗和数据预处理扫地机http://www.chinachijie.com/wenku1教学目标认识数据挖掘前数据进行适当处理的必要性掌握常用数据预处理的方法。教学要求知识要点能力要求相关知识点数据预处理的原因(1)了解原始数据存在的主要问题(2)明白数据预处理的作用和工作任务(1)数据的一致性问题(2)数据的噪声问题(3)原始数据的不完整和高维度问题数据预处理的方法(1)掌握数据清洗的主要任务与常用方法(2)掌握数据集成的主要内容和常用方法(3)掌握数据变换的主要内容和常用方法(4)掌握数据归约的主要

2、内容和常用方法(1)数据清洗(2)数据集成(3)数据变换(4)数据归约为什么要预处理数据?现实世界的数据是“肮脏的”不完整的含噪声的不一致的没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成原始数据中存在的问题1.不一致——数据内涵出现不一致情况2.重复3.不完整——感兴趣的属性没有值4.含噪声——数据中存在着错误、或异常(偏离期望值)的数据5.高维度数据预处理的方法1.数据清洗去掉噪声和无关数据2.数据集成将多个数据源中的数据结合起来存放在一个

3、一致的数据存储中3.数据变换把原始数据转换成为适合数据挖掘的形式4.数据归约主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等数据清洗数据选取参考原则:1.尽可能赋予属性名和属性值明确的含义2.统一多数据源的属性值编码3.去除惟一属性4.去除重复属性5.去除可忽略字段6.合理选择关联字段进一步处理:通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据数据清洗——处理空缺值数据并不总是完整的在分析一个商场销售数据时,发

4、现有多个记录中的属性值为空,如:顾客的收入属性对于为空的属性值引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载数据清洗——处理空缺值空缺值要经过推断而补上1.忽略该记录2.去掉属性3.手工填写空缺值4.使用默认值5.使用属性平均值6.使用同类样本平均值7.预测最可能的值数据清洗——噪声数据的处理噪声:在测量一个变量时可能出现的测量值相对于真实值的偏差或者错误。噪声数据的处理——分箱分箱:把待处理的数据按照一

5、定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。箱子:按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间代表的“箱子”里。分箱技术需要确定的主要问题:分箱方法,即如何分箱数据平滑方法,即如何对每个箱子中的数据进行平滑处理噪声数据的处理——分箱分箱的方法:分箱前对记录集按目标属性值的大小进行排序。等深分箱法等宽分箱法用户自定义区间最小熵例:客户收入属性income排序后的值(人民币元):800100012001500150018

6、002000230025002800300035004000450048005000噪声数据的处理——分箱等深分箱法(统一权重)按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱的权重,也称箱子的深度。设定权重(箱子深度)为4,上述例子分箱后的结果如下。箱1:800100012001500箱2:1500180020002300箱3:2500280030003500箱4:4000450048005000噪声数据的处理——分箱等宽分箱法(统一区间)在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,

7、称为箱子宽度。设定区间范围(箱子宽度)为1000元人民币,分箱后箱1:80010001200150015001800箱2:20002300250028003000箱3:350040004500箱4:48005000噪声数据的处理——分箱最小熵使在各区间分组内的记录具有最小的熵。信息是信号、符号或消息所表示的内容,用以消除对客观事物认识的不确定性信息量的直观定义:信息量的大小取决于信息内容消除人们认识的“不确定程度”,所消除的不确定程度越大,则所包含的信息量就越大。熵——信息的度量(利用概率来度量)A到100

8、0人的学校去找B。传达室人告诉他,“B是信息管理系”,而管理系有100人。他获得的信息是100/1000=0.1,也就是将可能性空间缩小到原来的1/10.用概率来表示:-log(1/10)=log10又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息的确定性又缩小到原来的100/1000*10/100=10/1000,其信息量为-log100/1000+(-log10/1000)=-log10/1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。