数据预处理与清理数据ppt课件.ppt

数据预处理与清理数据ppt课件.ppt

ID:59265436

大小:305.00 KB

页数:35页

时间:2020-09-22

数据预处理与清理数据ppt课件.ppt_第1页
数据预处理与清理数据ppt课件.ppt_第2页
数据预处理与清理数据ppt课件.ppt_第3页
数据预处理与清理数据ppt课件.ppt_第4页
数据预处理与清理数据ppt课件.ppt_第5页
资源描述:

《数据预处理与清理数据ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.3数据预处理与清理数据第一章数据挖掘概述11为什么需要数据预处理?2数据清洗3数据集成与转换4数据归约5数据离散化21为什么需要数据预处理?在现实社会中,存在着大量的“脏”数据不完整性(数据结构的设计人员、数据采集设备和数据录入人员)缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据,没有详细数据噪音数据(采集数据的设备、数据录入人员、数据传输)数据中包含错误的信息存在着部分偏离期望值的孤立点不一致性(数据结构的设计人员、数据录入人员)数据结构的不一致性Label的不一致性数据值的不一致性3数据挖掘的数据源可能是多个互相独立的数据源关系

2、数据库多维数据库(DataCube)文件、文档数据库数据转换为了数据挖掘的方便海量数据的处理数据归约(在获得相同或者相似结果的前提下)4没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须基于高质量的数据基础上数据仓库是在高质量数据上的集成5数据预处理的主要任务数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、DataCube和文件系统的集成数据转换规范化、聚集等数据归约在可能获得相同或相似结果的前提下,对数据容量进行有效的缩减数据离散化对于一个特定连续属性,尤其是连续数字属性,可以把属性值划分成若干区间,以区间值

3、来代替实际数据值,以减少属性值的个数.6数据预处理的形式数据清理数据集成数据转换数据归约7使用属性的平均值填充空缺数值简单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本的平均值分类非常重要,尤其是分类指标的选择使用最有可能的值予以填充利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定利用属性之间的关系进行推断,保持了属性之间的联系缺失数据的处理方法8噪音数据噪音数据:一个度量(指标)变量中的随机错误或者偏差主要原因数据采集设备的错误数据录入问题数据传输问题部分技术的限制数据转换中的不一致数据清理中所需要处理的其

4、它问题重复的记录不完整的数据不一致的数据9噪音数据的处理分箱(Binning)的方法聚类方法检测并消除异常点线性回归对不符合回归的数据进行平滑处理人机结合共同检测由计算机检测可疑的点,然后由用户确认10分箱方法基本思想:通过考察相邻数据的值,来平滑存储数据的值基本步骤首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中。其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理。2021/8/511分箱(Binning)方法举例对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34

5、对数据进行分割(相同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根据bin中的平均值进行离散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,2912基于聚类分析的平滑处理13通过线性回归的平滑处理xyy=x+1X1Y1Y1’14数据集成数据集成的概念将多个数据源中的数据结合起来存放在一个一致的数据存储中数据源包括:多个数据库、多维数据库和一般的文件数据集成也是数据仓库建设中的一个重要问题数据集成的内容模式集成利用数据库和数据仓库的元数据信息主要

6、工作是识别现实世界中的实体定义冗余数据的处理检测和解决数值冲突对于现实世界中的同一实体,来自于不同数据源的属性值可能不同主要原因:不同的数据表示、度量单位、编码方式以及语义的不同15模式集成数据类型冲突性别:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String数据标签冲突:解决同名异义、异名同义学生成绩、分数度量单位冲突学生成绩百分制:100~0五分制:A、B、C、D、E字符表示:优、良、及格、不及格概念不清最近交易额:前一个小时、昨天、本周、本月?聚集冲突:根源在于表

7、结构的设计16冗余数据的处理从多个数据源中抽取不同的数据,容易导致数据的冗余不同的属性在不同的数据源中是不同的命名方式有些属性可以从其它属性中导出,例如:销售额=单价×销售量有些冗余可以通过相关分析检测到其中:n是元组的个数,和分别是A和B的平均值,和分别是A和B的标准差元组级的“重复”,也是数据冗余的一个重要方面减少冗余数据,可以大大提高数据挖掘的性能17数据转换平滑处理:从数据中消除噪音数据聚集操作:对数据进行综合,类似于DataCube的构建数据概化:构建概念层次数据规范化:将数据集中到一个较小的范围之中最大-最小规范化z-score(零-均

8、值)规范化小数范围规范化(0–1规范化)属性构造构造新的属性并添加到属性集中,以帮助数据挖掘18最大-最小规范化对原始数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。