数据挖掘中数据质量分析方法简介

数据挖掘中数据质量分析方法简介

ID:39578206

大小:778.00 KB

页数:10页

时间:2019-07-06

数据挖掘中数据质量分析方法简介_第1页
数据挖掘中数据质量分析方法简介_第2页
数据挖掘中数据质量分析方法简介_第3页
数据挖掘中数据质量分析方法简介_第4页
数据挖掘中数据质量分析方法简介_第5页
资源描述:

《数据挖掘中数据质量分析方法简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘中数据质量分析方法简介邮政电信行业部徐俊军产品研发中心贺建珲北京华胜天成科技股份有限公司2008年6月众所周知,在BI项目中数据质量问题十分重要。这里我们将向大家介绍数据挖掘中使用的一些数据质量分析方法。在向大家介绍数据挖掘相关技术的同时,也希望这些简便易行的方法能够对大家在BI项目实施中有所助益。1概述数据质量分析是数据挖掘中数据准备过程的重要一环,是数据探索的前提。我们常说,“Garbagein,Garbageout”。数据质量的重要性无论如何强调都是不过分的。没有可信的数据,数据挖掘构建的模型将是空

2、中楼阁。1.1数据质量检查的目的数据挖掘的数据质量分析是以数据的提供信息的正确性和有效性为目标,而在通常的BI项目中主要关注正确性。保证数据的正确性自然是数据质量分析的目的。但数据挖掘中数据质量重点关注的是对建模效果影响大小,对质量的评估也是以对后续挖掘建模影响为原则。如在电信客户流失分析时,我们发现有国际漫游通话的客户比例极小,例如只有不到0.01%的客户有此行为。这时,即便国际漫游通话时长的统计正确性毫无问题,我们也认为该变量缺少有效的信息而有数据质量问题。因为该变量提供的信息只可能对最多0.01%的客户产生

3、影响,对未来预测模型的贡献实在太微乎其微。1.2数据质量检查的方法在BI实施中通常的数据质量检查方法有两种:u与源系统对照这是我们在ETL开发和测试中常用的方法。将数据仓库或最终报表中的数据与源系统的数据或报表进行一一比对,是数据质量检查最全面细致的检查方法。u业务经验判断这是我们在ETL维护过程中常用的方法。依靠对业务相关知识的经验来判断指标是否在合理的范围。如,业务收入要在一定范围内,可以设置最高、最低的数值来判断是否出现异常;存量用户数通常每月之间上下波动不会超过5%,如果超过则一般可能是数据处理出了问题。

4、依靠经验,我们就可以在ETL流程中加入自动的数据质量检查,当发现异常出现时可以及早通知ETL维护人员进行检查,以预防将错误的数据发布出去。在数据挖掘实施中,由于一般都以数据仓库为数据源,因此通常我们不做数据核对。同时我们通常假定挖掘建模人员对业务和数据本身并不十分熟悉,所以也很难用经验数值的方式进行判断。而数据挖掘对数据的有效性检查,也是需要专门的分析。数据挖掘的数据质量检查方法主要有:u值分析u统计分析u频次与直方图分析u相关性分析电信精确营销系统设计方案V1.01数据质量分析方法数据挖掘中数据质量分析的对象主

5、要是宽表。宽表通常是在数据仓库基础上建立的客户信息列表,一般其中每条纪录对应一个客户某个时间的各种信息。其中用于分析建模的字段我们称为变量。对于变量,我们通常按照取值类型分为:数值变量和分类变量。对于数值变量,还可以进一步分为离散型变量、连续型变量。分类变量通常对应数据仓库中的维度,而数值变量通常对应指标。本文中我们主要介绍值分析、统计分析、频次和直方图分析方法。1.1值分析值分析通常是进行数据质量分析的第一步,它可以帮助我们在总体上分析数据的自然分布情况。比如,数据是否只有唯一值,该变量中有多少空值等。值分析是

6、我们常用方法中最简单的一种。它的分析信息统计简便,信息含义清晰易理解。但它却是最有效的分析方法,因为它能够快速的给出明确的结论。1.1.1分析方法进行值分析时,我们对宽表中变量进行取值情况的统计。具体统计信息为:u总记录数u唯一值数:该变量不重复取值的数量u空值数/空值占比:取值为null的记录数/占总记录数的比例u空字符数/空字符占比:取值为空字符串的记录数/占总记录数的比例,对于数值型变量无意义u0值数/0值占比:取值为0的记录数/占总记录数的比例,对于字符型变量无意义u正数个数/正数占比:取值大于0的记录数

7、/占总记录数的比例,对于字符型变量无意义u负数个数/负数占比:取值小于0的记录数/占总记录数的比例,对于字符型变量无意义为方便起见,我们对于将宽表中的变量可以批量生成值分析数据:表1:值分析批量结果表xcolxtypexcntxuniquexnullxblankxzeroxposxnegArraLmtIndCHAR(1)92291305580???ArraLmtTmSMALLINT922913676522?150577120BankActNmVARCHAR(80)92291395091793???Custstat

8、INTEGER9229120?82281100100OperQty_51DECIMAL(12,0)9229116630?7503847826OperQty_52DECIMAL(12,0)92291890?8602662632OperQty_53DECIMAL(12,0)92291310?8997823130OperQty_54DECIMAL(12,0)922914370?

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。