数据质量评估与提升方法与应用分析

数据质量评估与提升方法与应用分析

ID:32072925

大小:1.13 MB

页数:66页

时间:2019-01-31

数据质量评估与提升方法与应用分析_第1页
数据质量评估与提升方法与应用分析_第2页
数据质量评估与提升方法与应用分析_第3页
数据质量评估与提升方法与应用分析_第4页
数据质量评估与提升方法与应用分析_第5页
资源描述:

《数据质量评估与提升方法与应用分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据上海交通大学学位论文数据质量评估与提升方法及应用研究摘要在数据的产生、存储、传输的过程中,难免会出现错误数据、缺失数据等问题,数据的存在是因为它的价值,有些数据用作证据,有些数据用来做分析和预测;不管数据的作用是什么,如果数据出现错误、缺失以及其他问题,都会降低数据存在的价值,有时甚至带来深重的灾难。因此,确保数据的高质量,是有效利用数据的基础。近年来,数据呈现爆炸式增长,人们对大数据的热情与日俱增,很多人努力寻找更好的数据分析方法,很少人注重数据质量问题,对数据质量进行研究的文章比较少。本文

2、通过对数据质量管理研究的文献进行梳理,总结在这方面的研究成果,重点讨论了数据质量评估和数据质量提升方法,将聚类和分类方法引入到数据质量评估过程中,列举并比较了几种常见的聚类和分类方法,探索了这两种方法在数据质量评估的可行性,将测量工具分析方法GageR&R以及方差分析法用于可行性分析,最后简单介绍了针对不同的数据质量问题应该采用的提升方法。以消费者投诉数据为实例研究对象,选择K-means聚类对数据进行质量评估,聚类数对应于待检验的人工分类数,每个聚类簇的名称与人工分类的名称相对应,再建立评估矩阵,采

3、用VanRijsbergen的I万方数据上海交通大学学位论文FI值理论得到评估值,再用测量工具分析方法对这些评估值分析,发现聚类分析方法有可能用于数据质量评估。在数据质量提升方面,对于非标准化数据的质量提升做了详细介绍,采用关键词匹配的方法实现了数据标准化。经过对数据的探索以及质量评估,对数据质量管理提出了一些建议,将数据质量管理分为三部分:数据库设计阶段、数据生产过程、数据生产后处理。关键词:数据质量管理、K-means聚类、GageR&R、投诉数据II万方数据上海交通大学学位论文DATAQUALI

4、TYASSESSMENTANDIMPROVEMENT:METHODSANDAPPLICATIONSABSTRACTIndataproduction,storageandtransmissionprocesses,thereareinevitablydataproblems,missingdataandotherissues.Theexistenceofthedataisduetoitsvalue,somedataisusedastheevidence,othersisusedforanalysisan

5、dforecasting.Whateverdataisusedfor,ifthedatahaserror,missingorotherproblems,thevalueofthedatawillbereduced,sometimesevenbringshugelosses,soensuringdatahighqualityisthefoundationoftheeffectiveuseofdata.Inrecentyears,datahasgottenexplosivegrowth,whichhasb

6、eenincreasingpeople’sinterestinbigdata,mostofpeoplealwaysfindbettermethodstoanalyzebigdata,butfewpeoplereallycareaboutdataquality,whichleadstofewpapersaboutdataquality.Inthispaper,byreviewingliteraturesaboutdataquality,Isummarizedtheresearchachievements

7、inthisarea,myresearchismainlyaboutmethodsofevaluatingdataqualityandimprovingdataquality,andapplyclusteringandcategorizationinevaluatingdataquality,introduceandcomparesomeusual-usedmethodsofclusteringandcategorization,andexplorewhethertheyarefeasible.Asw

8、eknow,anymeasurementIII万方数据上海交通大学学位论文resultshavedeviation,IapplyGageR&Randanalysisofvariancetoevaluatethefeasibilityofevaluationmethodslikeclusteringandcategorization,andsimplyintroducedifferentimprovementmethodsofdataqualityacco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。