基于不完备数据聚类的缺失数据填补方法_武森.pdf

基于不完备数据聚类的缺失数据填补方法_武森.pdf

ID:51088591

大小:1.27 MB

页数:13页

时间:2020-03-18

基于不完备数据聚类的缺失数据填补方法_武森.pdf_第1页
基于不完备数据聚类的缺失数据填补方法_武森.pdf_第2页
基于不完备数据聚类的缺失数据填补方法_武森.pdf_第3页
基于不完备数据聚类的缺失数据填补方法_武森.pdf_第4页
基于不完备数据聚类的缺失数据填补方法_武森.pdf_第5页
资源描述:

《基于不完备数据聚类的缺失数据填补方法_武森.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第35卷第8期计算机学报Vol.35No.82012年8月CHINESEJOURNALOFCOMPUTERSAug.2012基于不完备数据聚类的缺失数据填补方法武森1)1)2)冯小东单志广1)(北京科技大学东凌经济管理学院管理科学与工程系北京100083)2)(国家信息中心信息化研究部北京100045)摘要缺失数据的处理是数据挖掘领域进行数据预处理的一个重要问题.传统的缺失数据填补方法大部分是基于概率分布等一些统计假设,对于大数据集的数据挖掘不一定是最适合的方法.受不完备数据分析(ROUSTIDA)未采用传统的概率统计学方法启发,提出基于

2、不完备数据聚类的缺失数据填补方法(MIBOI),针对分类变量不完备数据集定义约束容差集合差异度,直接计算不完备数据对象集合内所有对象的总体相异程度,以不完备数据聚类的结果为基础进行缺失数据的填补.采用UCI机器学习基准数据集进行实验表明,MIBOI对缺失数据的填补是有效可行的.关键词数据填补;不完备数据;聚类;约束容差集合差异度中图法分类号TP311DOI号:10.3724/SP.J.1016.2012.01726MissingDataImputationApproachBasedonIncompleteDataClustering1)1

3、)2)WUSenFENGXiao-DongSHANZhi-Guang1)(DepartmentofManagementScienceandEngineering,DonglingSchoolofEconomicsandManagement,UniversityofScienceandTechnologyBeijing,Beijing100083)2)(InformatizationResearchDepartment,StateInformationCenter,Beijing100045)AbstractMissingdataproce

4、ssingisanimportantproblemofdatapre-processingindataminingfield.Traditionalmissingdatafillingmethodsaremostlybasedonsomestatisticalhypothesis,suchasprobabilitydistribution,whichmightnotbethemostapplicableapproachesfordatamin-ingoflargedataset.InspiredbyROUSTIDA,anincomplet

5、edataanalysisapproachnotusingprobabilitystatisticalmethods,MIBOIisproposedformissingdataimputationbasedonincom-pletedataclustering.ConstraintToleranceSetDissimilarityisdefinedforincompletedatasetofcategoricalvariables,sothegeneraldissimilarityofalltheincompletedataobjects

6、inasetcanbedirectlycomputed,andthemissingdataisimputedaccordingtotheincompletedataclusteringre-sults.TheempiricaltestsusingUCIbenchmarkdatasetsshowthatMIBOIiseffectiveandfeasi-ble.Keywordsdataimputation;incompletedata;clustering;constrainttolerancesetdissimilarity作为机器学习领域

7、基准数据库的UCI数据集中超[1]1引言过40%的数据库都含有缺失数据.这可能是由于[2]数据获取限制,数据理解有误或数据漏读等多方在实际数据分析中,经常遇到数据缺失问题.面原因造成的,使得在数据挖掘中面临的数据集往收稿日期:2010-11-16;最终修改稿收到日期:2011-04-24.本课题得到国家自然科学基金(70771007)、中央高校基本科研业务费专项资金(FRF-TP-10-006B)资助.武森,女,1971年生,博士,教授,博士生导师,中国计算机学会(CCF)会员,主要研究方向为智能数据分析、知识发现和数据挖掘.E-mail

8、:wusen@manage.ustb.edu.cn.冯小东,男,1988年生,博士研究生,主要研究方向为数据挖掘、聚类分析.单志广,男,1974年生,博士,研究员,中国计算机学会(CCF)理事

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。