基于粒计算与区分能力的属性约简算法?-论文.pdf

基于粒计算与区分能力的属性约简算法?-论文.pdf

ID:57924508

大小:503.59 KB

页数:8页

时间:2020-04-14

基于粒计算与区分能力的属性约简算法?-论文.pdf_第1页
基于粒计算与区分能力的属性约简算法?-论文.pdf_第2页
基于粒计算与区分能力的属性约简算法?-论文.pdf_第3页
基于粒计算与区分能力的属性约简算法?-论文.pdf_第4页
基于粒计算与区分能力的属性约简算法?-论文.pdf_第5页
资源描述:

《基于粒计算与区分能力的属性约简算法?-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第28卷第4期模式识别与人工智能Vo1.28No.42015年4月PR&AIApr.2015基于粒计算与区分能力的属性约简算法冀素琴石洪波吕亚丽(山西财经大学信息管理学院太原030031)摘要传统的属性约简方法将整个数据集一次性装入内存,很难适应大数据背景下的数据分析.为此文中提出基于粒计算与区分能力的属性约简算法.该算法运用统计学中的分层抽样技术,拆分原始大数据集为多个样本子集(粒),在每个粒上运用属性的区分能力进行属性约简,最后将各粒约简结果进行加权融合,得到原始大数据集的属性约简结果.实验表明该算法对海量数据集进行属性约简的可行性和高效性.关键词海量数据,粒计算,属性

2、约简,分层抽样,区分能力中图法分类号TP181DOI10.16451/j.cnki.issn1003-6059.201504005AnAttributeReductionAlgorithmBasedonGranularComputingandDiscernibilityJISu—Qin,SHIHong-Bo,Lt)Ya—Li(FacultyofInformationManagement,ShanxiUniversityofFinanceandEconomics,Taiyuan030031)ABSTRACTIntraditionalattributereductionalgo

3、rithms,allthedataareloadedintothemainmemoryonce,whichishardtoadapttothebigdataanalyses.Aimingatthisproblem,anattributereductionalgorithmbasedongranularcomputinganddiscernibilityisproposed.Anoriginallarge-scaledatsetisdividedintosmallgranularitiesbyapplyingstratifiedsamplinginstatistics,and

4、thenattributesarereducedoneachsmallgranularitybasedondiscernibilityofattribute.Finally,allthereductionsonsmallgranularitiesarefusedbyweighting.Experimentalresultsshowthattheproposedalgorithmisfeasibleandeficientforattributeredl】ctjononmassjvedatasets.KeyWordsMassiveDada,GranularComputing,A

5、ttributeReduction,StratifiedSampling,Discernibility国家自然科学基金项目(No.60873100)、山西省自然科学基金项目(No.2013011016—4,2014011022—2)资助收稿日期:2014—05—26;修回日期:2014—08—18作者简介冀素琴(通讯作者),女,1972年生,硕士,讲师,主要研究方向为数据挖掘、分布式技术.E—mail:jsq58@sina.com.石洪波,女,1965年生,博士,教授,主要研究方向为机器学习、数据挖掘.吕亚丽,女,1975年生,博士,副教授,主要研究方向为人工智能、数据挖掘

6、.328模式识别与人工智能28卷1引言对其中统计指标方差的计算加以改进,降低算法执行时间的同时得到比文献[15]更小的粒,使算法更适合于海量数据的处理.其次,在每个粒上基于属性属性约简是粗糙集理论的核心内容之一,是的区分能力进行属性约简,此过程仅需计算等价类在保持知识库分类能力不变的条件下,删除不相关基数,明显提高算法的执行效率.最后,在融合各粒或不重要的冗余属性.Slowron等首次将线性代数约简结果时,针对文献[15]仅是对各粒约简结果简中的矩阵和离散数学中的范式应用于粗糙集属性约单求并,本文对所有属性进行加权融合并排序,得到简,可得出所有约简结果,但存在计算复杂度高、

7、效整个数据集的约简结果,以方便用户能根据需求选率低的缺点,且其求解过程已被证明是一个NP—取属性个数.相关实验进一步验证算法对海量数据Hard问题.因此属性约简一般采用启发式算法,常进行属性约简的可行性和高效性.用的有基于差别矩阵的属性约简、基于正区域的属性约简和基于信息论的属性约简.这些算法通过启发式搜索策略,在一定程度上降低计2相关知识算复杂度,提高属性约简的效率.在此研究的基础上,为更高效地求解约简,众多定义1l11决策表s=(,C,D,,_厂),其中,U=学者展开更为深入的讨论和分析,提出一系列更高{,,⋯

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。