数据挖掘取样方法与数据结构研究

数据挖掘取样方法与数据结构研究

ID:26837144

大小:52.50 KB

页数:5页

时间:2018-11-29

数据挖掘取样方法与数据结构研究_第1页
数据挖掘取样方法与数据结构研究_第2页
数据挖掘取样方法与数据结构研究_第3页
数据挖掘取样方法与数据结构研究_第4页
数据挖掘取样方法与数据结构研究_第5页
资源描述:

《数据挖掘取样方法与数据结构研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘取样方法与数据结构研究摘要:取�邮且恢址浅Mㄓ玫慕�似技术。取样方法在数据挖掘研究中能显著减小数据处理规模,使数据挖掘算法更加大规模的作用到数据流中。对数据结构的研究也成为了数据挖掘取样方法的中心。本文主要阐述了数据挖掘领域中取样方法的灵活性,并且对数据挖掘取样方法的发展和面临的挑战做出了展望。中国8/vie  关键词:数据挖掘取样方法数据结构  中图分类号:TP311.13文献标识码:A:1007-9416(2016)12-0106-01  正是由于数据库技术的广泛应用和快速的发展,数据库所能储存的数据也顺应

2、时代潮流越来越大。如何采用适当的技术来降低数据流的规模成为一个重要的问题,特别是最近的某些领域广泛应用数据流信息,比如通信管理和网络监测,为了维护数据结构的动态稳定性,取样成为了最通用的近似技术。取样在保证一定的精确度下,使得数据挖掘算法广泛应用到数据流中去。目前常用的概要结构设计方法有小波方法、直方图方法、Hash等。  1数据挖掘中的取样方法  1.1A/RSampling  A/RSampling算法主要是通过挖掘算法从数据流中不定向抽选一个候选元素,然后通过把此元素与所要求的条件作出对比,只有符合条件的元素才会

3、接受,作为样本集,不符合的拒绝,重复此循环。  1.2精确取样方法  精确取样用元素代码表示在样本集中仅仅出现一次的元素,而用value,count来表示重复出现的元素,当中的value是表示元素所对应的代码,count则表示元素出现的次数数量。一般情况,元素是否放入样本集是有条件的,假如元素没有在样本集里出现过则就可以直接放入样本集,但是如果元素已经存在于样本集中了,那么就在数量count上加1。这样,当样本集容量已满时,样本集中的每个元素数据都会按照原始对应参数来进行对比然后删除,保持数据的存放性。  1.3计数取

4、样方法  计数取样是在精确取样方法基础上转变过来的,在处理样本集溢出情况时,在删除数据之前要和原数据进行比较,然后通过新参数分之一来判断数据时候要减1。当数据的数量值为0时,就不再对该数据进行操作。  1.4分出取样方法  分层取样实际上是将数据信息曾经分布的情况用作参考来对目前的数据进行分层的,这样,对于那些分布多的层就会采取更多的取样点,大大提高了数据挖掘算法的准确性。同时对于每一层的数据而言,则采用均匀的取样技术进行随机的采取点。  1.5国会取样方法  国会取样可以说是是均匀随机取样方法的基础上结合了偏倚取样技

5、术,因为对于每个分组都会独立取样,不同的是取样的概率是不同的。比如,对于某些较大的分组,就会对元素的取样率大大增加,反过来说,对于某些较小的分组,对元素的取样率就大大减少,这种兼顾性就突破了均匀取样的局限性。  1.6DistinctSampling  DistinctSampling相当于取样方法的综合说法,从按类型方面来看,属于聚集流的搜索处理查询中的唯一值取样方法。通过对数据中的唯一的元素进行逐一的扫描再逐一的加入的样本集的方法进行取样,这样就大大提高了对于唯一的个体数目的评估正确性。  2数据挖掘在取样方法中的

6、发展  取样方法在统计计算、数据处理和挖缺信息中普遍存在,在某些知识发展的方面扮演着无法替换的功能角色。在数据挖掘取样方法中的应用案例非常之多,比如房地产的数据分析和用户需求统计中一般采用均匀随机的抽样方法来搜集大数据。在对数据结构的构建中采用的数据挖掘算法也很多。例如CURE和CLARANS,通过算法再加上取样方法的预处理能力,在专业人士的分析统计下,算法和取样方法都得到了最大化的发挥。  自适应取样是针对有穷非负数数据的一种评估方法,我们可以任意调节取样样本的大小,通过数据挖掘方面的整理,可以实现用最小的样本解决更

7、小的误差遗留问题。为了顺应需求节约取样的成本,二阶段取样的评估方法出现了。大概含义如下:在挖掘样本对象时,有时候会出现一些大成本的取样对象,为了解决这种烦恼,可以寻找一种辅助的取样对象来减少成本的代价。通过这个辅助对象的比例来推断出原来那个大成本的取样对象。这样不但解决了成本问题,而且目标精确度也会提高。  取样技术在数据集中的主要方面就是管理和挖掘:(1)针对数据集的处理模型中数据结构的需要里需要均匀取样方法和计数取样方法。(2)针对数据流在某些近似的查询过程中需要国会取样方法和DistinctSampling等。(

8、3)针对数据集运用的偏倚取样技术,这样能够解决一些应用过程中的数据管理、分配、评判问题的分析。  3数据挖掘取样方法面对的挑战  通过研究发现,传统的取样方法在数据挖掘领域中得到了深远的发展,取样技术在数据库的搜查处理、关于频繁元素的挖掘和数据挖掘算法的提前处理等方面有比较成熟的研究,不过在取样技术的某些方面挑战性还有很大的存在,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。