数据挖掘中的关联规则算法研究

数据挖掘中的关联规则算法研究

ID:10160650

大小:28.50 KB

页数:6页

时间:2018-06-12

数据挖掘中的关联规则算法研究_第1页
数据挖掘中的关联规则算法研究_第2页
数据挖掘中的关联规则算法研究_第3页
数据挖掘中的关联规则算法研究_第4页
数据挖掘中的关联规则算法研究_第5页
资源描述:

《数据挖掘中的关联规则算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘中的关联规则算法研究摘要:随着计算机技术和信息技术的飞速发展,数据挖掘已经成为当今各行各业重点关注的对象。关联规则挖掘是数据挖掘中的一个非常重要的内容,通过关联规则挖掘能够从海量数据中分析出数据与数据之间存在的关系,进而为用户提供更具有参考价值的信息。现阶段关联规则挖掘已经广泛应用于保险、股市、网络数据等多个对市场信息高度依靠的行业。本文从关联规则挖掘相关概念出发,对其主要操作步骤进行了简单分析,并研究了数据分割下的挖掘问题及算法。关键词:数据挖掘;关联规则中图分类号:TP311.131关联规则挖掘概述随着科学技术的不断发展,各种数据信息已经成为当前人们

2、生活的重要组成部分。面对如此巨大的数据信息,我们如何从中提取出对生活工作有利的内容是当前数据挖掘技术受到广泛关注的主要原因。1.16数据挖掘中的关联规则算法研究摘要:随着计算机技术和信息技术的飞速发展,数据挖掘已经成为当今各行各业重点关注的对象。关联规则挖掘是数据挖掘中的一个非常重要的内容,通过关联规则挖掘能够从海量数据中分析出数据与数据之间存在的关系,进而为用户提供更具有参考价值的信息。现阶段关联规则挖掘已经广泛应用于保险、股市、网络数据等多个对市场信息高度依靠的行业。本文从关联规则挖掘相关概念出发,对其主要操作步骤进行了简单分析,并研究了数据分割下的挖掘问题

3、及算法。关键词:数据挖掘;关联规则中图分类号:TP311.131关联规则挖掘概述随着科学技术的不断发展,各种数据信息已经成为当前人们生活的重要组成部分。面对如此巨大的数据信息,我们如何从中提取出对生活工作有利的内容是当前数据挖掘技术受到广泛关注的主要原因。1.16数据挖掘。(1)数据挖掘简介。所谓数据挖掘,简单说就是从海量数据中挖掘出具有价值的信息,该项技术是目前数据库及人工智能领域的研究热点。数据挖掘所挖掘的数据具有海量、不完整、有噪声、模糊等特点,从某种意义上来说数据挖掘就是一种决策支持过程,能够给决策者提供更为可靠,有利用价值的市场经营策略,进而从根本上降

4、低企业经营风险获得更多利润。(2)数据挖掘功能。每一个数据挖掘任务均需要制定一种数据挖掘模型,通过该模型能够准确迅速的实现对数据库的分析,进而满足用户的某种需求。通常情况下,我们将数据挖掘任务分为两大类:描述和预测,描述整个数据库所表现出来的整体特性,然后再根据这一特性对接下来将要进行的数据挖掘任务进行全面细致深入预测。(3)数据挖掘过程。数据挖掘是一个完整的系统的过程,整个过程需要依照某种挖掘模式从海量数据库中对各种有意义的信息进行深度挖掘。通常情况下,数据挖掘过程可以分为4个阶段:第一,数据准备阶段。数据挖掘的对象一般是客户自定范围的数据库,同样也可以是一个

5、文件系统。实际数据挖掘开始之前,需要对数据库进行预处理,也就是说需要对其中数据进行选择、分类、转换等。数据准备阶段是否做得充分,将直接影响后期数据挖掘的效率及有效性。第二,数据挖掘阶段。数据挖掘阶段是整个数据挖掘过程的核心,它主要分为选择挖掘算法和确定算法参数两个步骤。挖掘算法的选取非常关键,针对数据准备阶段得出的数据库类型来选取合适的算法,并针对选取算法进行参数确定优化,进而得到最佳数据挖掘模型。第三,结果显示。数据挖掘的最终目的就是为用户提供具有参考价值的信息,也就是说最后的关键步骤就是能够将数据挖掘得到的结果准确无误及时的向用户显示出来。第四,结果评价。从

6、用户需求的角度出发,来对数据挖掘得到的结论进行分析,如果得出的结果并未达到客户满意,则说明所选取的数据挖掘模型并不是最佳,还需要进行回退操作。1.2关联规则挖掘概述。(1)关联规则的基本概念。随着社会对数据挖掘技术的广泛关注,关联规则挖掘已经成为当前的一个重要研究课题。所谓关联规则挖掘即是指对过个数据库之间的关联关系进行分析,进而找出数据与数据之间的相互关联性。数据挖掘技术中所提及的关联规则挖掘需要结合计算机技术,从数据库中发现数据与数据之间的联系。(2)关联规则挖掘步骤。最小支持度和最小置信度是关联规则挖掘中非常关键的两个参数,实际挖掘过程主要分为两个步骤:第

7、一,从事务数据库中挖掘出频繁项集,也就是说挖掘出大于min支持度阀值的项集。频繁项集的最终决定因素是支持度,整个计算过程最终的目的就是归纳总结出一种算法,进而获得用户所需要的结果。第二,根据计算出的频繁项集来分析其中的强关联规则,也就是计算出支持度和置信度均≥预定支持度阀值和置信度阀值的关联规则。2数据分割下的挖掘问题及算法2.16减少事务的个数。如果在事务处理过程中去除长度小于k的项目集,那么在后期计算过程中肯定不会再出现长度为k+1的项目集。因此,在数据挖掘过程中我们可以通过算法直接将无用事务滤除,以便于在下轮扫描过程中简化操作过程,提高数据挖掘效率。2.2

8、基于划分的方法。这类算法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。