改进apriori算法及其在领域数据挖掘中应用

改进apriori算法及其在领域数据挖掘中应用

ID:43870520

大小:886.67 KB

页数:49页

时间:2019-10-16

改进apriori算法及其在领域数据挖掘中应用_第1页
改进apriori算法及其在领域数据挖掘中应用_第2页
改进apriori算法及其在领域数据挖掘中应用_第3页
改进apriori算法及其在领域数据挖掘中应用_第4页
改进apriori算法及其在领域数据挖掘中应用_第5页
资源描述:

《改进apriori算法及其在领域数据挖掘中应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文屮已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做岀贡献的其他个人和集体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:.妙关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印

2、、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供木学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:第一章绪论§1-1课题研究背景和意义1-1-1课题研究背景随着计算机的普及应用和计算机网络的飞速发展,在过去若干年里,无论是商业企业、科研机构或者政府部门,各个领域都积累了海量的、以不同形式存储的数据。面对这些以不同形式存储的海量数据,人

3、们要想获得自己想要的知识,往往感觉到无从下手,因此,经常处于一种“数据丰富而信息贫乏”的尴尬状况。如何才能从数据的海洋里获取有价值的信息已成为众多专家学者的研究重点。数据仓库和数据挖掘技术的产生为这个问题提供了一种可行的解决方案。数据仓库(DalaWarehouse,简称DW)是20世纪90年代初由W.H.Inmon首次提出来的。他对数据仓库的定义为:“是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员决策”[llo数据仓库技术为领域数据的集成提供了解决方案,也为数据挖掘提供了更广阔的发展空间和应用前景。数据

4、挖掘(DataMining,简称DM)也称为数据库中的知识发现(KnowledgeDiscoveryinDatabases,简称KDD),是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但乂是潜在有用的信息和知识的过程⑵。数据挖掘最初主要应用于商业活动,主要目的是从大暈数据屮寻找有用的信息,如市场管理、欺诈管理和风险管理。它主要应用于对数据的加工,并从己冇的数据库中找出新的知识或规律,从大量积累的数据中挖掘出我们感兴趣的信息或还未掌握的新知识。用数据挖掘工具对数据进行分析,从而发现重要的数据模式,

5、对商务决策、金融、科学和医学等领域研究做出了巨大贡献。要想完成数据和信息之间的转换,就需要系统地开发一套合适的数据挖掘工具,将数据坟墓转换成知识“金块”。目前,数据挖掘的研究己和数据仓库的研究结合起来.数据仓库环境下数据挖掘技术的研究已成为信息科学的热点问题之一。1-1-2课题研究意义领域数据挖掘是建立在领域数据仓库技术之上的。基于数据仓库和数据挖掘的知识,领域数据仓库的建立为领域数据挖掘提供了一个数据支撑平台,领域数据仓库把领域数据集成一体,供挖掘使用。领域数据挖掘有着深远的研究意义,主要概括为以下两点。1)领域数据的统一规范化管理。随

6、着各企业部门的管理服务等系统的不断完善,数据量越来越大,领域数据仓库的建立为领域内数据的集成提供-个平台,为领域数据的统一规范化管理也提供了一个数据标准。2)为领域高层管理者提供决策支持。建立领域数据挖掘系统,领域高层决策者可以从大量的领域相关数据中获取有用知识,从而为决策提供科学的有利依据。§1-2研究现状1-2-1数据仓库研究现状由于数据仓库最初从国外发展起来,因此应用己较为普遍,在数据积累方面也占有比较领先的位置,而且由于业务人员IT背景较强,业务应用也较为丰富,因此在数据仓库建设方面有比较完善的管理和实施方案,从忖前情况来看,世界

7、五百强的企业绝大多数己经建设完成或正在建设自己的数据仓库系统,处于世界领先地位的电信运营企业均建有数据仓库系统⑶。20世纪90年代中后期国外电信运营商开始数据仓库的建设工作,如AT&Twireless,从1997年夏天开始用了将近4年的时间,一直到2001年8月才完成,后来经过多次改造,新增了18个数据源,并进行了大规模的节点和系统的扩展。建设始于1994年的西南贝尔的数据仓库是当时最大的数据仓库,后经扩展,至I」2000年9月份时已达到178个节点,7120个18.2G的磁盘,数据库容量达128TB,2004年9月时达314个节点,数据

8、库容量高达242TB⑷。各大公司企业都在不断建设扩展自己的数据仓库系统。近几年來,随着中国市场竞争的加剧和企业信息化的需要,国内的数据仓库建设得到了迅猛发展,如铁道部门引入数据仓库进行客流分析

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。