数据仓库论文

数据仓库论文

ID:44049345

大小:43.55 KB

页数:10页

时间:2019-10-18

数据仓库论文_第1页
数据仓库论文_第2页
数据仓库论文_第3页
数据仓库论文_第4页
数据仓库论文_第5页
资源描述:

《数据仓库论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据仓库与数据挖掘技术随着信息时代的不断进步社会正处于数据技术飞速发展的良好状态。但是在数据信息极度膨胀的同时并非所有的数据都可被利用大量的数据浪费造成各种损失所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今高级数据分析数据挖掘DataMining简称DM发展起来是开发信息资源的一套科学方法、算法以及软件工具和环境是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域。1数据挖掘1.1数据挖掘定义及实现过程数据挖掘就是用来发现隐含

2、的、事先未知的、潜在的有用知识提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库也可以是文件系统或组织在一起的数据集合更主要的是数据仓库。简单的说数据挖掘是提取或“挖掘”知识。冃前数据挖掘是可以从统计学、数据库和机器学习等三个方而进行定义。从统计学的角度数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。从数据库的角度来看数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程。从机器学习的角度数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息。可以理解为

3、数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。表示的是典型的数据挖掘系统的结构。过程表述如下从数据库或数据仓库等资源库中收集数据并进行信息的初步筛选根据用户对数据信息的要求由服务骼提取并传输有用的数据为了对已经采集到的数据进行更有效的分配数据挖掘引擎对数据进行特征化、关联、分类等操作然后将精确划分的数据信息进行模式评估从而使搜索仅限制在感兴趣的模式上通过图形用户界面用户可以方便的与数据挖掘系统之间通信实现对数据的使用。1.2数据挖掘分类数据挖掘是一个交叉性的学科领域涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据

4、挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类可以帮助用户确定最适合的数据挖掘系统。典型的数据挖掘系统的结构根据所挖掘数据库类型的不同来分类有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统等等。2根据所挖掘的知识类型来分类分为特征化、区分、关联、分类、聚类、孤立点分析异常数据和演变分析、偏差分析、相似性分析等分类。3根据所采用技术的分类有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。4根据数据挖掘方

5、法來分类如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。5根据数据挖掘应用的分类有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等不同的应用通常需要集成对于该应用特别有效果的方法。因此普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。1.3数据挖掘任务数据挖掘任务有6项关联分析、时序模式、聚类、分类、偏差检测、预测3。关联分析是从数据库中发现知识的-类重要方法。若两个或多个数据项的取值之间重复出现并H概率很高的时候就存在某种管理可以建立起这些数

6、据项的关联准则。通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。数据库屮的数据可以划分为一系列有意义的子集即类。在同一类别中个体之间的距离较小而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识即通过聚类建立宏观概念。分类是数据挖掘屮应用最多的任务。分类是找出一个类别的概念描述它代表了这类信息的整体即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。数据库中的数据存在很多异常情况。从数据分析中发现这些杲常情况也是很重要的应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某

7、一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。预测是利用历史数据找出变化规律建立模型并用此模型来预测未来数据的种类、特征等。近年来发展起来的神经网络方法如BP模型实现了非线性样本的学习能进行非线性函数的判别。分类也能进行预测但是分类一般用于离散数值回归预测用于连续数值神经网络方法预测两者都可用。2数据仓库概述数据仓库对不同的使用者、不同的操作范围它有不同的意义。被誉为数据仓库Z父的W.II.Inmom将数据仓库DataWarehouse定义为4是一个面向主题的、集成的、相对稳定的、反映历史变化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。