数据挖掘可视化技术应用与研究

数据挖掘可视化技术应用与研究

ID:10164239

大小:28.50 KB

页数:7页

时间:2018-06-12

数据挖掘可视化技术应用与研究_第1页
数据挖掘可视化技术应用与研究_第2页
数据挖掘可视化技术应用与研究_第3页
数据挖掘可视化技术应用与研究_第4页
数据挖掘可视化技术应用与研究_第5页
资源描述:

《数据挖掘可视化技术应用与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘可视化技术应用与研究摘要:本文讨论了数据挖掘和可视化的关键技术,提出了运用在油田数据库中的一种可视化模型的设计方法。取出油田数据库的一个数据截面进行可视化,可以直观清晰的看到数据库中的频繁与例外异常模式,对提高决策的效率具有重大现实意义。关键词:数据挖掘;可视化;数据挖掘可视化中图分类号:TP311胜利油田“九五”以来就着手建立了较为完善的专业管理信息系统,全面覆盖了油田经营管理各项业务,促使信息把握更加及时,管理效率显著提高。近几年油田主要致力于系统间的联动,作为国内应用ERP(EnterpriseRes

2、ourcePlanning)系统规模最大的一家企业,2005年胜利油田ERP系统(企业资源计划)正式上线运行,信息系统由过去的“单线应用”转变为“集成应用”,原有的管理模式发生了重大变革,建立了新的管理程序,用标准、优化的流程解决了制度落实过程中存在的不足。由于随着计算机技术在胜利油田的广泛应用,积累了大量的生产信息数据,并且油田开发和生产科研土作中的大量信息已经实现网上传输。在传输数据的过程中,由于各种原因,不可避免地会出现一些错误数据,从而影响到最终的结果而掩盖了正确的生产信息。7根据对油田生产情况的具体分析,

3、可以将生产数据的错误类型分为以下三类:(1)不符合原始界限(该界限用户己给出)时,有以下几种可能的原因:1)数据在输入和存储过程中计算机产生的错误;2)人工输入数据时,以欺诈为目的对数据的恶意修改。上述情况,不符合用户所给出的最大范围,表明该数据是完全错误的,需要监控人员直接对其进行处理。(2)数据变化过大,原因如下:1)数据在输入和存储过程中计算机的错误;2)人工输入数据时,以欺诈为目的对数据的恶意修改;3)在生产过程中,人为的影响(例如油井作业、维修时,己停产)。(3)不符合数据的大体趋势时,原因同(2)。所以

4、迫切需要一种能及时检测例外数据的方法来提高数据质量,在数据挖掘领域此问题归结为例外数据挖掘问题。针对胜利油田数据库所积累的大量数据,更加需要一种能高效进行例外数据挖掘的方法,并且该方法应具有透明性和可信度高的特点。7可视化的基本思想就是使用图形和图像来表征数据,将隐藏在大量数据中的信息以相对直观、易于领会的图像方式表达出来,从而加快获取信息的速度。数据可视化是对大型数据库或数据仓库中的数据的可视化,是数据分析过程中必不可少的一个阶段。在数据可视化方面,目前的研究方向主要是将关系数据库或数据仓库中的数据,从不同的抽象

5、层次将属性、维度进行联合之后,以不同的呈现形式展现给用户。国内相继开展了数据可视化技术方面的研究,并取得了一些成绩。将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。可视化绘制方法就是把隐藏于大容量计算数据集中的物理信息转化为有组织结构表示的视觉信号集合,如空间几何形状、颜色、亮度等。目前常用的可视化绘制方法有:几何法、彩色法、多媒体法和光学法。本文基于色彩法提出了一种新颖的方法将油田生产数据进行数据挖掘可视化,使其能直观清晰的看到数据库中的频繁与例外异常模式,对提

6、高决策的效率具有重大现实的意义。1问题提出在庞大的数据库中,经常有例外异常数据夹杂在数据记录中,一眼分辨实为困难。我们提出了一种新的识别例外数据的方法,就是利用可视化来进行识别。定理1数据库中有m条H(H>W>N)维的记录,可以把每一条记录映射成空间中的点,若某点在低维空间中是Outlier(例外异常点),那么这一点在高维空间中必定是Outlier。7证明:假设oi是数据库中的第条记录(oi1,oi2,…,oim),则映射到N维空间中的一个点o(xi,yi,zi,…Ni)。设空间中一个点与任意各点的距离大于一个阈值

7、则定义为Outlier,空间中点oi与任意点oj(j≠i)之间的距离定义为:(1)N维空间中点oi与任意点oj(i≠j)之间的距离大于一个给定的阈值δ则定义为Outlier:(2)如果将数据库中的纪录映射到比N维高的W维(W>N)空间中,则在低维空间的例外点在高维空间中与其它点的距离:(3)由公式(2)和可知:dW(ois,ojs)>dN(ois,ojs)>δ。所以定理得证。因此,可视化出的数据库截面把数据库中的数据映射到4维的空间,在图中得出颜色较浅的例外数据在高维数据库中必定就是一条例外异常的记录。2试验7由于

8、可视化能清楚直观地看到数据库中的频繁模式与异常模式,本文采用可视化的方法来对油田数据库中的数据做试验。首先将油田数据库中的数据表中所有的数值型字段按照等距离方法转化成字符形式。这里我们先设定字符表的大小,为4个即{a,b,c,N},N代表该字段的值为空。算法为:求出字段中的最大最小除以3,即将该字段划分为3个区域,每个区域分别代表a,b,c。然后将数据库中的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。