rank函数在多源数据整理中应用

rank函数在多源数据整理中应用

ID:5984415

大小:30.50 KB

页数:0页

时间:2017-12-30

rank函数在多源数据整理中应用_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《rank函数在多源数据整理中应用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、RANK函数在多源数据整理中应用  [摘要]在辽河油田勘探与生产技术数据管理系统(简称A1)数据主库建设中,对来自于多数据源的数据,通常存在大量的数据冗余、重复记录或一点多值情况。如何高效识别和区分有效或无效记录,成为影响海量勘探开发结构化数据由专业库到主库入库效率的瓶颈问题,同时也是影响主库数据完整性和唯一性的核心问题。本文对ORACLE系统中RANK函数进行应用尝试,总结分析了RANK函数的使用要点,在实际应用中取得了良好效果。[关键词]数据整理;ORACLE;RANK分析函数;主键doi:10.3969/j.issn.1

2、673-0194.2013.15.036[中图分类号]TP274;TP392[文献标识码]A[文章编号]1673-0194(2013)15-0056-041引言8勘探与生产技术数据管理系统(简称A1)及其数据主库建设是中国石油“十一五”信息化建设的重点项目,为确保A1系统主库结构化数据的完整性、准确性和一致性,中国石油发布了统一的EPDM数据模型,为数据建设与管理人员提供了规范的数据标准。在A1系统建设与运维过程中,为减少数据重复录入工作量,数据建设与管理人员对油田公司勘探开发专业数据库已采集入库的海量结构化数据,采用数据迁移

3、技术,由各专业数据库迁移到A1系统数据主库,以实现对物探、钻井、录井、测井、分析化验、地质等专业数据的集中管理和集成应用,更有效地支持勘探开发项目研究工作的开展,保护勘探开发数据资产,提升数据的综合应用价值。辽河油田勘探、开发领域的不同专业数据,主要来自于辽河油田研究院已建勘探、开发、钻井、录井、分析化验等专业数据库以及各采油厂建立的专业库。分析发现,这些专业库通常具有多数据源、异构、数据关联性弱、数据完整性不足、不同专业间数据一致性差等特征。如何有效地规划、梳理和清洗专业库中的数据,使之符合A1系统主库数据入库标准,是油田数

4、据建设与管理人员面临的难题之一。在专业数据实际整理过程中,辽河油田数据建设与管理人员借助ORACLE系统提供的RANK分析函数功能,较好地实现了多源结构化数据记录的识别与区分,解决了影响海量勘探开发结构化数据由专业库到A1系统主库入库效率的瓶颈问题,取得了良好的使用效果。下面我们将结合实际应用案例,总结并分析ORACLE分析函数的功能和使用要点,供大家借鉴参考。2RANK函数的功能8一般认为ORACLE提供的RANK函数就是查询命令中聚合函数下GROUPBY功能的延伸,GROUPBY的功能是查询一个集合的统计信息,比如查询一个

5、部门的总销售额、平均销售额等数据,使用格式为:selectdeptno,sum(sal),Avg(sal)fromempGroupbydeptno;(查询语句一)查询结果如表1所示。即对部门号为10,20,30的单位,查询其部门的总销售额和平均销售额。注意:一个部门只有一条记录。但要求查询各部门内部,各员工的销售额排名先后次序时,GROUPBY就无能为力了,这就需要用到ORACLE的分析函数RANK。RANK的本意是等级,也就是说这是一个给查询数据确定等级的函数[1]。ORACLE从8.1.6版本开始提供分析函数,分析函数用于

6、计算基于组的某种聚合值,它和聚合函数的不同之处是,对于每个组可返回多行,而聚合函数对于每个组只返回一行[2](见上面的GROUPBY)。RANK是ORACLE中比较典型的一个分析函数,用它就能对各部门内部各员工的销售额进行排序,其使用方法是:selectdeptno,ename,sal,rank()over(partitionbydeptnoorderbysal)rankfromemporderbydeptno;(查询语句二)8查询结果如表2所示。从查询结果可以看出,RANK函数给出了各个部门内部,各员工的销售额升序排列的详细

7、列表。从列表中可以清楚地看出,在10号部门内,员工MILLER销售额最低,KING销售额最高等信息。2.1RANK函数使用的关键点分析分析函数RANK的语法见图1。用好RANK函数的关键,是理解partitionby和orderby的运用,笔者认为partitionby之后的字段来划分堆,形成“分堆区”,而orderby之后字段来排序,形成“排序区”,因此,RANK的使用可以分解为:先根据部门号来“分堆”,再根据销售额来“排序”,分两步走,这样就好理解了,这也是ORACLE分析函数的使用关键,即先选择“分堆区”的字段,再选择“

8、排序区”的字段。奇怪的是ORACLE数据库系统对于这样的查询,执行效率还是比较高的,这也便于该类函数的推广应用。8注意:一般在“分堆区”的字段要比“排序区”的字段在范围上大一些,这样便于对表中的数据进行分堆,而且“分堆区”与“排序区”的字段不能重复,否则查询的结果都是1,就没

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。