基于HBase的高效结构化数据查询方法研究.pdf

基于HBase的高效结构化数据查询方法研究.pdf

ID:55398595

大小:167.00 KB

页数:2页

时间:2020-05-15

基于HBase的高效结构化数据查询方法研究.pdf_第1页
基于HBase的高效结构化数据查询方法研究.pdf_第2页
资源描述:

《基于HBase的高效结构化数据查询方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用研究基于HBase的高效结构化数据查询方法研究沙学府陆保国何锡点(中国电子科技集团公司第二十八研究所江苏南京210000)摘要:随着数据时代的到来,大数据量的即时查询技术成为研究的焦点和热点之一。虽然瑚e凭借其分布式、列存储等诸多优点,目前在业界广泛使用,但由于其键值对存储的特性,不支持二级索引以,及Jo、Groupby等数据操作,使得其在大数据量的结构化数据即时查询上存在局限性。而Hive作为分布式的关系型数据仓库,支持结构化数据的sQL查询,但它依赖底层的MlpReduce计算框架,数据存取时的磁盘I/o时间消耗很大

2、,数据量在GB级别时查询速度受限。针对以上问题,提出一个基于关系型数据库的HBase解决方案,以增加与提高HBgtse上结构化查询的能力。关键词:大数据FIBaseRDBMS混合数据库Hive中图分类号:TP311.13文献标识码:A文章编号:1007.9416(2015)05.0085。021引言赖于MapReduce$-]-~f框架,数据存取时的磁盘I/O时间消耗很大,数随着数据时代的到来,Hadoop~为可在廉价PC上部署的高据量在GB级别时查询速度也不快。因此,本文结合关系型数据库在可扩展性的分布式存储计算框架,成为

3、数据时代的主流。Hadoop生处理结构化数据上的SQL{~势,设计并构建了一个基于关系型数据态圈的其他产品,继承Hadoop框架的优势,也在各自的特长领域被库的HBase解决方案,以增加与提高HBase上结构化查询的能力。业界广泛使用。在数据读写领域,传统关系型数据库在数据量较大2体系架构设计时,查询速度明显减慢,而集群的硬件成本太高,所以,大数据量的本文构建的基于关系型数据库的HBase(以下简称“混合型数据即时查询技术成为数据时代研究的焦点和热点之一。库”)架构如图1所示。HBaset'1,是一种面向列存储的NoSQL系

4、统,其数据存储依赖其中,关系型数据库作为提高HBase结构化查询能力的索引,hadoop的分布式文件系统HDFS。HBase能够在普通硬件设备上存数据本身存储在HBase中。需要建立索引的数据存储在关系型数据储数以百亿行的大数据量表,目前在企业中广泛使用。譬如库中。数据库中的每条记录都包含一个指向HBase的“指针”。关系型Facebook(消息,大数据实时数据分析),TrendMicro,Adobe,数据库返回查询结果集,查询计划器根据“指针”查询HBase,根据查Twiter,Yahoo!与淘宝。虽然HBase能够存储数

5、百TB海量数据,具询结果集和HBase~询结果进行合并,返回给用户。‘有高并发、支持随机访问、高可扩展性的优点[2】,并支持结构化和半本文中的}昆合型数据库可支持:(1)丰富sQL查询语法:支持更结构化数据存储,但是HBase使用键值对的数据模型,不支持sql查复杂的结构化查询;(2)提高HBase上结构化查询的性能表现,如询,不支持二级索引,不支持~IJoin、跨行、跨表事物、Orderby与J0in,Orderby,GroupbyI(3)减少硬编码,提高生产率;(4)高可Groupby。在大量结构化数据的多表查询上,优势

6、受限。相比之下,扩展性;(5)通用解决方案Hadop生态圈的Hive~以支持传统关系型数据库的主流SQI语言,但是Hive是建立在Hadop基础之上的分布式数据仓库,其查询依3混合型数据库技术方案本文的混合型数据库技术方案包括HBase~据存储关系型数据库集群、索引器、元数据、查询计划器五大部分的设计。(1)HBase~据存储:用来存储原始数据。(2)关系型数据库集群:存储HBaSe中需要索引的列。实际上,索引只有源数据数据量的约混合数据库vs。hiveoO岫蒌。O霪《OO1。0152.O2.53.03.54.0典型场最图1

7、混合型数据库架构图图2混合型数据库架构的查询结果收稿日期:2015—05—04作者简介:沙学府(1987,男,安徽无为人,硕士,毕业于哈尔滨工业大学,研究方向:大数据。应用研究表1vehicle(1)场景l:查询完全在关系型数据库中执行。查询语句实例如IdBig,primarykey下:vehiclen1lmVarchar(fi0)SelectT1.a,sum(T1.b)fromT1whereT1.b>100vehicle_typeVarchar(24)groupbyT1.a;fleet_nameVarchar(100)Sd

8、ectT1.afromT1.T2whereT1.a=T2.aandT1.blikegroup_idsmallintdrivernameVarchar(50)‘%Ss’.MobfleVarchar(50)(2)场景2:查询部分在关系型数据库中,部分在HBase中。查询RemarkVarcha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。