基于HBase的高效结构化数据查询方法研究.pdf

ID：55398595

大小：167.00 KB

页数：2页

时间：2020-05-15

资源描述：

《基于HBase的高效结构化数据查询方法研究.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、应用研究基于HBase的高效结构化数据查询方法研究沙学府陆保国何锡点(中国电子科技集团公司第二十八研究所江苏南京210000)摘要：随着数据时代的到来，大数据量的即时查询技术成为研究的焦点和热点之一。虽然瑚e凭借其分布式、列存储等诸多优点，目前在业界广泛使用，但由于其键值对存储的特性，不支持二级索引以，及Jo、Groupby等数据操作，使得其在大数据量的结构化数据即时查询上存在局限性。而Hive作为分布式的关系型数据仓库，支持结构化数据的sQL查询，但它依赖底层的MlpReduce计算框架，数据存取时的磁盘I／o时间消耗很大

2、，数据量在GB级别时查询速度受限。针对以上问题，提出一个基于关系型数据库的HBase解决方案，以增加与提高HBgtse上结构化查询的能力。关键词：大数据FIBaseRDBMS混合数据库Hive中图分类号：TP311．13文献标识码：A文章编号：1007．9416(2015)05．0085。021引言赖于MapReduce$-]-~f框架，数据存取时的磁盘I／O时间消耗很大，数随着数据时代的到来，Hadoop~为可在廉价PC上部署的高据量在GB级别时查询速度也不快。因此，本文结合关系型数据库在可扩展性的分布式存储计算框架，成为

3、数据时代的主流。Hadoop生处理结构化数据上的SQL{~势，设计并构建了一个基于关系型数据态圈的其他产品，继承Hadoop框架的优势，也在各自的特长领域被库的HBase解决方案，以增加与提高HBase上结构化查询的能力。业界广泛使用。在数据读写领域，传统关系型数据库在数据量较大2体系架构设计时，查询速度明显减慢，而集群的硬件成本太高，所以，大数据量的本文构建的基于关系型数据库的HBase(以下简称“混合型数据即时查询技术成为数据时代研究的焦点和热点之一。库”)架构如图1所示。HBaset'1，是一种面向列存储的NoSQL系

4、统，其数据存储依赖其中，关系型数据库作为提高HBase结构化查询能力的索引，hadoop的分布式文件系统HDFS。HBase能够在普通硬件设备上存数据本身存储在HBase中。需要建立索引的数据存储在关系型数据储数以百亿行的大数据量表，目前在企业中广泛使用。譬如库中。数据库中的每条记录都包含一个指向HBase的“指针”。关系型Facebook(消息，大数据实时数据分析)，TrendMicro，Adobe，数据库返回查询结果集，查询计划器根据“指针”查询HBase，根据查Twiter，Yahoo!与淘宝。虽然HBase能够存储数

5、百TB海量数据，具询结果集和HBase~询结果进行合并，返回给用户。‘有高并发、支持随机访问、高可扩展性的优点[2】，并支持结构化和半本文中的}昆合型数据库可支持：(1)丰富sQL查询语法：支持更结构化数据存储，但是HBase使用键值对的数据模型，不支持sql查复杂的结构化查询；(2)提高HBase上结构化查询的性能表现，如询，不支持二级索引，不支持~IJoin、跨行、跨表事物、Orderby与J0in，Orderby，GroupbyI(3)减少硬编码，提高生产率；(4)高可Groupby。在大量结构化数据的多表查询上，优势

6、受限。相比之下，扩展性；(5)通用解决方案Hadop生态圈的Hive~以支持传统关系型数据库的主流SQI语言，但是Hive是建立在Hadop基础之上的分布式数据仓库，其查询依3混合型数据库技术方案本文的混合型数据库技术方案包括HBase~据存储关系型数据库集群、索引器、元数据、查询计划器五大部分的设计。(1)HBase~据存储：用来存储原始数据。(2)关系型数据库集群：存储HBaSe中需要索引的列。实际上，索引只有源数据数据量的约混合数据库vs。hiveoO岫蒌。O霪《OO1。0152．O2．53．03．54．0典型场最图1

7、混合型数据库架构图图2混合型数据库架构的查询结果收稿日期：2015—05—04作者简介：沙学府(1987，男，安徽无为人，硕士，毕业于哈尔滨工业大学，研究方向：大数据。应用研究表1vehicle(1)场景l：查询完全在关系型数据库中执行。查询语句实例如IdBig，primarykey下：vehiclen1lmVarchar(fi0)SelectT1．a，sum(T1．b)fromT1whereT1．b>100vehicle_typeVarchar(24)groupbyT1．a；fleet_nameVarchar(100)Sd

8、ectT1．afromT1．T2whereT1．a=T2．aandT1．blikegroup_idsmallintdrivernameVarchar(50)‘％Ss’．MobfleVarchar(50)(2)场景2：查询部分在关系型数据库中，部分在HBase中。查询RemarkVarcha

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 / 2



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于HBase的高效结构化数据查询方法研究.pdf

基于HBase的高效结构化数据查询方法研究.pdf

相关文章

相关标签