《大数据技术原理与应用》

《大数据技术原理与应用》

ID:32048992

大小:1.94 MB

页数:76页

时间:2019-01-31

《大数据技术原理与应用》_第1页
《大数据技术原理与应用》_第2页
《大数据技术原理与应用》_第3页
《大数据技术原理与应用》_第4页
《大数据技术原理与应用》_第5页
资源描述:

《《大数据技术原理与应用》》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、《大数据技术原理与应用》http://dblab.xmu.edu.cn/post/bigdata温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字第四章分布式数据库HBase(PPT版本号:2016年3月10日版本)林子雨厦门大学计算机科学系E-mail:ziyulin@xmu.edu.cn主页:http://www.cs.xmu.edu.cn/linziyu《大数据技术原理与应用厦门大学计算机科学系》厦门大学计算机科学系林子雨2016年版ziyulin@xmu.edu.cn提纲•4.1概述•4.2HBase访问接口•4.3HBase数据模型•4.4HBase的实现原

2、理•4.5HBase运行机制•4.6HBase应用方案•4.7HBase编程实践本PPT是如下教材的配套讲义:21世纪高等教育计算机规划教材《大数据技术原理与应用——概念、存储、处理、分析与应用》(2015年8月第1版)厦门大学林子雨编著,人民邮电出版社ISBN:978-7-115-39287-9欢迎访问《大数据技术原理与应用》教材官方网站:http://dblab.xmu.edu.cn/post/bigdata《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn4.1概述•4.1.1从BigTable说起•4.1.2HBase简介•4.1.3HB

3、ase与传统关系数据库的对比分析《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn4.1.1从BigTable说起BigTable是一个分布式存储系统BigTable起初用于解决典型的互联网搜索问题•建立互联网索引1爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备•搜索互联网3用户发起网络搜索请求4网络搜索应用查询建立好的索引,从BigTable得到网页5搜索结果提交给用户网页在BigTable中的存储样例《大数据技术原理与应用》厦门大学计算机科学系林子

4、雨ziyulin@xmu.edu.cn4.1.1从BigTable说起•BigTable是一个分布式存储系统•利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据•使用谷歌分布式文件系统GFS作为底层数据存储•采用Chubby提供协同服务管理•可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、高性能和高可用性等特点•谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、社交网站Orkut、视频共享网站YouTube和博客网站Blogger等《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn4.1.2HBa

5、se简介HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表Hadoop生态系统ETL工具BI报表RDBMSPigHiveSqoopreMapReducepeoerkHBasevAooZHDFS(HadoopDistributedFileSystem)图4-1Hadoop生态系统中HBase与其他部分的关系《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@x

6、mu.edu.cn4.1.2HBase简介表4-1HBase和BigTable的底层技术对应关系HBaseBigTable文件存储系统GFSHDFS海量数据处理MapReduceHadoopMapReduce协同服务管理ChubbyZookeeper《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn4.1.2HBase简介关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?•Hadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于HadoopMapReduce编程框架的高延迟数据处理机

7、制,使得Hadoop无法满足大规模数据实时处理应用的需求•HDFS面向批量访问模式,不是随机访问模式•传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好解决)•传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间•因此,业界出现了一类面向半结构化数据存储和处理的高可扩展、低写入/查询延迟的系统,例如,键值数据库、文档数据库和列族数据库(如BigTable和HBase等)•HBase已经成功应用于互联网服务领域和传统

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。