《企业级Hive实战课程》大纲_20150719

《企业级Hive实战课程》大纲_20150719

ID:33288279

大小:501.33 KB

页数:9页

时间:2019-02-23

《企业级Hive实战课程》大纲_20150719_第1页
《企业级Hive实战课程》大纲_20150719_第2页
《企业级Hive实战课程》大纲_20150719_第3页
《企业级Hive实战课程》大纲_20150719_第4页
《企业级Hive实战课程》大纲_20150719_第5页
资源描述:

《《企业级Hive实战课程》大纲_20150719》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、企业级Hive实战课程《企业级Hive实战课程》Hive市场需求Hive课程大纲第一阶段【分布式数据仓库Hive】Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,Hive将SQL语句转换为MapReduce任务进行运1实时在线上课,专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程行。其优点是学习成本低,可以通过类SQL语句快速实现统计查询,也支持实现自己的UDF函数来完成比较复杂的业务逻辑,非常适合数据仓库的统计分析。

2、Hive概述、环境搭建及入门Hive是什么、Hive与Hadoop的关系、Hive体系架构Hive与RDBMS的区别、Hive实用场景以及优缺点Hive环境搭建Hive元数据存储、Hive数据存储Hiveshell常用操作hive-ehive-fhive-vhive-ihive-SHive常见表操作Hive内部表、外部表、分区表(静态分区、动态分区)常用操作表创建数据加载数据导出内/外部表的区别以及各自在生产中的适用场景Hive常用查询操作SELECTWHEREDISTINCTJ

3、OINGROUPBYUNIONCASEWHENTHENIN/NOTIN/EXISTS/NOTEXISTS2实时在线上课,专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程Hive排序ORDERBYSORTBYDISTRIBUTEBYCLUSTERBYHive复合数据类型ARRAYMAPSTRUCTHive索引Hive编程HiveServer2/beeline使用Java操作HiveHive内置函数以及UDF编程Hive窗口和分析函数SUM/AV

4、G/MIN/MAXNTILE/ROW_NUMBER/RANK/DENSE_RANKCUME_DIST/PERCENT_RANKLAG/LEAD/FIRST_VALUE/LAST_VALUEGROUPINGSETS,GROUPING_ID,CUBE,ROLLUPHive虚拟列以及在项目中的使用INPUT__FILE__NAMEBLOCK__OFFSET__INSIDE__FILEHive常用存储格式与压缩格式行式存储VS列式存储存储格式:TextFile/SequenceFile/RCFile/ORCF

5、ile/Parquet压缩格式:gzip/bzip/snappy等如何在项目中选择合适的存储格式以及压缩格式第二阶段【Hive实战开发】3实时在线上课,专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程依据企业中常见的【日志文件】分析,使用Hive进行数据处理,把握如何设计表,运行HiveQL语句时,出现数据倾斜等问题时调优,以及如何修复HiveBug和提交。Hive常用优化策略并行执行JVM重用合理设置Mapper/Reducer个数合理利用压缩技术以及分布式缓存充

6、分利用多个job之间的共用的中间结果集执行计划深入剖析深入剖析常用的几种Join:ReduceJoin/MapJoin/SMBJoin工作原理以及各自的使用场景PPD:PredicatePushdown数据倾斜分析及常用解决方案分区的合理使用Hive实战本部分包含两个Hive的实战案例,涉及到Hive相关的绝大部分知识点,由于项目业务数据的保密性,暂不对外公布案例描述。项目实战一项目实战二Hive高级本部分将重点介绍在工作中遇到的各种真实的Hive相关的问题,如何分析、定位以及解决/修复这些问题,包括分

7、析执行计划、源码bug修复等。如何分析、跟踪、解决/修复在生产环境中遇到的问题修复问题后Hive源码编译等相关环节4实时在线上课,专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程Hive的元数据表结构详解Hive执行流程源码分析Hive如何Debug执行第三阶段【SparkSQL】2014年4月Spark发布了1.0版本,该版本中包含了SparkSQL模块,它是Spark的核心组件之一。SparkSQL是一个用于处理结构化数据的Spark组件,SparkSQL作为Shar

8、k的继任者,其主要功能之一就是方便用户访问和操作已经存在的hive表数据。由于Spark是基于内存的计算框架,使用SparkSQL之后可以将原有的hive脚本直接跑在Spark之上,大大提高运行效率。Shark本部分将讨论Shark,它作为Spark设计并开源的一款数据仓库系统,提供了分布式SQL查询引擎,并能够兼

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。