《企业级Hive实战课程》大纲_20150719

ID：33288279

大小：501.33 KB

页数：9页

时间：2019-02-23

资源描述：

《《企业级Hive实战课程》大纲_20150719》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、企业级Hive实战课程《企业级Hive实战课程》Hive市场需求Hive课程大纲第一阶段【分布式数据仓库Hive】Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，Hive将SQL语句转换为MapReduce任务进行运1实时在线上课，专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程行。其优点是学习成本低，可以通过类SQL语句快速实现统计查询，也支持实现自己的UDF函数来完成比较复杂的业务逻辑，非常适合数据仓库的统计分析。

2、Hive概述、环境搭建及入门Hive是什么、Hive与Hadoop的关系、Hive体系架构Hive与RDBMS的区别、Hive实用场景以及优缺点Hive环境搭建Hive元数据存储、Hive数据存储Hiveshell常用操作hive-ehive-fhive-vhive-ihive-SHive常见表操作Hive内部表、外部表、分区表（静态分区、动态分区）常用操作表创建数据加载数据导出内/外部表的区别以及各自在生产中的适用场景Hive常用查询操作SELECTWHEREDISTINCTJ

3、OINGROUPBYUNIONCASEWHENTHENIN/NOTIN/EXISTS/NOTEXISTS2实时在线上课，专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程Hive排序ORDERBYSORTBYDISTRIBUTEBYCLUSTERBYHive复合数据类型ARRAYMAPSTRUCTHive索引Hive编程HiveServer2/beeline使用Java操作HiveHive内置函数以及UDF编程Hive窗口和分析函数SUM/AV

4、G/MIN/MAXNTILE/ROW_NUMBER/RANK/DENSE_RANKCUME_DIST/PERCENT_RANKLAG/LEAD/FIRST_VALUE/LAST_VALUEGROUPINGSETS,GROUPING_ID,CUBE,ROLLUPHive虚拟列以及在项目中的使用INPUT__FILE__NAMEBLOCK__OFFSET__INSIDE__FILEHive常用存储格式与压缩格式行式存储VS列式存储存储格式：TextFile/SequenceFile/RCFile/ORCF

5、ile/Parquet压缩格式：gzip/bzip/snappy等如何在项目中选择合适的存储格式以及压缩格式第二阶段【Hive实战开发】3实时在线上课，专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程依据企业中常见的【日志文件】分析，使用Hive进行数据处理，把握如何设计表，运行HiveQL语句时，出现数据倾斜等问题时调优，以及如何修复HiveBug和提交。Hive常用优化策略并行执行JVM重用合理设置Mapper/Reducer个数合理利用压缩技术以及分布式缓存充

6、分利用多个job之间的共用的中间结果集执行计划深入剖析深入剖析常用的几种Join：ReduceJoin/MapJoin/SMBJoin工作原理以及各自的使用场景PPD：PredicatePushdown数据倾斜分析及常用解决方案分区的合理使用Hive实战本部分包含两个Hive的实战案例，涉及到Hive相关的绝大部分知识点，由于项目业务数据的保密性，暂不对外公布案例描述。项目实战一项目实战二Hive高级本部分将重点介绍在工作中遇到的各种真实的Hive相关的问题，如何分析、定位以及解决/修复这些问题，包括分

7、析执行计划、源码bug修复等。如何分析、跟踪、解决/修复在生产环境中遇到的问题修复问题后Hive源码编译等相关环节4实时在线上课，专业课程辅导http://www.cloudyhadoop.com企业级Hive实战课程Hive的元数据表结构详解Hive执行流程源码分析Hive如何Debug执行第三阶段【SparkSQL】2014年4月Spark发布了1.0版本，该版本中包含了SparkSQL模块，它是Spark的核心组件之一。SparkSQL是一个用于处理结构化数据的Spark组件，SparkSQL作为Shar

8、k的继任者，其主要功能之一就是方便用户访问和操作已经存在的hive表数据。由于Spark是基于内存的计算框架，使用SparkSQL之后可以将原有的hive脚本直接跑在Spark之上，大大提高运行效率。Shark本部分将讨论Shark，它作为Spark设计并开源的一款数据仓库系统，提供了分布式SQL查询引擎，并能够兼

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

《企业级Hive实战课程》大纲_20150719

《企业级Hive实战课程》大纲_20150719

相关文章

相关标签