hiveonspark安装配置详解

hiveonspark安装配置详解

ID:8809401

大小:732.05 KB

页数:14页

时间:2018-04-08

hiveonspark安装配置详解_第1页
hiveonspark安装配置详解_第2页
hiveonspark安装配置详解_第3页
hiveonspark安装配置详解_第4页
hiveonspark安装配置详解_第5页
资源描述:

《hiveonspark安装配置详解》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、HiveonSpark安装配置详解本文章来自于阿里云云栖社区摘要: 本文主要记录如何安装配置HiveonSpark,并列举遇到的坑及解决办法。可进入我的博客(原文链接:http://linbingdong.com/2016/10/10/Hive%20on%20Spark%E5%AE%89%E8%A3%85%E9%85%8D%E7%BD%AE%E8%AF%A6%E8%A7%A3/?spm=5176.100239.blogcont72228.9.Qn7zSh)查看原文。简介本文主要记录如何安装配置HiveonSpark,在执行以下步骤之前,请先确保已经安

2、装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。背景Hive默认使用MapReduce作为执行引擎,即Hiveonmr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为HiveonTez和HiveonSpark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。因此,HiveonSpark也会比Hiveonmr快。为了对比HiveonSpark和Hiveonmr的速度,需要在已经安装了Hadoop集群的机器上安装Spark集群

3、(Spark集群是建立在Hadoop集群之上的,也就是需要先装Hadoop集群,再装Spark集群,因为Spark用了Hadoop的HDFS、YARN等),然后把Hive的执行引擎设置为Spark。Spark运行模式分为三种1、SparkonYARN2、StandaloneMode3、SparkonMesos。HiveonSpark默认支持SparkonYARN模式,因此我们选择SparkonYARN模式。SparkonYARN就是使用YARN作为Spark的资源管理器。分为Cluster和Client两种模式。一、环境说明本教程Hadoop相关软件

4、全部基于CDH5.5.1,用yum安装,系统环境如下:·操作系统:CentOS7.2·Hadoop2.6.0·Hive1.1.0·Spark1.5.0·MySQL5.6·JDK1.8·Maven3.3.3·Scala2.10各节点规划如下:192.168.117.51Goblin01nn1jn1rm1workermasterhivemetastoremysql192.168.117.52Goblin02zk2nn2jn2rm2workerhive192.168.117.53Goblin03zk3dn1jn3workerhive192.168.117.

5、54Goblin04zk4dn2workerhive说明:Goblin01~04是每台机器的hostname,zk代表zookeeper,nn代表hadoop的namenode,dn代表datanode,jn代表journalnode,rm代表resourcemanager,worker代表Spark的slaves,master代表Spark的master二、编译和安装Spark(SparkonYARN)2.1编译Spark源码要使用HiveonSpark,所用的Spark版本必须不包含Hive的相关jar包,hiveonspark的官网上说“Not

6、ethatyoumusthaveaversionofSparkwhichdoesnotincludetheHivejars”。在spark官网下载的编译的Spark都是有集成Hive的,因此需要自己下载源码来编译,并且编译的时候不指定Hive。我们这里用的Spark源码是spark-1.5.0-cdh5.5.1版本,下载地址如下:http://archive.cloudera.com/cdh5/cdh/5/spark-1.5.0-cdh5.5.1-src.tar.gz下载完后用tarxzvf命令解压,进入解压完的文件夹,准备编译。注意:编译前请确保已

7、经安装JDK、Maven和Scala,maven为3.3.3及以上版本,并在/etc/profile里配置环境变量。命令行进入在源码根目录下,执行./make-distribution.sh--name"hadoop2-without-hive"--tgz"-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided"若编译过程出现内存不足的情况,需要在运行编译命令之前先运行:exportMAVEN_OPTS="-Xmx2g-XX:MaxPermSize=512M-XX:ReservedCodeCacheSiz

8、e=512m"来设置Maven的内存。编译过程由于要下载很多Maven依赖的jar包,需要时间较长(大概一两

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。