欢迎来到天天文库
浏览记录
ID:20394272
大小:664.50 KB
页数:17页
时间:2018-10-13
《分布式数据库期中作业说明》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、厦门大学林子雨编著《大数据技术原理与应用》进阶学习自学教程Spark快速入门指南–Spark安装与基础使用主讲教师:林子雨厦门大学数据库实验室二零一六年一月目录目录目录1前言12准备工作13安装Spark14运行Spark示例25通过SparkShell进行交互分析35.1基础操作45.2RDD的更多操作55.3缓存66SparkSQL和DataFrames67SparkStreaming88独立应用程序(Self-ContainedApplication)98.1应用程序代码98.2安装sbt108.3使用sbt打包Scala程序128.4通过spark-submi
2、t运行程序139进阶学习13附录1:任课教师介绍13附录2:课程教材介绍14附录3:中国高校大数据课程公共服务平台介绍15厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用主讲教师:林子雨http://www.cs.xmu.edu.cn/linziyu第17页厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用《大数据技术原理与应用》Spark快速入门指南–Spark安装与基础使用主讲教师:林子雨E-mail:ziyulin@xmu.edu.cn个人主页:ht
3、tp://www.cs.xmu.edu.cn/linziyu1前言ApacheSpark是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark正如其名,最大的特点就是快(Lightning-fast),可比HadoopMapReduce的处理速度快100倍。此外,Spark提供了简单易用的API,几行代码就能实现WordCount。本教程主要参考官网快速入门教程,介绍了Spark的安装,Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用。本教程的具体运行环境如下:lCentOS6.4lSpark1.6lHadoop2.
4、6.0lJavaJDK1.7lScala2.10.52准备工作运行Spark需要JavaJDK1.7,CentOS6.x系统默认只安装了JavaJRE,还需要安装JavaJDK,并配置好JAVA_HOME变量。此外,Spark会用到HDFS与YARN,因此请先安装Hadoop,具体请浏览Hadoop安装教程,在此就不再复述。3安装Spark待Hadoop安装好之后,我们再开始安装Spark。官网下载地址:http://spark.apache.org/downloads.html本教程选择的是Spark1.6.0版本,选择packagetype为“Pre-buildw
5、ithuser-providedHadoop[canusewithmostHadoopdistributions]”,再点击给出的下载连接http://www.apache.org/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz就可以下载了,如下图所示:主讲教师:林子雨http://www.cs.xmu.edu.cn/linziyu第17页厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用PackagetypelSourcec
6、ode:Spark源码,需要编译才能使用,另外Scala2.11需要使用源码编译才可使用lPre-buildwithuser-providedHadoop:“Hadoopfree”版,可应用到任意Hadoop版本lPre-buildforHadoop2.6andlater:基于Hadoop2.6的预先编译版,需要与本机安装的Hadoop版本对应。可选的还有Hadoop2.4andlater、Hadoop2.3、Hadoop1.x,以及CDH4。为方便,本教程选择的是Pre-buildwithuser-providedHadoop,简单配置后可应用到任意Hadoop版本
7、。下载后,执行如下命令进行安装:sudotar-zxf~/下载/spark-1.6.0-bin-without-hadoop.tgz-C/usr/local/cd/usr/localsudomv./spark-1.6.0-bin-without-hadoop/./sparksudochown-Rhadoop:hadoop./spark#此处的hadoop为你的用户名安装后,需要在./conf/spark-env.sh中修改Spark的Classpath,执行如下命令拷贝一个配置文件:cd/usr/local/sparkcp./conf/spark-e
此文档下载收益归作者所有