分布式数据库期中作业说明

分布式数据库期中作业说明

ID:20394272

大小:664.50 KB

页数:17页

时间:2018-10-13

分布式数据库期中作业说明_第1页
分布式数据库期中作业说明_第2页
分布式数据库期中作业说明_第3页
分布式数据库期中作业说明_第4页
分布式数据库期中作业说明_第5页
资源描述:

《分布式数据库期中作业说明》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学林子雨编著《大数据技术原理与应用》进阶学习自学教程Spark快速入门指南–Spark安装与基础使用主讲教师:林子雨厦门大学数据库实验室二零一六年一月目录目录目录1前言12准备工作13安装Spark14运行Spark示例25通过SparkShell进行交互分析35.1基础操作45.2RDD的更多操作55.3缓存66SparkSQL和DataFrames67SparkStreaming88独立应用程序(Self-ContainedApplication)98.1应用程序代码98.2安装sbt108.3使用sbt打包Scala程序128.4通过spark-submi

2、t运行程序139进阶学习13附录1:任课教师介绍13附录2:课程教材介绍14附录3:中国高校大数据课程公共服务平台介绍15厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用主讲教师:林子雨http://www.cs.xmu.edu.cn/linziyu第17页厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用《大数据技术原理与应用》Spark快速入门指南–Spark安装与基础使用主讲教师:林子雨E-mail:ziyulin@xmu.edu.cn个人主页:ht

3、tp://www.cs.xmu.edu.cn/linziyu1前言ApacheSpark是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark正如其名,最大的特点就是快(Lightning-fast),可比HadoopMapReduce的处理速度快100倍。此外,Spark提供了简单易用的API,几行代码就能实现WordCount。本教程主要参考官网快速入门教程,介绍了Spark的安装,Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用。本教程的具体运行环境如下:lCentOS6.4lSpark1.6lHadoop2.

4、6.0lJavaJDK1.7lScala2.10.52准备工作运行Spark需要JavaJDK1.7,CentOS6.x系统默认只安装了JavaJRE,还需要安装JavaJDK,并配置好JAVA_HOME变量。此外,Spark会用到HDFS与YARN,因此请先安装Hadoop,具体请浏览Hadoop安装教程,在此就不再复述。3安装Spark待Hadoop安装好之后,我们再开始安装Spark。官网下载地址:http://spark.apache.org/downloads.html本教程选择的是Spark1.6.0版本,选择packagetype为“Pre-buildw

5、ithuser-providedHadoop[canusewithmostHadoopdistributions]”,再点击给出的下载连接http://www.apache.org/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz就可以下载了,如下图所示:主讲教师:林子雨http://www.cs.xmu.edu.cn/linziyu第17页厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用PackagetypelSourcec

6、ode:Spark源码,需要编译才能使用,另外Scala2.11需要使用源码编译才可使用lPre-buildwithuser-providedHadoop:“Hadoopfree”版,可应用到任意Hadoop版本lPre-buildforHadoop2.6andlater:基于Hadoop2.6的预先编译版,需要与本机安装的Hadoop版本对应。可选的还有Hadoop2.4andlater、Hadoop2.3、Hadoop1.x,以及CDH4。为方便,本教程选择的是Pre-buildwithuser-providedHadoop,简单配置后可应用到任意Hadoop版本

7、。下载后,执行如下命令进行安装:sudotar-zxf~/下载/spark-1.6.0-bin-without-hadoop.tgz-C/usr/local/cd/usr/localsudomv./spark-1.6.0-bin-without-hadoop/./sparksudochown-Rhadoop:hadoop./spark#此处的hadoop为你的用户名安装后,需要在./conf/spark-env.sh中修改Spark的Classpath,执行如下命令拷贝一个配置文件:cd/usr/local/sparkcp./conf/spark-e

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。