分布式数据库期中作业说明

ID：20394272

大小：664.50 KB

页数：17页

时间：2018-10-13

资源描述：

《分布式数据库期中作业说明》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、厦门大学林子雨编著《大数据技术原理与应用》进阶学习自学教程Spark快速入门指南–Spark安装与基础使用主讲教师：林子雨厦门大学数据库实验室二零一六年一月目录目录目录1前言12准备工作13安装Spark14运行Spark示例25通过SparkShell进行交互分析35.1基础操作45.2RDD的更多操作55.3缓存66SparkSQL和DataFrames67SparkStreaming88独立应用程序（Self-ContainedApplication）98.1应用程序代码98.2安装sbt108.3使用sbt打包Scala程序128.4通过spark-submi

2、t运行程序139进阶学习13附录1:任课教师介绍13附录2：课程教材介绍14附录3：中国高校大数据课程公共服务平台介绍15厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用主讲教师：林子雨http://www.cs.xmu.edu.cn/linziyu第17页厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用《大数据技术原理与应用》Spark快速入门指南–Spark安装与基础使用主讲教师：林子雨E-mail:ziyulin@xmu.edu.cn个人主页：ht

3、tp://www.cs.xmu.edu.cn/linziyu1前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark正如其名，最大的特点就是快（Lightning-fast），可比HadoopMapReduce的处理速度快100倍。此外，Spark提供了简单易用的API，几行代码就能实现WordCount。本教程主要参考官网快速入门教程，介绍了Spark的安装，Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用。本教程的具体运行环境如下：lCentOS6.4lSpark1.6lHadoop2.

4、6.0lJavaJDK1.7lScala2.10.52准备工作运行Spark需要JavaJDK1.7，CentOS6.x系统默认只安装了JavaJRE，还需要安装JavaJDK，并配置好JAVA_HOME变量。此外，Spark会用到HDFS与YARN，因此请先安装Hadoop，具体请浏览Hadoop安装教程，在此就不再复述。3安装Spark待Hadoop安装好之后，我们再开始安装Spark。官网下载地址：http://spark.apache.org/downloads.html本教程选择的是Spark1.6.0版本，选择packagetype为“Pre-buildw

5、ithuser-providedHadoop[canusewithmostHadoopdistributions]”，再点击给出的下载连接http://www.apache.org/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz就可以下载了，如下图所示：主讲教师：林子雨http://www.cs.xmu.edu.cn/linziyu第17页厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习Spark快速入门指南–Spark安装与基础使用PackagetypelSourcec

6、ode:Spark源码，需要编译才能使用，另外Scala2.11需要使用源码编译才可使用lPre-buildwithuser-providedHadoop:“Hadoopfree”版，可应用到任意Hadoop版本lPre-buildforHadoop2.6andlater:基于Hadoop2.6的预先编译版，需要与本机安装的Hadoop版本对应。可选的还有Hadoop2.4andlater、Hadoop2.3、Hadoop1.x，以及CDH4。为方便，本教程选择的是Pre-buildwithuser-providedHadoop，简单配置后可应用到任意Hadoop版本

7、。下载后，执行如下命令进行安装：sudotar-zxf~/下载/spark-1.6.0-bin-without-hadoop.tgz-C/usr/local/cd/usr/localsudomv./spark-1.6.0-bin-without-hadoop/./sparksudochown-Rhadoop:hadoop./spark#此处的hadoop为你的用户名安装后，需要在./conf/spark-env.sh中修改Spark的Classpath，执行如下命令拷贝一个配置文件：cd/usr/local/sparkcp./conf/spark-e

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 17



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

分布式数据库期中作业说明

分布式数据库期中作业说明

相关文章

相关标签