spark程序大致有如下运行模式:
standalone模式:spark自带的模式
spark on yarn:利用hadoop yarn来做集群的资源管理
local模式:主要在测试的时候使用,
这三个模式先大致了解,目前我用到的就是local和yarn。其中,我们写spark程序,一般在idea上写,若每次都要将程序打包,再上传到集群,再运行,将严重影响我们效率,所以在调试代码的时候,一般用local模式,在windows的idea上直接操作。
环境配置步骤如下:只做简要说明,各个步骤的具体安装可自行百度
1、jdk安装,基础环境
2、hadoop安装,spark要用到hadoop的windows的本地hdfs库,若不安装报如下错误:
hadoop具体安装步骤:(1)先拷贝hadoop的tar.gz安装包,也就是安装到linux上的那个安装包,解压即可.
(2)去github下载https://github.com/srccodes/hadoop-common-2.2.0-bin,这个里面就是winutils,编译包
(3)将common包解压,将bin下的所有文件拷贝到hadoop安装目录下的bin里,重复的文件覆盖。
(4)配置HADOOP_HOME和CLASSPATH,其中classpath指定winutils的具体位置。
3、idea安装scala插件
开始你的windows本地调试之旅吧