1. 安装JDK7
1.1 解压 tar -xvf jdk-7u79-linux-x64.tar
1.2 配置环境变量 vi .bash_profile
export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
2.安装HDFS
2.1 解压 tar -zxvf hadoop-2.7.0.tar.gz
2.2 编辑 hadoop-env.sh
export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79
2.3 修改配置文件 core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/spark0/temp/hadoop</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://supportsit1.core.sfp.com:9000</value>
</property>
</configuration>
2.4 修改配置文件 hdfs-site.xml:
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>supportsit1.core.sfp.com:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/spark0/temp/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/spark0/temp/hadoop/dfs/data</value>
</property>
</configuration>
2.5 配置slaves
hadoop70
supportsit1.core.sfp.com
2.6 复制文件到slaves
scp jdk-7u79-linux-x64.tar hadoop70:/home/spark0/soft
tar -zcf ./hadoop-2.7.0.slave.tar.gz ./hadoop-2.7.0
scp ./hadoop-2.7.0.slave.tar.gz spark0@hadoop70:/home/spark0/soft
2.7 Slaves解压安装jdk和hadoop
2.8 执行namenode的格式化
bin/hdfs namenode -format
2.9 启动hdfs
sbin/start-dfs.sh
2.10 查看JPS
2.11 创建目录
./hdfs dfs -mkdir -p /spark/temp
2.12 放一个文件
./hdfs dfs -put ~/test1 /spark/temp/
3.安装SPARK的Standalone
3.1 解压 tar -xvf spark-1.4.1-bin-hadoop2.6.tgz
3.2 配置 slaves
加入 supportsit1.core.sfp.com
hadoop70
3.3 配置 spark-env
3.4 配置 spark-defaults.conf
3.5 复制文件到slaves
tar -zcf ./spark-1.4.1-bin-hadoop2.6.slave.tgz ./spark-1.4.1-bin-hadoop2.6
scp ./spark-1.4.1-bin-hadoop2.6.slave.tgz spark0@hadoop70:/home/spark0/soft
3.6 启动sbin/start-master.sh sbin/start-slaves.sh
val fileRdd = sc.textFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/analyData.text");
val express_indexpage = fileRdd.filter(_.contains("EXPRESS= FUNID=INDEXPAGE"))
val express_CHECKPRICE = fileRdd.filter(_.contains("EXPRESS= FUNID=CHECKPRICE"))
val express_CONFIRM = fileRdd.filter(_.contains("EXPRESS= FUNID=CONFIRM"))
val charge_indexpage = fileRdd.filter(_.contains("CHARGE= FUNID=INDEXPAGE"))
val charge_CHECKPRICE = fileRdd.filter(_.contains("CHARGE= FUNID=CHECKPRICE"))
val charge_CONFIRM = fileRdd.filter(_.contains("CHARGE= FUNID=CONFIRM"))
val sfbest_indexpage = fileRdd.filter(_.contains("SFBEST= FUNID=INDEXPAGE"))
val sfbest_load = fileRdd.filter(_.contains("LOAD"))
val sfbest_confirm = fileRdd.filter(_.contains("SFBEST= FUNID=CONFIRM"))
val sfbest = fileRdd.filter( line => (line.contains("SFBEST= FUNID=INDEXPAGE") || line.contains("LOAD") ))
val sfbestmap = sfbest.map( line=> (line.split("=")(9),line.split("=")(3).toLong ) )
val sfbestreduce = sfbestmap.reduceByKey(_-_)
sfbestreduce.saveAsTextFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/test9")
相关推荐
spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解
这是我在centos7上安装hadoop单机版,和spark单机版的详细步骤,全是我自己确定能用才写好的笔记,还有一些centos7的操作,如NFS共享文件,ssh无秘登陆的详细步骤,全都做好了详细的笔记,且保证能用的。
完整的spark安装指南,包含shell命令和步骤图片。
spark安装与搭建包,文件夹有spark-3.0.3-bin-hadoop2.7 (支持hadoop3.2以下),spark搭建步骤和spark课件。
大数据组件 详细安装步骤(linux配置 hadoop集群搭建 hive flume kafka spark zk 搭建安装)
本文档详细说明了在Linux环境下,hadoop与spark安装与配置的每一个步骤。
如果你的计算机上已经安装了Hadoop,本步骤可以略过。这里假设没有安装。如果没有安装Hadoop,请访问Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04,依照教程学习安装即可。注意,在这个Hadoop安装教程...
第三章Spark的安装及运行,内容描述了spark的安装步骤及客户端运行,已经scala的安装与运行,在Hadoop Yarn上运行spark-shell的步骤及执行环境,为后续建立基础。
spark安装与配置; hadoop安装与配置; IDEA的安装与配置 版本说明 jdk:1.8 spark:2.4.5 hadoop:2.7.1 我把的安装软件的放到云盘了,链接:https://pan.baidu.com/s/1SLdfe40SZx9FjRl_09_beQ 提取码:tp7p...
步骤一:docker build -t registry/spark:3.1.2 -f kubernetes/dockerfiles/spark/Dockerfile . 步骤二:docker images查看镜像 步骤三:导出镜像 docker save -o spark3.1.2.tar registry/spark:3.1.2
Spark安装配置,以及Spark三种运行方式,Spark原理,Spark案例、spark项目分析步骤全部涵盖
spark集群安装,总结的非常详细,具体步骤都有截图,照着做没问题
1、内容概要:Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南(详细搭建步骤+实践过程问题总结)。 2、适合人群:大数据运维、大数据相关技术及组件初学者。 3、...
今天小编就为大家分享一篇关于idea远程调试spark的步骤讲解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
cm5.12.1 spark2.2.0 安装文档,详细记录过程中每个步骤截图
针对新手,因本人也是新手,耗费10天完成,详细到每一个步骤
和 Spark 文档中的不同位置也描述了此处的步骤。 您应该始终参考 Spark 文档以获取最新说明。 您可以在找到它们安装适用于 Windows 的 Spark Core USB 驱动程序安装 Node.js 安装 Spark-CLI 创建一个 Spark Build ...
操作步骤: 一.数据采集:视频网站访问日志(编辑python脚本) 1.Python日志产生器开发URL ,ip信息,状态码,时间等 2.python日志产生器测试并将日志写入到文件中 3.通过定时调度工具每一分钟产生一批数据 4.使用...
3、Hadoop2.0 HA集群搭建步骤介绍; 4、Spark On Yarn搭建介绍; 5、集群启动介绍; 最新最全的java培训视频教程,供大家学习与技术分享。下载链接: 百度网盘链接:https://pan.baidu.com/s/133mIoFlCCmTDxxkb7RJ1Og ...
CDH升级spark2.X文档,安装步骤,详细命令,以及测试方法