`

spark安装步骤

 
阅读更多

1. 安装JDK7

1.1 解压 tar -xvf jdk-7u79-linux-x64.tar 

1.2 配置环境变量  vi .bash_profile

export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79

export PATH=$JAVA_HOME/bin:$PATH

2.安装HDFS

2.1 解压 tar -zxvf hadoop-2.7.0.tar.gz 

2.2 编辑 hadoop-env.sh

export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79  

2.3 修改配置文件 core-site.xml 

  <configuration>

   <property>

       <name>hadoop.tmp.dir</name>

       <value>file:/home/spark0/temp/hadoop</value>

       <description>Abase for other temporary directories.</description>

   </property>

   <property>

       <name>fs.defaultFS</name>

       <value>hdfs://supportsit1.core.sfp.com:9000</value>

   </property>

</configuration>

2.4 修改配置文件 hdfs-site.xml:

<configuration>

<property>

   <name>dfs.namenode.secondary.http-address</name>

   <value>supportsit1.core.sfp.com:50090</value>

</property>

   <property>

       <name>dfs.replication</name>

       <value>2</value>

   </property>

   <property>

       <name>dfs.namenode.name.dir</name>

       <value>file:/home/spark0/temp/hadoop/dfs/name</value>

   </property>

   <property>

       <name>dfs.datanode.data.dir</name>

       <value>file:/home/spark0/temp/hadoop/dfs/data</value>

   </property>

</configuration>

2.5 配置slaves

hadoop70

supportsit1.core.sfp.com

2.6 复制文件到slaves

scp jdk-7u79-linux-x64.tar hadoop70:/home/spark0/soft

tar -zcf ./hadoop-2.7.0.slave.tar.gz ./hadoop-2.7.0

scp ./hadoop-2.7.0.slave.tar.gz spark0@hadoop70:/home/spark0/soft

2.7 Slaves解压安装jdk和hadoop

2.8 执行namenode的格式化

bin/hdfs namenode -format

2.9 启动hdfs

sbin/start-dfs.sh

2.10 查看JPS

2.11 创建目录

./hdfs dfs -mkdir -p /spark/temp

2.12 放一个文件

./hdfs dfs -put ~/test1 /spark/temp/

3.安装SPARK的Standalone

3.1 解压 tar -xvf spark-1.4.1-bin-hadoop2.6.tgz 

3.2 配置 slaves

加入 supportsit1.core.sfp.com

hadoop70

3.3 配置 spark-env

3.4 配置 spark-defaults.conf

3.5 复制文件到slaves

tar -zcf ./spark-1.4.1-bin-hadoop2.6.slave.tgz ./spark-1.4.1-bin-hadoop2.6

scp ./spark-1.4.1-bin-hadoop2.6.slave.tgz spark0@hadoop70:/home/spark0/soft

3.6 启动sbin/start-master.sh  sbin/start-slaves.sh

 

val fileRdd = sc.textFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/analyData.text");

 

val express_indexpage = fileRdd.filter(_.contains("EXPRESS= FUNID=INDEXPAGE"))

val express_CHECKPRICE = fileRdd.filter(_.contains("EXPRESS= FUNID=CHECKPRICE"))

val express_CONFIRM = fileRdd.filter(_.contains("EXPRESS= FUNID=CONFIRM"))

 

val charge_indexpage = fileRdd.filter(_.contains("CHARGE= FUNID=INDEXPAGE"))

val charge_CHECKPRICE = fileRdd.filter(_.contains("CHARGE= FUNID=CHECKPRICE"))

val charge_CONFIRM = fileRdd.filter(_.contains("CHARGE= FUNID=CONFIRM"))

 

val sfbest_indexpage = fileRdd.filter(_.contains("SFBEST= FUNID=INDEXPAGE"))

val sfbest_load = fileRdd.filter(_.contains("LOAD"))

val sfbest_confirm = fileRdd.filter(_.contains("SFBEST= FUNID=CONFIRM"))

 

val sfbest = fileRdd.filter( line => (line.contains("SFBEST= FUNID=INDEXPAGE") ||  line.contains("LOAD") ))

val sfbestmap = sfbest.map( line=> (line.split("=")(9),line.split("=")(3).toLong  ) )

val sfbestreduce = sfbestmap.reduceByKey(_-_)

sfbestreduce.saveAsTextFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/test9")

 

分享到:
评论

相关推荐

    spark安装步骤详解

    spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解;spark安装步骤详解

    hadoop,spark安装详细步骤

    这是我在centos7上安装hadoop单机版,和spark单机版的详细步骤,全是我自己确定能用才写好的笔记,还有一些centos7的操作,如NFS共享文件,ssh无秘登陆的详细步骤,全都做好了详细的笔记,且保证能用的。

    完整的spark安装指南(带图)

    完整的spark安装指南,包含shell命令和步骤图片。

    spark安装与搭建包

    spark安装与搭建包,文件夹有spark-3.0.3-bin-hadoop2.7 (支持hadoop3.2以下),spark搭建步骤和spark课件。

    hadoop 组件详细安装步骤

    大数据组件 详细安装步骤(linux配置 hadoop集群搭建 hive flume kafka spark zk 搭建安装)

    Hadoop与Spark安装配置手册

    本文档详细说明了在Linux环境下,hadoop与spark安装与配置的每一个步骤。

    Spark安装和使用

    如果你的计算机上已经安装了Hadoop,本步骤可以略过。这里假设没有安装。如果没有安装Hadoop,请访问Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04,依照教程学习安装即可。注意,在这个Hadoop安装教程...

    第三章Spark的安装及运行

    第三章Spark的安装及运行,内容描述了spark的安装步骤及客户端运行,已经scala的安装与运行,在Hadoop Yarn上运行spark-shell的步骤及执行环境,为后续建立基础。

    Windows下安装spark-hadoop步骤

    spark安装与配置; hadoop安装与配置; IDEA的安装与配置 版本说明 jdk:1.8 spark:2.4.5 hadoop:2.7.1 我把的安装软件的放到云盘了,链接:https://pan.baidu.com/s/1SLdfe40SZx9FjRl_09_beQ  提取码:tp7p...

    Spark3.1.2 Docker镜像资源

    步骤一:docker build -t registry/spark:3.1.2 -f kubernetes/dockerfiles/spark/Dockerfile . 步骤二:docker images查看镜像 步骤三:导出镜像 docker save -o spark3.1.2.tar registry/spark:3.1.2

    Spark从入门到精通

    Spark安装配置,以及Spark三种运行方式,Spark原理,Spark案例、spark项目分析步骤全部涵盖

    spark集群安装

    spark集群安装,总结的非常详细,具体步骤都有截图,照着做没问题

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    1、内容概要:Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南(详细搭建步骤+实践过程问题总结)。 2、适合人群:大数据运维、大数据相关技术及组件初学者。 3、...

    idea远程调试spark的步骤讲解

    今天小编就为大家分享一篇关于idea远程调试spark的步骤讲解,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

    CM5.12.1安装spark2.2.0cloudera2详细过程(附截图)

    cm5.12.1 spark2.2.0 安装文档,详细记录过程中每个步骤截图

    spark集群搭建超详细

    针对新手,因本人也是新手,耗费10天完成,详细到每一个步骤

    Spark-Core-Configuration:使用 Windows 配置 Spark Core 的步骤。 可用于任何 Spark Core 相关项目

    和 Spark 文档中的不同位置也描述了此处的步骤。 您应该始终参考 Spark 文档以获取最新说明。 您可以在找到它们安装适用于 Windows 的 Spark Core USB 驱动程序安装 Node.js 安装 Spark-CLI 创建一个 Spark Build ...

    spark streaming实时网站分析项目实战.rar

    操作步骤: 一.数据采集:视频网站访问日志(编辑python脚本) 1.Python日志产生器开发URL ,ip信息,状态码,时间等 2.python日志产生器测试并将日志写入到文件中 3.通过定时调度工具每一分钟产生一批数据 4.使用...

    spark yarn模式的搭建.docx

    3、Hadoop2.0 HA集群搭建步骤介绍; 4、Spark On Yarn搭建介绍; 5、集群启动介绍; 最新最全的java培训视频教程,供大家学习与技术分享。下载链接: 百度网盘链接:https://pan.baidu.com/s/133mIoFlCCmTDxxkb7RJ1Og ...

    CHD升级spark2.X文档.docx

    CDH升级spark2.X文档,安装步骤,详细命令,以及测试方法

Global site tag (gtag.js) - Google Analytics