大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBas

2019-11-08 作者:www.243.net   |   浏览(143)

4,启动hbase

在成功运行Hadoop、zookeeper之后
切换到HBase目录下

cd /opt/hbase/hbase1.2/bin

输入:

start-hbase.sh

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解。起步成功今后,能够接纳jps命令在风度翩翩一机器上查看是还是不是成功
能够在浏览器输入: ip+16010 端口查看
图片 1

若成功呈现该分界面,则运营成功。

6,全体情状变量设置

在 /etc/profile 那一个布局文件要丰裕相当多的条件安插,这里就先将全体的际遇安排列举出来,各位在安插境遇变量的以相好的为准!!! 能够先配备好情况变量之后,在传输到别的机器上去。
本人这里先将那一个布署都传输到其它的机械上了,而且都source了,所以下文中那么些布局文件的操作实际是没做的。具体意况以自个儿的为准。

#Java Config
export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
# Scala Config
export SCALA_HOME=/opt/scala/scala2.12
# Spark Config
export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive
# Zookeeper Config
export ZK_HOME=/opt/zookeeper/zookeeper3.4
# HBase Config
export HBASE_HOME=/opt/hbase/hbase1.2
# Hadoop Config 
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
# Hive Config
export HIVE_HOME=/opt/hive/hive2.1
export HIVE_CONF_DIR=${HIVE_HOME}/conf

export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:$PATH
3.2.3.2 修改 hadoop-env.sh

这一个要做,不精晓干什么相对路线不识别,于是就利用相对路径。

export   JAVA_HOME=${JAVA_HOME}

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解。修改为:

export   JAVA_HOME=/opt/java/jdk1.8

注:改正为团结JDK的路径
图片 2

2,配置表明

  • JDK :Hadoop和斯Parker 信任的配备,官方建议JDK版本在1.7之上!!!
  • Scala:斯Parker正视的布局,提议版本不低于spark的版本。
  • Hadoop: 是多少个分布式系统功底架构。
  • 斯Parker: 布满式存款和储蓄的大数量实行拍卖的工具。
  • zookeeper:布满式应用程序和谐服务,HBase集群供给。
  • HBase: 二个结构化数据的分布式存款和储蓄系统。
  • Hive: 基于Hadoop的一个数据货仓工具,最近的暗中同意元数据库是mysql。

2,情状布置

编辑 /etc/profile 文件
输入:

export HBASE_HOME=/opt/hbase/hbase1.2
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解。输入
hbase version
翻看版本
图片 3

二、Hadoop的条件搭建

初期表达,那么些布置能够在生机勃勃台机械上配备,然后复制到其余机器上就能够了。复制之后注意使那一个配置文件生效。

3.2.2 境况布署

编辑 /etc/profile 文件
输入:

vim /etc/profile

添加:

export HADOOP_HOME=/opt/hadoop/hadoop2.8 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效

1,文件思虑

将下载下来的Zookeeper 的配备文件举行解压
在linux上输入:

 tar  -xvf   zookeeper-3.4.10.tar.gz

下一场移动到/opt/zookeeper里面,未有就新建,然后将文件夹重命名字为zookeeper3.4
输入

mv  zookeeper-3.4.10  /opt/zookeeper
mv  zookeeper-3.4.10  zookeeper3.4
3.5.2.5 修改yarn-site.xml文件

yarn 财富调治的配备,集群的话这一个布局是必得的。
修改/opt/hadoop/hadoop2.8/etc/hadoop/yarn-site.xml文件,
<configuration>节点内参与配置

<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
   </property>
   <property>
        <name>yarn.resourcemanager.address</name>
        <value>${yarn.resourcemanager.hostname}:8032</value>
   </property>
   <property>
        <description>The address of the scheduler interface.</description>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>${yarn.resourcemanager.hostname}:8030</value>
   </property>
   <property>
        <description>The http address of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>${yarn.resourcemanager.hostname}:8088</value>
   </property>
   <property>
        <description>The https adddress of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.https.address</name>
        <value>${yarn.resourcemanager.hostname}:8090</value>
   </property>
   <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>${yarn.resourcemanager.hostname}:8031</value>
   </property>
   <property>
        <description>The address of the RM admin interface.</description>
        <name>yarn.resourcemanager.admin.address</name>
        <value>${yarn.resourcemanager.hostname}:8033</value>
   </property>
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>
   <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>8182</value>
        <discription>每个节点可用内存,单位MB,默认8182MB</discription>
   </property>
   <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
   </property>
   <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
</property>
   <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

图片 4

说明:yarn.nodemanager.vmem-check-enabled这几个的情致是忽略虚构内部存款和储蓄器的反省,假若您是设置在设想机上,那些布局很有用,配上去之后持续操作不便于出标题。假诺是实业机上,並且内部存款和储蓄器够多,能够将那一个布局去掉。

3,防火墙关闭

说明大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解。:其实能够不停业防火墙,举办权力设置,可是为了方便访谈,于是便关闭了防火墙。每种机器都做!!!

关闭防火墙的命令
悬停防火墙:
service iptables stop
开发银行防火墙:
service iptables start
重启防火墙:
service iptables restart
世代关闭防火墙:
chkconfig iptables off

3.2.3.1 修改 core-site.xml

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解。hadoop的寄存路线能够自行转移。最初自个儿认为那个文件夹必要手动成立,后来进行了,假如不手动创立,会活动创立的,所以就去掉了手动创立目录的手续。
输入:

vim core-site.xml

<configuration>节点内走入配置:

 <configuration>
<property>
    <name>hadoop.temp.dir</name>
    <value>file:/root/hadoop/tmp</value>
  </property>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
<!-- eclipse连接hive 的配置-->
<property>
  <name>hadoop.proxyuser.root.hosts</name>
  <value>*</value>
 </property>
 <property>
  <name>hadoop.proxyuser.root.groups</name>
  <value>*</value>
</property>
</configuration>

图片 5

说明: fs.defaultFS 是缺省文书的名目, 最初接纳的是 fs.default.name,后来在新式官方文书档案中查到该方法已经弃用了。于是边改成那一个了。ps:感觉也没啥分化。

3,纠正配置文件

1,文件准备

将下载下来的HBase的布局文件举行解压
在linux上输入:

 tar  -xvf   hbase-1.2.6-bin.tar.gz

接下来移动到/opt/hbase 文件夹里面,同样保养命名称为 hbase1.2
输入

mv  hbase-1.2.6  /opt/hbase
mv  hbase1.2  /opt/hbase

4.1.1 文件准备

将下载好的Scala文件解压
输入

tar -xvf scala-2.12.2.tgz

然后移动到/opt/scala 里面
还要重命名叫scala2.1
输入

mv  scala-2.12.2  /opt/scala
mv scala-2.12.2 scala2.12

3,spark启动

证明:要先运行Hadoop
切换到Spark目录下
输入:

cd /opt/spark/spark2.2/sbin

然后运行斯Parker
输入:

 start-all.sh

启航成功未来,可以动用jps命令在种种机器上查看是还是不是中标。
能够在浏览器输入: ip+8080 端口查看

图片 6
若成功体现那么些分界面,则象征Spark成功运营。

1,集群机器安装图

此番因为是集群搭建,所以在条件布署方面,作者动用一张表格来大约陈诉。集群使用了3台机器,分别是master、slave1、slave2,通过名称命名就能够知道主从涉嫌了。使用的操作系统是CentOS6.8,具体各样机器安装的配置如下表格:
图片 7

切切实实每一个机器的布局就好像上海体育场面了。供给补充的是,spark那块笔者并未有行使官方自带的spark,而是利用的早就编写翻译好的spark和hive的版本。因为背后在选用hive查询的时候,不想选用hive私下认可的mr,在hive2.x现在,官方也不提议了。因为运用mr效能实在太低,所以在前边我会将hive的汽油发动机换来spark,而友好又不想再也编写翻译spark ,所以就用这几个本子了。如若各位想活动编写翻译,或然出现越来越高的本子,就没供给一定根据下边包车型地铁来。还会有贮存路径那块,没要求必须要利用方面包车型客车,能够先在机器上行使 df -h 查占星应的磁盘空间,再来进行配置。

四、斯Parker的条件安插

说明:其实spark的有关陈设,小编在大数量学习系列之六 ----- Hadoop+斯Parker意况搭建 应该早已说的很详细了,即使是单机情形。其实集群也就大增个slave配置,其他的一时好像没什么了。所以就归纳的贴下配置。

5,急迅键设置(可选)

表明:因为要时临时切换各类目录以内,所感觉了偷懒,就设置别称了。只需求在linux输入外号,就能够实施小名前边的下令,相当的谋福。 比如:大家常用的ll正是 ls -l 的别称。关于别称那块各位能够自行检索。
输入:

vim ~/.bashrc

累积上边包车型客车从头到尾的经过

# Some more ailases
alias chd='cd /opt/hadoop/hadoop2.8'
alias chb='cd /opt/hbase/hbase1.2'
alias chi='cd /opt/hive/hive2.1'
alias czk='cd /opt/zookeeper/zookeeper3.4'
alias csp='cd /opt/spark/spark2.0-hadoop2.4-hive'

alias fhadoop='/opt/hadoop/hadoop2.8/bin/hdfs namenode -format'
alias starthadoop='/opt/hadoop/hadoop2.8/sbin/start-all.sh'
alias stophadoop='/opt/hadoop/hadoop2.8/sbin/stop-all.sh'

alias starthbase='/opt/hbase/hbase1.2/bin/start-hbase.sh'
alias stophbase='/opt/hbase/hbase1.2/bin/stop-hbase.sh'

alias startzk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh start'
alias stopzk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh stop'
alias statuszk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh status'

alias startsp='/opt/spark/spark1.6-hadoop2.4-hive/sbin/start-all.sh'
alias stopsp='/opt/spark/spark1.6-hadoop2.4-hive/sbin/stop-all.sh'

图片 8

中标增加之后输入

source ~/.bashrc

接下来输入设置的小名就能够实行你所设置的内容了。小名的安装不必然非要依照上面的,纵然有越来越好措施就请使用

目录

[TOC]

4.2.2,情形布署

编辑 /etc/profile 文件
输入:

export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive 
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效

3.5.2.4 修改mapred-site.xml

实践mapreduce的运维框架配置。ps:感到这几个布局没啥用,或者自身没用mr吧。
假定未有 mapred-site.xml 该公文,就复制mapred-site.xml.template文件同仁一视命名叫mapred-site.xml。
修正那些新建的mapred-site.xml文件,在<configuration>节点内投入配置:

<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
</property>

2,Spark配置

3.2.3 修正配置文件

校订 core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml 等那个配置文件
在linux输入进去该目录的一声令下:

cd /opt/hadoop/hadoop2.8/etc/hadoop

2,hadoop配置

二、集群的相关布置

八、其他

条件搭建参谋:
条件布署参照他事他说加以考查的法定文书档案。

到此,本学科就结束了,多谢阅读!

版权评释:
作者:虚无境
腾讯网出处:
CSDN出处:    
个体博客出处:
原创不易,转载请标注出处,多谢!

1,主机名校正以至主机和IP做连锁映射

5.3.2 新建zoo.cfg

切换到/opt/zookeeper/zookeeper3.4/conf 目录下
若是未有 zoo.cfg 该文件,就复制zoo_sample.cfg文件天公地道命名叫zoo.cfg。
更正那些新建的zoo.cfg文件

dataDir=/opt/zookeeper/data
dataLogDir=/opt/zookeeper/dataLog
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

图片 9

说明:client port,看名称就能想到其意义,就是顾客端连接zookeeper服务的端口。那是一个TCP port。dataLogDir里是置于的种种日志(WAL)。而dataDir里放的是内部存款和储蓄器数据结构的snapshot,便于飞速上涨。为了达到质量最大化,经常建议把dataDir和dataLogDir分到不相同的磁盘上,那样就足以丰硕利用磁盘顺序写的特征。dataDir和dataLogDir需求协和创造,目录可以本人制定,对应就能够。server.第11中学的这几个1亟待和master这一个机器上的dataDir目录中的myid文件中的数值对应。server.第22中学的这一个2供给和slave1这一个机器上的dataDir目录中的myid文件中的数值对应。server.3中的这几个3亟需和slave2这几个机器上的dataDir目录中的myid文件中的数值对应。当然,数值你可以随意用,只要对应就能够。2888和3888的端口号也足以任由用,因为在不相同机器上,用成同样也不在意。
1.tickTime:CS通讯心跳数
Zookeeper 服务器之间或顾客端与服务器之间维持心跳的日子间距,也正是各个tickTime 时间就能够发送三个心跳。tickTime以阿秒为单位。
tickTime=2000
2.initLimit:LF开端通讯时间约束
集群中的follower服务器(F)与leader服务器(L)之间起先连接时能容忍的最多心跳数(tick提姆e的多少卡塔尔国。
initLimit=10
3.syncLimit:LF同步通讯时间限定
集群中的follower服务器与leader服务器之间诉求和回应之间能忍受的最多心跳数(tickTime的多少卡塔 尔(英语:State of Qatar)。
syncLimit=5

如故将zookeeper传输到此外的机械上,记得改良 /opt/zookeeper/data 下的myid,这么些不可能平等。
输入:

scp -r /opt/zookeeper root@slave1:/opt
scp -r /opt/zookeeper root@slave2:/opt

6.3.3 修改regionservers

点名hbase的着力,和hadoop的slaves文件配置同样
将文件改良为

slave1 
slave2

图片 10
:上面包车型地铁为集群的主机名称

在生龙活虎台机械上(最好是master)做完那么些配置之后,大家运用scp命令将这一个布署传输到任何机器上。
输入:
hbase处境传输

scp -r /opt/hbaseroot@slave1:/opt
scp -r /opt/hbase root@slave2:/opt

传输之后,便在主节点运维集群。

5.3.1 成立文件和目录

在集群的服务器上都成立这个目录

mkdir   /opt/zookeeper/data  
mkdir   /opt/zookeeper/dataLog

还要在/opt/zookeeper/data目录下创建myid文件
输入:

touch  myid

开创成功将来,改进myid文件。
本身那边为了方便,将master、slave1、slave2的myid文件内容改为1,2,3
图片 11

3.2.2.3 修改 hdfs-site.xml

下边包车型客车hdfs的存放路线,可以依据自个儿机器改善。
<configuration>节点内参与配置:

 <property>
    <name>dfs:replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/root/hadoop/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/root/hadoop/data</value>
  </property>    

图片 12

4.2.3.2 修改slaves

slaves 遍布式文件
在conf目录下,纠正slaves文件,若无 slaves 该公文,就复制slaves .template文件比量齐观命名叫slaves 。
纠正这几个新建的slaves 文件,参加配置:

slave1 
slave2

在生龙活虎台机械上(最棒是master)做完那一个配置之后,我们利用scp命令将那么些布署传输到任何机器上。
输入:
scala景况传输

scp -r /opt/scala root@slave1:/opt
scp -r /opt/scala root@slave2:/opt

spark景况传输

scp -r /opt/spark root@slave1:/opt
scp -r /opt/spark root@slave2:/opt

传输之后,便在主节点运行集群。

生机勃勃、情形采纳

3,hadoop启动

:运维hadoop此前确定保证防火墙关闭,种种机器时间经过,ssh免登入都没难点。
初始化hadoop
切换成/opt/hadoop/hadoop2.8/bin目录下输入

./hdfs  namenode  -format

开首化成功未来,切换成/opt/hadoop/hadoop2.8/sbin
启动hadoop 的hdfs和yarn
输入:

start-dfs.sh
start-yarn.sh

先是次登陆会询问是还是不是连接,输入yes ,然后输入密码就足以了
开始成功现在,能够运用jps命令在乎气风发一机器上查看是不是中标
能够在浏览器输入: ip+50070 和8088端口查看
图片 13

图片 14

若如图浮现,则运转成功。
若失利,检查jps是不是中标运行,防火墙是还是不是都关闭。都承认没难点今后,依旧不可能展开分界面,请查看日志,再来找原因。

3,改革配置文件

切换到 /opt/hbase/hbase-1.2.6/conf 下

3.2.1 文件策画

将下载下来的Hadoop的布局文件进行解压
在linux上输入:

 tar  -xvf   hadoop-2.8.2.tar.gz

然后将解压之后的文书夹移动到opt/hadoop文件夹下,未有该文件夹就新建,然后将文件夹重命名称叫hadoop2.8。
在linux上输入移动文件夹命令:

mv  hadoop-2.8.2 /opt/hadoop
mv  hadoop-2.8.2 hadoop2.8

6.3.1 修改hbase-env.sh

编辑 hbase-env.sh 文件,增添以下配置

export JAVA_HOME=/opt/java/jdk1.8
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HBASE_HOME=/opt/hbase/hbase1.2
export HBASE_CLASSPATH=/opt/hadoop/hadoop2.8/etc/hadoop
export HBASE_PID_DIR=/root/hbase/pids
export HBASE_MANAGES_ZK=false

图片 15
说明:配置的不二秘籍以和睦的为准。HBASE_MANAGES_ZK=false 是不启用HBase自带的Zookeeper集群。

3,下载地址

法定地址:
Hadoop:

Spark:

Spark Sql on Hive

Scala:

JDK:

HBase

Zookeeper

Hive

百度云:
链接: 密码:o1ov

五、Zookeeper的境况安顿

因为HBase做集群,所以就必要zookeeper了。
zookeeper 在很多条件搭建上,都会有他的身材,如kafka、storm等,这里就没多少说了。

2,情状布置

编辑 /etc/profile 文件
输入:

export  ZK_HOME=/opt/zookeeper/zookeeper3.4 
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${ZK_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效

1,Scala配置

和JDK配置差不离千篇一律

2,ssh免登录

设置ssh免密码登入是为了操作便利
浮动秘钥文件
在每台机器上都进行三遍
首先输入:

ssh-keygen -t rsa -P ''

更换秘钥之后,然后将每台机器/root/.ssh 都存入内容同样的文书,文件名叫authorized_keys,文件内容是大家刚刚为3台机器生成的公钥。可以在后生可畏台机械上扭转,然后复制到别的的机器上。

新建authorized_keys文件
输入 :

 touch  /root/.ssh/authorized_keys

编辑 authorized_keys 并将其余机器上的秘钥拷贝过来

cat /root/.ssh/id_rsa.pub
vim /root/.ssh/authorized_keys

将此外机器上的 id_rsa.pub 的故事情节拷贝到 authorized_keys那些文件中。
先是个机械:
图片 16

其次个机械:
图片 17

其四个机械:
图片 18

最终authorized_keys文件的原委
图片 19

将那几个最后的authorized_keys文件copy到别的机器的 /root/.ssh 目录下。使用scp只怕ftp都得以。
scp命令示例:

scp -r /root/.ssh/authorized_keys root@192.169.0.24:/root/.ssh

测验免密码登入
输入:

ssh slave1
ssh slave2

输入 exit 退出
图片 20

1,JDK配置

说明: 日常CentOS自带了openjdk,可是hadoop集群使用的是oracle官方的jdk,所以先行卸载CentOS的jdk,然后再设置在oracle下载好的JDK。
第一输入 java -version
查看是不是安装了JDK,假如设置了,但版本不切合的话,就卸载
图片 21

输入
rpm -qa | grep java
查阅音信
图片 22
下一场输入:
rpm -e --nodeps “你要卸载JDK的音信”
如: rpm -e --nodeps java-1.7.0-openjdk-1.7.0.99-2.6.5.1.el6.x86_64
图片 23

显明未有了后头,解压下载下来的JDK

tar  -xvf   jdk-8u144-linux-x64.tar.gz

挪动到opt/java文件夹中,未有就新建,然后将文件夹重命名称为jdk1.8。

mv  jdk1.8.0_144 /opt/java
mv  jdk1.8.0_144  jdk1.8

下一场编辑 profile 文件,增添如下配置
输入:

vim /etc/profile

添加:

export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=.:${JAVA_HOME}/bin:$PATH

拉长成功之后,输入

source /etc/profile
java  -version 

翻看是不是配备成功

4.2.3,修正配置文件

切换目录
输入:

cd /opt/spark/spark1.6-hadoop2.4-hive/conf

4,启动zookeeper

因为zookeeper是公投制,它的主从关系并非像hadoop那样钦赐的,具体能够看官方的文书档案表明。
中标布署zookeeper之后,在每台机械上运维zookeeper。
切换到zookeeper目录下

cd /opt/zookeeper/zookeeper3.4/bin

输入:

zkServer.sh start

打响运营以往
查阅情形输入:

 zkServer.sh status

能够查阅各类机器上zookeeper的leader和follower
图片 24

3.5.2.6 修改slaves

安装基本的配备。假诺不安装那么些,集群就无法得到消息主从了。若是是单机方式,就没供给配置了。
修改/opt/hadoop/hadoop2.8/etc/hadoop/slaves文件
更改为

slave1 
slave2

这个铺排参照他事他说加以考查Hadoop官方文书档案。
Hadoop官方配置文件具体表达:

在风流洒脱台机械上(最佳是master)做完那几个配置之后,我们接收scp命令将那些布置传输到任何机器上。
输入:
jdk情形传输

scp -r /opt/java root@slave1:/opt
scp -r /opt/java root@slave2:/opt

hadoop境况传输

scp -r /opt/hadoop root@slave1:/opt
scp -r /opt/hadoop root@slave2:/opt

传输之后,便在主节点运转集群。
在开发银行hadoop以前,需求伊始化,这一个只必要在master上开始化就能够了。

4.2.1,文件酌量

将下载好的斯Parker文件解压
输入

tar -xvf spark-1.6.3-bin-hadoop2.4-without-hive.tgz

然后移动到/opt/spark 里面,相提并论命名
输入

mv  spark-1.6.3-bin-hadoop2.4-without-hive  /opt/spark
mv  spark-1.6.3-bin-hadoop2.4-without-hive  spark1.6-hadoop2.4-hive

4,时间布署

集群上的机械时间要一同,因为小编那边的是虚构机,所以就绝不了。
安装集群时间合营能够选择NTP服务。
具体能够参见:

4.2.3.1 修改 spark-env.sh

在conf目录下,校勘spark-env.sh文件,若无 spark-env.sh 该公文,就复制spark-env.sh.template文件因人而异命名称为spark-env.sh。
纠正那么些新建的spark-env.sh文件,参与配置:

export SCALA_HOME=/opt/scala/scala2.1    
export JAVA_HOME=/opt/java/jdk1.8
export HADOOP_HOME=/opt/hadoop/hadoop2.8    
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop  
export SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive
export SPARK_MASTER_IP=master    
export SPARK_EXECUTOR_MEMORY=4G

:下面包车型地铁门道以团结的为准,SPAOdysseyK_MASTER_IP为主机,SPARK_EXECUTOR_MEMOKoleosY为设置的周转内部存款和储蓄器。

七、Hive的情状设置配置

因为hive安装使用没有需求集群,只需在生龙活虎台机器上设置使用就足以了,从前在自己的
大数据学习种类之四 ----- Hadoop+Hive景况搭建图像和文字详明(单机) 里面已经讲授的很详细,所以本文就不在描述了。

2.做主机和IP的关系映射

改良hosts文件,做涉嫌映射
说明:这一个每台机器都做那么些布局,具体ip和主机名称以友好的为准。
输入:

vim /etc/hosts

添加

192.169.0.23 master
192.169.0.24 slave1
192.169.0.25 slave2

图片 25
说明:能够在黄金年代台机械增添了之后能够动用scp 命令或利用ftp将以此文件copy到 其余机器中。
scp命令示例:

scp -r /etc/hosts root@192.169.0.24:/etc

1. 修正主机名

说明:改革主机名是为了有扶植集群管理,不然各样机器的名称都叫localhost也不太好吧! 集群全体的机械都要做这些操作。

输入

 vim /etc/sysconfig/network 

将localhost.localdomain修改为您要修正的名称,每台名称都不均等
例如:

HOSTNAME=master

注: 名称更改了之后输入reboot重启才会生效。

4.1.2 境遇布署

编辑 /etc/profile 文件
输入:

export SCALA_HOME=/opt/scala/scala2.12
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效
输入 scala -version 查看是不是安装成功

六、HBase的条件铺排

6.3.2 修改 hbase-site.xml

编辑hbase-site.xml 文件,在<configuration>增进如下配置

<property>
 <name>hbase.rootdir</name>
 <value>hdfs://master:9000/hbase</value>
 <description>The directory shared byregion servers.</description>
</property>
 <!-- hbase端口 -->
<property>
 <name>hbase.zookeeper.property.clientPort</name>
 <value>2181</value>
</property>
<!-- 超时时间 -->
<property>
 <name>zookeeper.session.timeout</name>
 <value>120000</value>
</property>
<!--防止服务器时间不同步出错 -->
<property>
<name>hbase.master.maxclockskew</name>
<value>150000</value>
</property>
<!-- 集群主机配置 -->
<property>
 <name>hbase.zookeeper.quorum</name>
 <value>master,slave1,slave2</value>
</property>
<!--   路径存放 -->
<property>
 <name>hbase.tmp.dir</name>
 <value>/root/hbase/tmp</value>
</property>
<!-- true表示分布式 -->
<property>
 <name>hbase.cluster.distributed</name>
 <value>true</value>
</property>
  <!-- 指定master -->
  <property>
    <name>hbase.master</name>
    <value>master:60000</value>
  </property>

</configuration>

图片 26
说明:hbase.rootdir:这么些目录是region server的分享目录,用来长久化Hbase 。hbase.cluster.distributed :Hbase的运作形式。false是单机方式,true是分布式方式。若为false,Hbase和Zookeeper会运转在同一个JVM里面。

引言

    在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试。其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式。至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了。。。 
    整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多。在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来。于是就有了本篇博文。
    其实我在搭建的时候,并不是按部就班的搭建,中间或多或少都更改过不少,试验出来了目前没啥问题的集群搭建。在写本文的时候,开始准备将环境在一台机器上搭建,然后全部传输到其他机器上。但是想了想,这样或许在搭建环境的时候快速,但是对于阅读者来说,不太友好。于是便拆分出来了,单独搭建一个也是可以的。好了,废话就少说了,教程如下。

本文由金沙澳门官网网址发布于www.243.net,转载请注明出处:大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBas

关键词: