linux搭建hadoop环境

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

 1、安装JDK
  1下载安装JDK确保计算机联网之后命令行输入下面命令安装JDK
       sudo apt-get install sun-java8-jdk
  2配置计算机Java环境打开/etc/profile在文件最后输入下面内容

export JAVA_HOME = /home/chuanqing/profile/jdk-8u13-linux-i586.zip_FILES/jdk1.8.0_13
export CLASSPATH = ".:$JAVA_HOME/lib:$CLASSPATH"
export PATH = "$JAVA_HOME/:PATH"

  3验证Java是否安装成功
  输入 java -version 输出Java版本信息即为安装成功。

2、安装配置SSH

  1下载安装SSH同样在命令行输入下面命令安装SSH
      sudo apt-get install ssh
  2配置无密码登录本机在命令行输入下面两条命令
     $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
         直接回车完成后会在~/.ssh/生成两个文件id_rsa和id_rsa.pub;这两个成对出现类似钥匙和锁。再把id_rsa.pub追加到授权key里面当前并没有authorized_keys文件
         $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
      3验证SSH是否安装成功
       输入 ssh localhost 。如果显示本机登录成功就表明安装成功。

3、关闭防火墙
   $sudo ufw disable
   注意这步非常重要如果不关闭会出现找不到datanode的问题
 
4、安装运行Hadoop以0.20.2版本为例

  1下载Hadoop在http://www.apache.org/dyn/closer.cgi/hadoop/core/页面上下载Hadoop。
  2安装配置Hadoop打开/etc/profile在文件最后输入下面内容

export HADOOP_INSTALL=/home/chuanqing/profile/hadoop-0.20.203.0
export PATH=$PATH:$HADOOP_INSTALL/bin

   单节点配置
   安装单节点的Hadoop无需配置在这种方式下Hadoop被认作为一个单独的Java进程。

   伪分布配置
   伪分布的Hadoop是只有一个节点的集群。在这个集群中计算机既是master也是slave
     即使 namenode也是datanode既是jobtracker也是tasktracker。

  配置的过程如下

  a、进入conf文件夹修改下面的文件。
  Hadoop-env.sh中加入下面内容

export JAVA_HOME = JAVA安装目录

  core-site.xml文件内容修改为下面内容

  <configuration>

     <!-- global properties -->
     <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/zhongping/tmp</value>
   </property>

    <!-- file system properties -->
   <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
   </property>
  </configuration>

  hdfs-site.xml文件内容修改为下面内容(replication默认为3如果不修改datanode少于三台就会报错)

  <configuration>
   <property>
    <name>fs.replication</name>
    <value>1</value>
   </property>
  </configuration>

  mapred-site.xml文件内容修改为下面内容
 

  <configuration>
   <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
   </property>
  </configuration>

       b、格式化Hadoop文件系统在命令行输入命令
  bin/hadoop namenode -format

  c、启动Hadoop在命令行输入命令
  bin/start-all.sh

  d、验证Hadoop是否安装成功在浏览器中输入下面网址如果正常打开说明安装成功。
  http://localhost:50030 (mapreduce的web页面)
  http://localhost:50070 (hdfs的web页面)

5、运行实例
   (1)先在本地磁盘建立两个输入文件 file01和file02
   $echo "Hello World Bye World" > file01
   $echo "Hello Hadoop Goodbye Hadoop" > file02
 
   (2)在hdfs中建立一个input目录$hadoop fs -mkdir input
   (3)将file01和file02拷贝到hdfs中
      $hadoop fs -copyFromLocal /home/zhongping/file0* input
   (4)执行wordcount:
      $hadoop jar hadoop-0.20.2-examples.jar wordcount input output
   (5)完成之后查看结果
      $hadoop fs -cat output/part-r-00000

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: linuxHadoop