Hadoop大数据工具介绍与环境配置

  • Hadoop介绍
  • 特点
  • 应用现状
  • 常用企业当中的数据架构
  • 具体的公司应用
  • 基础环境配置
  • 前置环境
  • Hadoop的下载


Hadoop介绍

定位:Hadoop是Apache软件基金会旗下开源软件;

优点:免费 降低了数据分析的复杂性 支持多种应用(跨平台)

核心:HDFS+MapReduce

Hadoop大数据工具介绍与环境配置_hadoop

特点

高可靠性 :多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务。
高效性:集成上千机器一起计算。
可扩展性 :可不断往集群中增加机器。

在hadoop未出现之前高性能计算企业主要是一些小型机(性能强,成本大)而hadoop的出现实现了低性能机构成集群(降低了成本,增加旧机器的重复利用性)

应用现状

常用企业当中的数据架构

一、访问层:对企业的数据进行大量分析、数据实时查询、数据挖掘

二、大数据层(Hadoop):

离线分析:

Hive:用于存储和处理大规模数据。它提供了类似SQL的查询语言(HiveQL)以便于分析和查询数据。

详见大佬编写文档 Pig:Pig包括用来描述数据分析程序的高级程序语言,以及对这些程序进行评估的基础结构。

mapreduce(MR):进行数据的处理与清洗,

实时查询:

Hbase:支持几十亿面向列的存储

数据挖掘:

Mahout:进行BI分析

通过底层的HDFS分布式存储满足企业当中大量的数据存储需求(数据落地存储)

Hadoop大数据工具介绍与环境配置_分布式_02

具体的公司应用

Facebook公司采用Hadoop集群用于日志处理、推荐系统和数据仓库等方面;
中国移动同样也是通过Hadoop进行数据分析。

基础环境配置

前置环境

Hadoop的运行需要Java环境,先确保已经正确安装配置JDK。通过java -v进行查看电脑是否配置java,如图所示(这个就是win没有安装的图片信息):

Hadoop大数据工具介绍与环境配置_数据_03


如需安装请参照:

这个博主安装教程 外网下载缓慢,可以去华为的镜像下载。

Hadoop的下载

1、下载链接:https://hadoop.apache.org/ 国内镜像:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/

Hadoop大数据工具介绍与环境配置_Hadoop_04


2、版本选择

现在我们使用的是开源社区版,目前的主流版本为2.x.y和3.x.y。

3、目前的3.x版本中已经支持了对于不同系统架构的支持,但是对于安装过程和使用都无影响,本文以3.3.6为例。

Hadoop大数据工具介绍与环境配置_分布式_05


点击任意一个镜像地址开始下载,直击链接:

https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz

思考:既然机器可以通过Hadoop的方法进行低成本利用,那边人是否也通过这种架构进行价值的重新利用?


阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: Hadoop