Hadoop大数据工具介绍与环境配置
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
Hadoop大数据工具介绍与环境配置
- Hadoop介绍
- 特点
- 应用现状
- 常用企业当中的数据架构
- 具体的公司应用
- 基础环境配置
- 前置环境
- Hadoop的下载
Hadoop介绍
定位:Hadoop是Apache软件基金会旗下开源软件;
优点:免费 降低了数据分析的复杂性 支持多种应用(跨平台)
核心:HDFS+MapReduce
特点
高可靠性 :多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务。
高效性:集成上千机器一起计算。
可扩展性 :可不断往集群中增加机器。
在hadoop未出现之前高性能计算企业主要是一些小型机(性能强,成本大)而hadoop的出现实现了低性能机构成集群(降低了成本,增加旧机器的重复利用性)
应用现状
常用企业当中的数据架构
一、访问层:对企业的数据进行大量分析、数据实时查询、数据挖掘
二、大数据层(Hadoop):
离线分析:
Hive:用于存储和处理大规模数据。它提供了类似SQL的查询语言(HiveQL)以便于分析和查询数据。
详见大佬编写文档 Pig:Pig包括用来描述数据分析程序的高级程序语言,以及对这些程序进行评估的基础结构。
mapreduce(MR):进行数据的处理与清洗,
实时查询:
Hbase:支持几十亿面向列的存储
数据挖掘:
Mahout:进行BI分析
通过底层的HDFS分布式存储满足企业当中大量的数据存储需求(数据落地存储)
具体的公司应用
Facebook公司采用Hadoop集群用于日志处理、推荐系统和数据仓库等方面;
中国移动同样也是通过Hadoop进行数据分析。
基础环境配置
前置环境
Hadoop的运行需要Java环境,先确保已经正确安装配置JDK。通过java -v进行查看电脑是否配置java,如图所示(这个就是win没有安装的图片信息):
如需安装请参照:
这个博主安装教程 外网下载缓慢,可以去华为的镜像下载。
Hadoop的下载
1、下载链接:https://hadoop.apache.org/ 国内镜像:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/
2、版本选择
现在我们使用的是开源社区版,目前的主流版本为2.x.y和3.x.y。
3、目前的3.x版本中已经支持了对于不同系统架构的支持,但是对于安装过程和使用都无影响,本文以3.3.6为例。
点击任意一个镜像地址开始下载,直击链接:
https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz
思考:既然机器可以通过Hadoop的方法进行低成本利用,那边人是否也通过这种架构进行价值的重新利用?
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |