1,Hadoop的基本概念和架构
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
Hadoop的基本概念和架构
学习路线
- hadoop的基本概念和架构
- hadoop的安装和配置
- hadoop的HDFS文件系统
- hadoop的MapReduce计算框架
- hadoop的YARN资源管理器
- hadoop的高级特效如HBaseHivePig等
- hadoop的优化和调优
- hadoop的应用场景如日志分析数据挖掘等
简介
Hadoop是由Apache基金会所发布的开源的分布式计算框架由Java语言编写主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统GFS的思想提供了一个可靠高效可扩展的分布式计算平台。
Hadoop的核心组件包括HDFSHadoop Distributed File System Hadoop的分布式文件系统和MapReduce计算框架。
Hadoop可以运行在廉价的硬件上而且提供了高吞吐量通过横向扩展的方式提高计算能力因此被广泛应用与大数据处理领域。
三大核心
HDFS存储系统
存储系统是指用于存储数据的系统包括文件系统、数据库系统等。
在Hadoop中HDFS是Hadoop分布式文件系统它是Hadoop的核心组件之一。
HDFS采用了Master/Slave的架构Master节点负责管理和调度Slave节点负责执行具体的任务。其中NameNode作为Master节点负责管理文件系统的命名空间和文件块的映射关系DataNode作为Slave节点负责存储文件块的实际数据。
HDFS的优点是具有高可靠性、高可扩展性、高吞吐量等特点适合存储大规模数据集。
MapReduce计算环节
计算环节是指对存储在存储系统中的数据进行计算的过程包括数据的读取、处理和输出等。
在Hadoop中MapReduce是Hadoop的计算框架它采用了Map和Reduce两个阶段其中Map阶段负责将输入数据切分成若干个小块并对每个小块进行处理输出中间结果Reduce阶段负责将中间结果进行合并得到最终的输出结果。
MapReduce是一种分布式计算模型用于处理大规模数据集。它将数据分成多个小块然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下
-
Map阶段将输入数据分成多个小块然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数将输入数据转换成键值对。
-
Shuffle阶段将Map函数的输出结果按照键进行分组然后将同一组的键值对发送到同一个Reduce节点上。
-
Reduce阶段将同一组的键值对发送到同一个Reduce节点上然后在该节点上执行Reduce函数将同一组的键值对合并成一个结果。
-
输出结果将所有Reduce节点的输出结果合并成一个最终结果。
MapReduce的优点是具有高可靠性、高可扩展性、高并发性等特点适合处理大规模数据集。
YARN资源分配
资源分配是指将计算任务分配给集群中的各个节点进行处理的过程包括任务调度、资源管理等。
在Hadoop中YARNYet Another Resource Negotiator是Hadoop的资源管理系统它负责集群中各个节点的资源管理和任务调度。
YARN采用了Master/Slave的架构其中ResourceManager作为Master节点负责管理集群中的资源NodeManager作为Slave节点负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理个和调度。
YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件
- ResourceManager是YARN的核心组件负责资源的管理和分配。主要功能
- 接收客户端提交的应用程序并为其分配ApplicationMaster
- 监控集群中的资源使用情况为ApplicationMaster分配资源
- 处理NodeManager的心跳信息更新集群资源使用情况
- 处理ApplicationMaster的请求如为其分配资源、杀死应用程序等
- NodeManager是YARN的节点管理器负责节点的管理和任务的执行。主要功能
- 监控节点上的资源使用情况向ResourceManager发送心跳信息
- 接收ApplicationMaster的请求为其分配容器
- 启动容器中的任务并监控任务的执行情况
- 向ApplicationMaster发送任务执行状态
- ApplicationMaster是YARN的应用程序管理器负责应用程序的管理和调度。主要功能
- 向ResourceManager提交应用程序并为其分配资源
- 向NodeManager申请容器并为容器分配任务
- 监控任务的执行情况并向NodeManager发送任务执行状态
- 处理任务执行失败的情况如重新分配任务、杀死任务等
YARN的优点是具有高可靠性、高可扩展性、高灵活性等特点适合管理大规模集群的资源。
举例
假设有一个大型电商网站需要对用户的购物行为进行分析以便提高销售额。
首先需要将用户的购物数据存储到HDFS中以便后续的计算。
然后使用MapReduce计算框架对购物数据进行处理得到用户的购物行为特征。
最后使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理以提高计算效率。
总结
HDFS分布式文件存储系统解决大规模数据集
YARN资源管理系统将计算任务分配给集群中的各个节点进行处理
MapReduce分布式计算框架对存储在HDFS中的数据进行计算
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |