（二）hadoop面试

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

文章目录

1、hadoop为什么是大数据的基座hadoop优点

Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理用户可以在不了解分布式底层细节的情况下开发分布式程序用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop平台提供了分布式存储HDFS、分布式计算MapReduce、任务调度YARN等组件和服务现在又不断扩容了hbase,hive,spark,kafka,zookper等服务不断完善了架构。

1.扩容能力强

Hadoop是一个高度可扩展的存储平台它可以存储和分发跨越数百个并行操作的廉价的服务器数据集群。Hadoop是能给企业提供涉及成百上千TB的数据节点上运行的应用程序。

2.成本低

Hadoop为企业用户提供了极具缩减成本的存储解决方案。通过普通廉价的机器组成服务器集群来分发处理数据成本比较低普通用户也很容易在自己的PC机上搭建Hadoop运行环境。

3.高效率

Hadoop能够并发处理数据并且能够在节点之间动态地移动数据并保证各个节点的动态平衡因此处理数据的速度是非常快的。
4.可靠性

Hadoop主从架构自动维护多份数据副本假设计算任务失败Hadoop能够针对失败的节点重新分布处理。

5.高容错性

Hadoop的一个关键优势就是容错能力强当数据被发送到一个单独的节点该数据也被复制到集群的其他节点上这意味着故障发生时存在另一个副本可供使用。

2、Hadoop的守护进程

NameNode(元数据服务器)
主节点存储文件的元数据文件名文件目录结构文件属性——生成时间副本数文件权限以及每个文件的块列表和块所在的DataNode等
SecondaryNameNode(辅助元数据服务器)
用来监控HDFS状态的辅助后台程序每隔一段时间获取HDFS元数据快照
DataNodes(块存储)
在本地文件系统存储文件块数据以及块数据校验
JobTracker(任务调度)
负责接收用户提交的作业负责启动、跟踪任务执行每个 DataNode有一个TaskTracker它们执行实际工作。
TaskTrackers(任务执行)
负责执行由JobTracker分配的任务管理各个任务在每个节点的执行情况。

3、HDFS分布式文件管理系统的进程

NameNode
SecondaryNameNode
DataNode

4、YARN的产生解决了什么样的调度问题？

Hadoop 由MapReduce和HDFS组成1.x版本设计缺陷是单点故障即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题这使得Hadoop在相当长时间内仅适合离线存储和离线计算。

Hadoop 2.0由三个分支组成分别是HDFS、MapReduce和YARNYARN是Hadoop 2.x中的资源管理系统它是一个通用的资源管理模块可为各类应用程序进行资源管理和调度。YARN不仅限于MapReduce一种框架使用也可以供其他框架使用Spark、Storm等。
Yarn的作用解耦资源与计算