一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

目录

1.1 Hadoop 是什么

 1.2 Hadoop 发展历史

1.3 Hadoop 三大发行版本 

1.4 Hadoop优势4高 

1.5 Hadoop 组成面试重点 

1.5.1 HDFS 架构概述  

1.5.2 YARN 架构概述  

1.5.3 MapReduce 架构概述  

1.5.4 HDFS、YARN、MapReduce 三者关系  

1.6 大数据技术生态体系 

1.7 推荐系统框架图  


1.1 Hadoop 是什么

1 Hadoop 是一个由 Apache 基金会所开发的 分布式系统基础架构
2 主要解决海量数据的 存储 和海量数据的 分析计算 问题。
3 广义上来说 Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈

 1.2 Hadoop 发展历史

1 Hadoop 创始人 Doug Cutting 为 了实 现与 Google 类似的全文搜索功能他在 Lucene 框架基础上进行优
化升级查询引擎和索引引擎。
2 2001 年年底 Lucene 成为 Apache 基金会的一个子项目。
3 对于海量数据的场景 Lucene 框 架面 对与 Google 同样的困难 存 储海量数据困难检 索海 量速度慢
4 学习和模仿 Google 解决这些问题的办法 微型版 Nutch
5 可以说 Google Hadoop 的思想之源 Google 在大数据方面的三篇论文
        GFS --->HDFS
        Map-Reduce --->MR
        BigTable --->HBase

6 2003-2004 Google 公开了部分 GFS MapReduce 思想的细节以此为基础 Doug Cutting 等人用
2 年业余时间 实现了 DFS MapReduce 机制使 Nutch 性能飙升。
7 2005 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。
8 2006 3 月份 Map-Reduce Nutch Distributed File System NDFS 分别被纳入到 Hadoop 项目
Hadoop 就此正式诞生标志着大数据时代来临。
9 名字来源于 Doug Cutting 儿子的玩具大象

1.3 Hadoop 三大发行版本 

Hadoop 三大发行版本 Apache Cloudera Hortonworks
Apache 版本最原始最基础的版本对于入门学习最好。 2006
Cloudera 内部集成了很多大数据框架对应产品 CDH 2008
Hortonworks 文档较好对应产品 HDP 2011
Hortonworks 现在已经被 Cloudera 公司收购推出新的品牌 CDP
(1 Apache Hadoop
官网地址 http://hadoop.apache.org
下载地址 https://hadoop.apache.org/releases.html
(2 Cloudera Hadoop
官网地址 https://www.cloudera.com/downloads/cdh
下载地址 https://docs.cloudera.com/documentation/enterprise/6/release
notes/topics/rg_cdh_6_download.html
1 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司为合作伙伴提供 Hadoop
商用解决方案主要是包括支持、咨询服务、培训。
(2 2009 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司 Cloudera 产品主
要为 CDH Cloudera Manager Cloudera Support
3 CDH Cloudera Hadoop 发行版完全开源比 Apache Hadoop 在兼容性安
全性稳定性上有所增强。 Cloudera 的标价为每年每个节点 10000 美元
4 Cloudera Manager 是集群的软件分发及管理监控平台可以在几个小时内部署好一
Hadoop 集群并对集群的节点及服务进行实时监控。
3 Hortonworks Hadoop
官网地址 https://hortonworks.com/products/data-center/hdp/
下载地址 https://hortonworks.com/downloads/#data-platform
1 2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。
2 公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师上述
工程师均在 2005 年开始协助雅虎开发 Hadoop 贡献了 Hadoop80% 的代码。
3 Hortonworks 的主打产品是 Hortonworks Data Platform HDP 也同样是 100%
源的产品 HDP 除常见的项目外还包括了 Ambari 一款开源的安装和管理系统。
4 2018 Hortonworks 目前 已经被 Cloudera 公司收购

1.4 Hadoop优势4 

1.5 Hadoop 组成面试重点 

1.5.1 HDFS 架构概述  

Hadoop Distributed File System 简称 HDFS 是一个分布式文件系统
1 NameNode nn 存储文件的 元数据 文件名文件目录结构文件属性 生成时间、副本数、
文件权限以及每个文件的 块列表 块所在的 DataNode 等。
2 DataNode(dn) 在本地文件系统 存储文件块数据 以及 块数据的校验和
3 Secondary NameNode(2nn) 每隔一段时间对 NameNode 元数据备份
简单的说就是NameNode就相当于一个目录一个索引负责标记每一个DataNode的存放位置
而DataNode才是真正存放数据的 Secondary NameNode(2nn) 相当与老板的一个秘书他会备份 一部分 数据不会备份全部数据。

1.5.2 YARN 架构概述  

Yet Another Resource Negotiator 简称 YARN 另一种资源协调者是 Hadoop 的资源管理器。

1.5.3 MapReduce 架构概述  

MapReduce 将计算过程分为两个阶段 Map Reduce
1 Map 阶段并行处理输入数据
2 Reduce 阶段对 Map 结果进行汇总

 

1.5.4 HDFSYARNMapReduce 三者关系  

HDFS

  

YARN

 用户提交任务任务给到ResourceManagerResourceManager  会找一个节点NodeManager开启一个Container 把任务(App Mstr)放在Container    App Mstr会向 

ResourceManager申请说自己需要多少资源  ResourceManager 看哪一个DataNode有资源给他分配资源  之后  App Mstr 会在被分配的资源节点上开启计算任务MapTask 这个其实就是MapReduce 的map阶段之后会返回一个Reduce到各自对应的节点这就是他们三者之间的关系

1.6 大数据技术生态体系 

图中涉及的技术名词解释如下

1.7 推荐系统框架图  

假如说购买一个东西打开京东首页购买一个东西这个购买行为会被记录下来通过Nginx负载均衡打入到日志收集中这种用户行为数据通常是用文件形式存储的然后Flume进行日志收集

采集完之后给Kafka 进行一个消息的缓冲缓冲后由于我们推荐系统具有实时性所以走

Spark Streaming Flink进行实时计算用户是想购买呢还是什么行为以及下次给他推荐什么样的商品能够促进他的消费将计算结果返回到后台这个结果你可以用数据库或者是分析结果文件的形式存储然后再被推荐业务的后台读走数据最终反馈到前台页面展示出来
本篇博客是在进行尚硅谷大数据相关课程学习后加上自己的一些理解得出的一篇博客希望能给学习Hadoop同学一些启发
阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: Hadoop

“一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系” 的相关文章