CDH/CDP 是什么?

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

前言

本文隶属于专栏《大数据技术体系》该专栏为笔者原创引用请注明来源不足和错误之处请在评论区帮忙指出谢谢

本专栏目录结构和参考文献请见大数据技术体系


CDH

在这里插入图片描述

CDH Cloudera Distribution Hadoop 是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。

还有一种说法是 CDH 是 Cloudera Distribution including Apache Hadoop 的缩写。

CDH 的所有组件都是 100% 开源的Apache License是唯一提供统一批处理、交互式 SQL、交互式搜索以及基于角色的访问控制的 Hadoop 解决方案

通过将 Hadoop 与十几个其他关键开源项目集成Cloudera 创建了一个功能先进的系统可以帮忙你执行端到端的大数据工作流。


CDH 特性

  • 灵活性存储任何类型的数据并使用各种不同的计算框架进行操作包括批处理、交互式SQL、文本搜索、机器学习和统计计算。
  • 集成在完整的 Hadoop 平台上快速启动和运行该平台可与广泛的硬件和软件解决方案配合使用。
  • 安全性处理和控制敏感数据。
  • 可扩展性启用广泛的应用程序并根据要求进行扩容扩展。
  • 高可用性能够胜任关键地方的业务任务。
  • 兼容性利用现有的 IT 基础设施和资产。

CDP

CDH 6.3 是 CDH 的最后一个主要版本。

CDPCloudera Data Platform是 CDH 的继任者。

CDP 是面向企业的云计算平台。

它提供集成的多功能自助服务工具以分析和集中数据。

它在企业层面带来了安全和治理所有这些都托管在公共、私有和多云部署上。

如果启动一项新项目建议从 CDP 开始因为这是 Cloudera 最新一代的技术。


CDP 特性

CDP 具有独特的公私合营方法、实时数据分析、可扩展的本地/云端和混合云部署选项以及隐私优先的架构。

根据其官方网站CDP 可以

  • 必要时自动生成工作负载并在完成后暂停其操作从而控制云成本
  • 使用分析和机器学习来优化工作负载
  • 显示所有云和瞬态集群的数据血缘关系
  • 使用单一的管理平台来使用混合云和多云
  • 可以扩展到 PB 级数据和成千上万多种多样的用户
  • 使用多云和混合环境集中控制客户和操作数据

CDP 有两个版本CDP 公共云和 CDP 私有云。

CDP公有云

CDP 公共云是一种平台即服务 (PaaS)它与云基础架构兼容并且可以在各种云提供商之间轻松传输包括 OpenShift 等私有解决方案。

CDP 构建为完全混合和多云这意味着一个平台可以处理所有数据生命周期用例无论位置或云如何具有一致的安全和治理模型

CDP 可以在各种设置中处理数据包括 AWS、Azure 和 GCP 等公共云。

此外它可以自动向上和向下扩展工作负载和资源以提高性能并降低成本。


CDP 公有云服务

以下是构成 CDP 公共云的主要元素

数据工程Data Engineering

CDP 数据工程是一个多合一的数据工程工具包。

它基于 Apache Spark 构建允许通过使用 Apache Airflow 实现编排和自动化来简化跨企业分析团队的 ETL 流程并提供高度开发的管道监控、可视化调试和广泛的管理工具。

它具有隔离的工作负载环境并且是容器化、可扩展且易于传输的。

数据中心Data Hub

CDP 数据中心是一项服务可实现从边缘到人工智能的高价值分析。

流式传输、ETL、数据集市、数据库和机器学习只是广泛的分析工作负载中涵盖的一些任务。

数据仓库Data Warehouse

CDP 数据仓库是一项允许 IT 向 BI 分析师提供云原生自助分析体验的服务。

流式传输、数据工程和机器学习 (ML) 分析都完全集成在 CDP 数据仓库中。

它具有一个统一的框架可以保护和管理私有云、多个公共云或混合云上的所有数据和元数据。

机器学习Machine Learning

CDP 机器学习通过使用用于部署、服务和监控模型的本地和综合工具来优化 ML 工作流。

借助扩展的 Cloudera Shared Data Experience (SDX) 模型它可以调节和自动化模型分类然后通过数据仓库和运营数据库等 CDP 体验轻松地将结果传输到协作。

数据可视化Data Visualization

借助 Cloudera 数据可视化用户可以在虚拟数据仓库中对数据进行建模而无需移除或更新底层数据结构或表并查询大量数据而无需不断加载数据从而节省时间和金钱。

操作型数据库Operational Database

Cloudera 操作型数据库体验是一种托管解决方案将底层集群实例总结为数据库。

它将根据集群的工作负载使用情况自动扩展并且能够在相同的基础设施占用空间内提高性能并自动解决运营问题。


CDP 公有云架构

在本节中我们将介绍 CDP 公共云上提供的所有服务。

这里介绍的组件可以单独使用也可以作为一个整体使用。

数据中心Data Hub

管理控制台CDP 管理员用来管理环境、用户和服务的服务

数据仓库Data Warehouse

  • 数据库目录托管数据的元数据定义的逻辑集合以及随之而来的数据上下文
  • 虚拟仓库相当于集群的计算资源实例

机器学习Machine Learning

为机器学习调动工作空间

数据工程Data Engineering

  • 环境包含特定虚拟网络的云提供商帐户的逻辑子集
  • CDE 服务长期运行的 Kubernetes 集群和管理虚拟集群的服务CDE 目前仅在 Amazon AWS 上可用
  • 虚拟集群具有自己的 CPU 和内存范围的独立自我扩展集群
  • Job应用程序代码以及指定的配置和资源
  • 资源作业所需的一组已定义文件

安全和治理

  • 数据目录Data Catalog了解、管理、保护和治理数据资产
  • 工作负载管理器WorkLoad Manager提供见解以帮助你更好地了解你发送到由 Cloudera Manager 管理的集群的工作负载。
  • 复制管理器Replication Manager将数据从 CDH 集群复制和迁移到 CDP 公共云的服务。其中包括HDFS 复制Hive 元数据复制Hive 外部表复制表级复制

CDP 私有云

CDP 私有云专为混合云部署而设计使本地环境能够连接到公共云同时保持一致、集成的安全和治理。

计算和存储在 CDP 私有云中解耦使这两者的集群能够独立扩展。

Cloudera 共享数据体验 (SDX) 在 CDP 私有云基础集群上可用提供统一的安全性、治理以及元数据管理。

CDP 私有云用户可以使用管理控制台快速提供和部署 Cloudera 数据仓库和 Cloudera 机器学习服务还可以根据需要扩展和扩展它们。


CDP 私有云服务

CDP 公有云的一些组件例如机器学习和数据仓库在 CDP 私有云上可用。

此外它使用了一系列分析引擎涵盖流、数据工程、数据集市、操作型数据库和数据科学以支持传统工作负载。


CDP 私有云架构

在本节中我们将介绍可用于私有云的各种服务和组件。

与公共云产品不同组件更加灵活因为用户可以更好地控制集群部署。

在这里插入图片描述


CDP PVC Base

  1. Cloudera ManagerCM
  2. Hadoop
  • HDFS处理大型数据集的分布式文件系统
  • Yarn为分布式系统管理和扩展资源的系统
  1. 存储、数据库
  • Hive旨在提供数据查询和分析的数据仓库软件
  • HBase以容错方式存储海量稀疏数据的非关系型分布式数据库
  • Kudu面向列的分布式数据存储引擎用于快速分析数据
  • Kafka流式消息平台
  • Stream Messaging Manager (SMM)在企业 Apache Kafka 环境中提供端到端可见性的操作监控和管理工具。
  • Stream Replication Manager (SRM)企业级的复制解决方案用于容错、可扩展和健壮的跨集群 Kafka 主题复制
  1. 数据查询
  • Impala基于 Apache Hadoop 的查询引擎
  • Spark用于大规模数据处理的统一分析引擎
  1. UI
  • Hue用于查询数据库和数据仓库并进行协作的 SQL 助手
  • Zeppelin一个 Web 界面可轻松分析和格式化通过 Spark 处理的大量数据
  • Data Analytics Studio (DAS)提供诊断工具和巧妙建议的应用程序以帮助业务分析师通过 Hive 变得更加自给自足和高效
  1. 安全、管理
  • Ranger提供一个集中式平台用于以一致的方式在整个 Hadoop 生态系统中定义、管理和管理安全策略
  • Atlas与 Hadoop 堆栈内外的其他工具和流程交换元数据

CDP PVC Plus

  1. OpenShift在容器中部署项目
  2. 经验
  • 数据仓库自包含数据仓库和数据集市的自助系统构建可自动扩展和缩减以响应不断变化的工作负载需求
  • 机器学习部署机器学习工作区

Cloudera Data Science Workbench (CDSW)

使数据科学家能够管理自己的分析管道的平台


Cloudera 流管理 (CFM)

  • NiFi自动化不同系统之间的数据移动

CDP 私有云的好处

  • 灵活性——你的组织的云环境可以定制以满足特定的业务需求。
  • 控制——由于非共享资源更高级别的控制和隐私。
  • 可扩展性——与本地基础设施相比私有云通常提供更高的可扩展性。

CM

CM 是一种管理 CDH 集群的端到端的应用

CM 通过对 CDH 集群的各部分提供精细的可视化和控制建立了企业级部署的标准增强了操作人员的能力以提升性能、提升服务质量、提高合规性、降低管理成本。

CM 的核心是 Cloudera Manager Server它承载了管理员控制台 Admin Console Web Server 和应用逻辑并负责安装软件、配置、启动、停止服务以及管理运行有服务的集群。


CM 的特性

自动部署和配置

启动和运行 Hadoop 和 CDH 的最快方式。

无论规模或部署环境如何自动化向导都可让你快速部署集群并根据你的系统完成智能默认设置。

在你从测试转移到生产或跨环境使用可移植集群配置模板时确保一致性。

通过集中式界面你的运营团队可以轻松调整配置和资源管理广泛的用户角色以实现跨部门的自助访问甚至为多租户环境管理多个集群。


可定制的监控和报告

通过数百个内置的运行状况检查和警报你可以根据对你最重要的事项进行配置从而全面了解你的集群。

你不仅可以监控所有集群中的所有组件包括 Cloudera Manager 本身还可以轻松监控作业和查询性能

Cloudera Manager 拥有业界唯一的可定制仪表板能够为你的环境创建用于历史监控和自定义触发器和阈值的高级图表。


轻松、强大的故障排除

唯一的集中式日志管理聚合所有服务和主机的日志并使其可搜索以进行简单的故障排除包括针对你关心的错误的集成自定义警报

历史视图和指标可让你准确了解何时发生的事情并让你快速查看异常行为。

Cloudera Support 还直接与 Cloudera Manager 集成以根据你的系统和日志提供主动支持和问题解决。


零停机维护

通过滚动升级和回滚的全面自动化无需担心系统停机因此你始终可以轻松获得最新进展。

跨组件的高可用性以及内置的备份和灾难恢复意味着你甚至可以无风险地运行最关键的工作负载。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6