撕掉Hadoop标签,Cloudera未来可期吗?-CSDN博客

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

Cloudera大数据的弄潮儿

1、Cloudera发展史


说起Cloudera就不得不提起HadoopCloudera的过去就是Hadoop时代中的一个缩影。作为全球第一家也是最大一家Hadoop商业化公司Cloudera一直是Hadoop生态的领导者

1.1、Hadoop之父与Cloudera之父

2006年计算机科学家Doug Cutting和Mike Cafarella创建了Apache Nutch项目并带着项目加入了雅虎希望能在雅虎的帮助下为世界提供一个开源、可靠、可扩展的计算框架于是成立了一个新项目HadoopDoug Cutting也认识了当时的雅虎副总裁Amr Awadallah

Amr当时正在研究如何让雅虎搜索更智能也碰到很多性能、成本与弹性的问题。在Doug Cutting的建议下他开始尝试Hadoop

在随后的两年里Amr基于Hadoop改造了之前的数据处理系统结果出乎意料的好。新系统成本不仅是之前的十分之一更重要是还能完成之前根本无法想象的事情这让Amr大为惊喜

他敏锐地觉察到Hadoop这种革命性的数据处理能力里蕴含着巨大商机。于是他萌生了再度创业的想法。这并不是Amr的第一次创业实际上他在很早之前就创立了一家叫做VivaSmart的公司2000年被雅虎收购他也随之加入雅虎

2008年Amr召集了几位来自谷歌、Facebook和Oracle的志同道合的伙伴一起在硅谷创立了Cloudera自己担任CTO。一年后Hadoop的创始人Doug Cutting也加Cloudera成为新的CTO之后他很快被选为Apache基金会主席

天时、地利、人和独角兽的羽翼丰满只等风来

1.2、Hadoop势不可挡Cloudera乘风破浪

Hadoop一问世便以燎原之势蔓延不仅席卷了硅谷也燃烧到了大洋彼岸的淘宝和百度等巨型互联网公司很快就成了Apache的顶级项目

接下来的几年里Hadoop成为大数据时代的宠儿只要搜索“Hadoop is”自动填充就会显示“future”。所有人都关注着它生怕错过什么

在这里插入图片描述

2009年到2013年是Hadoop的繁盛时期也是Cloudera的快速发展的时期

Cloudera先后与Oracle、Intel、微软等IT巨头达成战略合作。2013年Cloudera表示已经找到了在Hadoop上成功的商业模式。那时的Cloudera作为大数据领域最耀眼的明星同样也是资本的宠儿。5年内拿到三笔投资在2015年华尔街日报的独角兽排名Cloudera排名21超越了大众点评而且是唯一上榜的大数据公司

2017年Cloudera成功上市

1.3、Hadoop风光不再Cloudera绝地重生

随着大数据技术的发展Hadoop最赖以成名的HDFS和MapReduce技术逐渐被新的技术取代。被Hadoop深刻影响了十几年的IT界感受到了这个时代的落幕

于是有人开始宣称Hadoop已死如果这时你搜索“Hadoop is”自动填充就会显示“dead"。尤其到了2019年往日的Hadoop三巨头的日子都不太好过。MapR裁员然后卖给了HPE。Cloudera也与Hortonworks合并合并后股价连续下跌CEO离职

Cloudera意识到Hadoop的红利时代已经过去真正的Cloud Era(云纪元)已经开启需要开发下一代数据产品以拥抱企业云计算

2019年合并之后的Cloudera推出了全新一代的大数据平台产品CDP这是世界上第一款企业数据云平台产品。最大化地整合了Cloudera原来的产品CDH和Hortonworks原来的产品HDP把这两条产品线里最优势的部分进行整合并对已有技术提供了增强功能

2022年原有的CDH和HDP用户均可升级到CDP。Cloudera新一代CDP的数据架构意味着数据管理方式向混合云的方向转变。CDP可以跨多个主流公有云平台以及私有云平台进行数据管理。无论数据位于何处企业都能跨多个云处理复杂的数据流程管理数据并实现多功能分析。对于企业来说也可以摆脱被单一云平台供应商锁定的风险

2021年Cloudera宣布与阿里云达成合作。CDP将正式入驻阿里云成为阿里云中的企业数据云方便国内的企业能更有效地运用数据赋能业务

Cloudera在过去十几年之间的沉沉浮浮让人唏嘘不已宛如一颗流星划过天空。但有一点Cloudera做的非常明智那就是审时度势紧跟技术趋势持续革新拿得起放得下方显英雄本色

2、透过Cloudera看清大数据时代的转变


2.1、Hadoop大数据时代

2021年10月8日大数据行业的一个标志性事件发生Cloudera正式宣布完成了从纳斯达克摘牌和私有化退市

这家曾在开源Hadoop大数据生态下风光一时的开源商业化公司面对那条再无波澜的价格曲线想来应是无奈且不甘的

无奈的是退市当日Cloudera市值只剩47亿美元才与2014年Intel投资时的估值相当七年南柯一梦。更不甘的是和2020年刚上市的另外一家大数据公司SnowFlake市值相比差了近20倍凭什么

要知道在当初言大数据必言Hadoop。Hadoop大数据时代里Hadoop也依然没能让Cloudera走向辉煌仅如一颗流星划过行业的天空空留一声惆怅。到底问题出在哪里

让我们先来简单回顾一下Cloudera在过去的十几年经过的一番挣扎

Cloudera成立于2008年次年便推出了首个Hadoop发行版CDH。CDH产品以企业版收费和开源版免费的方式拓展业务。2014年获得了Intel公司7.4亿美元的投资估值高达41亿美元。就在同一年Hadoop体系下的另一家完全开源的软件以服务收费的Hortonworks成功上市市值达20亿美元。Cloudera在此轮融资中以41亿美元的估值牢牢坐稳了Hadoop发行商的头把交椅成为了Hadoop生态的历史高光时刻。Cloudera共计为Hadoop贡献了五六十个组件

但随后的形势转变却让整个行业大跌眼镜Hortonworks的股价一路下跌而Cloudera则在2017年经历了一场称为流血的上市。上市估值为19亿美元远低于Intel三年前投资的估值近乎腰斩。这一切说明不管大数据多火但这两家公司事实上的业务增长却如此无力

仅一年后的2018年这对难兄难弟就宣布合并以试图挽回发展的颓势合并时的总市值为52亿美元仅比2014年的高光时刻高出约10亿美元

在这里插入图片描述

到了Cloudera宣布完成退市时的市值仅剩47亿美元这其中还包含了合并Hortonworks的市值也才仅仅和七年前Intel投资时的那个Cloudera估值相近。这真是一场游戏一场梦游戏结束了梦却还在原地打转

而Hadoop生态体系里一度曾经出现过三家商业化公司。除了Cloudera和Hortonworks之外还有一家公司叫MapR。但MapR也没能逃过经营惨淡的命运因为无法融到资金早在2019年就经历了一系列裁员后不得不卖身于HPE而收场

对于这三家公司的惨淡命运我们不禁想问问题到底出在哪里

2.2、云计算与云服务时代

让我们先来看看Hadoop体系它是一个开源组件生态系统一套技术工具集的总称。最初改变了企业存储、处理和分析数据的方式主要包含分布式文件存储HDFS、分布式计算MapReduce和资源调度Yarn等功能随着技术的演进组件也随后越来越多变得相当复杂

如果仅从技术的角度来看Hadoop让Cloudera身处尴尬的境地应当说还是存在一定的责任的主要是技术的局限性和生态的复杂性

  • Hadoop的技术局限性

    成本节约和分析性能是Hadoop最吸引人的两个点。但随着企业需求的变化面对复杂的业务、数据结构及数据源这两个优势转变成制约企业发展的因素。本地硬件扩容虽然可以满足高峰期的使用需求但大多数时间这些资源都会被闲置。本地Hadoop环境中无法将存储和计算分离因此成本也会随着数据集的增加而增加。此时云成了企业们的首选

  • Hadoop开源生态的复杂性

    作为一项开源技术虽然免费下载但Hadoop本身却很复杂对于许多有大数据处理需求的公司来说让IT部门基于Hadoop进行开发的成本太高难度也太大。一个Hadoop生态里的开源项目多达几十个这对于开源社区治理的挑战无疑是巨大的

对于一项生意来说如果要保证商业上的成功技术确实是重要的但技术却绝不是唯一重要的

我们观察到依赖于Hadoop开源生态的Cloudera遭遇的困境除了技术之外更有其业务模式上的致命弱点

开源是一种哲学但开源并不能保证你能获得足够多的资金来发展和维持你的产品。开源如何发展生意让企业能盈利基本上有两条路可选服务型公司或软件型公司。但还得找到一个可以让用户付费的方式可持续的技术服务费或软件订阅费

然而不得不承认没有弹性资源供给、扩展成本快速增加等问题已经成为企业发展的主要矛盾但Hadoop无法完全解决而云计算可以很好的解决

2016年Cloudera试图转型成云计算大数据服务提供商但由于资金等问题未能实现

2019年Cloudera与Hortonworks合并后彻底完成了转型。Cloudera果断宣布对CDH和HDP两条产品线将仅支持到2022年。对于两个产品高度重合的部分会做删减和融合结果就是推出新的数据平台CDPCloudera Data Platform。2022年后原CDH和HDP的用户会被转移到CDP上

2019年Cloudera推出了CDP公有云平台2020年又推出了CDP私有云平台。Cloudera希望通过统一的平台界面对数据进行整个生命周期管理并提供一致的安全和治理服务

但在此过程中大数据已不再是过去的大数据它已经经历了从Hadoop时代演变成云时代。由于业务模式没有及时而坚决地向云转型而错失了宝贵的机会另外面临公有云产商的竞争时Cloudera也没有有效利用许可证模式来狙击云厂商

随着云服务的崛起基于云的大数据解决方案越来越多并一定程度上体现了更高的效率。可以说云计算的侵蚀是让Cloudera陷入困境的主要原因

虽然Cloudera自第一天上市时就意识到了它的竞争对手来自AWS云服务和Microsoft Azure这样的公有云巨头但其自身在转型的过程中却拖泥带水。而当面临那些云巨头的竞争时由于Hadoop的开源许可证采用Apache的开源许可证导致它不能像MongoDB那样的开源数据库公司在同样面临云厂商的竞争时可以更容易修改开源许可证以阻击公有云厂商的竞争

现在Cloudera在做选择时会更加倾向开放的生态

目前CDP总共引入了三十多个开源组件这些组件构成了CDP的五大模块

  • 数据仓库CDWCloudera Data Warehouse计算引擎包括Hive、Impala等。
  • 机器学习CML - Cloudera Machine LearningCDP集成了Spark 3.0的RAPIDS加速器加速数据管道并大幅提升数据和机器学习工作流
  • 数据工程CDECloudera Data Engineering主要包括Spark等在数据工程方面能力很强的组件。其中Spark是Cloudera的重点项目但在方向上会做一些调整
  • 数据流式处理CDFCloudera Data Flow主要包括Kafka来保证数据加工传输Flink做流式数据计算Nifi在边缘Edge节点上做加工处理
  • 操作型数据库CODCloudera Operational Database主要是HBase负责历史数据海量存储和查询。目前HBase支持Phoenix二级索引等功能

此外在存储上CDP公有云上支持对象存储S3和ADSL私有云上支持传统的Kudu、HDFS、HBase和对象存储Ozone

针对安全问题Cloudera提出了SDXShared Data Experience框架

云原生是一个不能回避的话题Cloudera将拥抱云原生把云原生支持做的更好

3、参考文章


1https://zhuanlan.zhihu.com/p/530076039

2https://zhuanlan.zhihu.com/p/423789403

3https://cloud.tencent.com/developer/article/1926450

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: Hadoop