【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级...-CSDN博客

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

d0cf0574e93307a4f0be45260962fb1d.png

郭炜

本文由白鲸开源CEO郭炜投递并参与《2023中国企业数智化转型升级先锋人物》榜单/奖项评选。

b01dabf0f9892a4662fc4dca89cff631.png




数据智能产业创新服务媒体

——聚焦数智 · 改变商业



随着数据驱动的理念深入人心每个企业内部积累越来越多纷繁复杂的大数据而这些新兴数据源与快速敏捷开发过程给企业数据治理提出新的挑战

● 应用研发敏捷开发让应用/交易数据快速扩张数据管理部门无法快速处理和及时响应传统的数据治理流程产生巨大挑战

● 新兴数据源多云、混合云、SaaS快速发展企业“暗数据”越来越多大数据领域新兴数据孤岛越来越多根据Gartner统计目前企业的大数据有68%数据没有被分析82%企业出现数据孤岛

● 业务部门数据驱动理念深入为了满足需求多数企业建立多个数据集市让业务部门自己单独管理结果是数据指标爆炸增长数据治理的工作量越做越多数据治理的范围却越管越少

● 庞大的数据体系让数据越来越难找数据治理越来越难数据范围已经从DataOps扩大到DevOps流程分析师80%时间都在找数据和验证数据。

这些都是在这个大数据时代下每个企业在数据治理方面提出的挑战。而大模型的出现让企业通过智能化方法快速理解企业内部数据资产并帮助企业内部数据自发现、自分类、自关联从而加速企业产生数据到数据产生信息最终转化成知识的效率实现企业在数据管理方面全面数智化升级。

传统数据治理方式下智能化技术挑战

智能化数据治理的目标是让数据自发现最终实现业务部门的自服务这个目标很美好但是技术落地实践非常复杂。过去Gartner曾经评估过DataFabric的实现难度很多黄色中成熟度和红色低成熟度部分。

31487471eec1fcd29ecc2259c3d607f2.png

而具体智能化数据治理在企业落地过程中也遇到很多挑战

● 传统元数据采集和映射只有技术元数据业务元数据获取方式大部分采取人工方式大数据爆发的时代人工处理不过来

● 知识图谱传统用户画像现有的技术已经过时数据目录型态无法满足查询和找到用户所需的数据

● 数据虚拟化技术性能不足而全部同步代价又大何时自动迁移何时源库查询如何不影响OLTP环境很难判断。

●DataOps是基础代码需求测试ETL数据质量链路血缘+数据源元数据整理并不完善。

大模型促进大数据数据治理“数智化”升级

过去传统的元数据分析和数据治理技术是基于图数据库、NLP语义分析所以存在着技术元数据和业务元数据无法对应数据管理工具无法理解行业属性和行业文档等问题所以面对需要加企业业务理解业务元数据和数据资产技术元数据几乎无法实现。而大模型的自然语言理解力结合向量数据库的知识储备能力已经远超过传统NLP、图数据库这些能力将大数据数据治理“数智化”成为可能

fac7c183a5fde9d327eb9722d1b1b313.png

大模型的出现完全颠覆了以前数据治理智能化的技术框架架构下图是过去传统的数据治理技术架构

8db6bf57fde426789eda027586874de5.png

将企业的业务定义、行业理解企业业务口径定义企业内部数据库的结构甚至数据画像都通过灌入大模型最终实现对企业内部数据的全面“自动化”最终实现数据所以在大模型体系下数智化数据治理技术框架是这样的

b082b9c4619779dde51be36f0d5afcf7.png

大模型数据数据治理“数智化”实践

下图就是我在白鲸开源训练的私有化大模型WhaleLLM的效果我们可以惊喜的发现大模型可以迅速理解表述的语义特殊的业务术语并可以快速理解用户企业自己的数据库表结构甚至可以把用户需求可以用SQL直接表述出来。在这个体系下让DataFabric落地成为了可能。用一张A40显卡就可以让私有化大模型理解你的业务定义、表结构并可以告诉你数据怎么来使用甚至可以帮你把SQL准备好。

6b7cbd1966438b6491fa6b24fc42e81a.png

所以在企业环境下通过DevOps快速迭代开发应用这些应用会远远不断的产生数据和新的业务流程以及业务知识这些数据通过DataOps快速开发迭代反哺应用开发和企业决策。而在DevOps和DataOps之间源源不断在学习业务知识、业务信息、数据治理的业务知识同时也源源不断学习企业数据湖、云、数据查询规则的大模型将会成为一个企业内部的数据“万能顾问”最终让智能化的数据治理落地。

d93d2351d14d2a4a121d4690b3f66bce.png

大模型在数据治理的应用最终实现DataFabric

早在2000年初Forrester面对纷繁复杂的数据定义和数据治理体系就提出了智能化的概念DataFabric。

526ebdadc7eaa9adc1ba456e73d5b4ec.png

而什么是DataFabric中文翻译有人叫数据编织也有人叫做数据经纬从词面分析可知它的目标是把错综复杂的数据变为可快速被分析师使用可理解的数据而且无论从“经纬”还是“编织”来看都可以快速寻找到你所需要的数据目前在Gartner和Forrester是这样定义的

Data Fabric是以一种智能和安全的并且是自服务的方式动态地协调分布式的数据源跨数据平台地提供集成和可信赖的数据支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化从而实现了快速的数据分析和洞察帮助业务获得成功。

——Forrester

Data Fabric是一种新兴的数据管理设计理念可实现跨异构数据源的增强数据集成和共享通过对现有的、可发现和可推断的元数据资产进行持续分析来支持数据系统跨平台的设计、部署和使用从而实现灵活的数据交付。通过散落各处的数据孤岛都能被统一发现和使用并基于主动元数据进行建设和持续分析认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用同时通过将自动化能力添加到整体数据管理中使数据管理工作量减少 70% 并加快价值实现速度。 

——Gartner

而大模型在数据治理和数据管理方面的力度我最终认为会实现最终的DataFabric

Data Fabric是一套新兴的数据管理自服务方式通过智能化手段对企业的整体数据资源、元数据、业务规则等实现自发现、自分类、自关联并提供手段可以快速异构同步/查询的方式快速完成数据获取和分析从而实现企业数据资产全覆盖和高效的数据洞察。

——郭大侠

不止步于数智化的数据治理

Chat with Your Data最终目标

这就是结束了么并不是。我认为最终智能化的数据治理和DataFabricChat with Your Data才是目标也就是让每个有权限的员工直接可以和企业大模型对话从而实现对企业数据的访问和分析。

而这也正在一步一步成为现实现在的ChatGPT其实是互联网数据通过大量数据训练而成所以你每次和ChatGPT对话的时候你是在和整个互联网对话。而现在有很多开源工具可以让你更简单的接入企业数据自己训练自己的大模型。如下图我前面的举例白鲸开源的WhaleLLM的大模型例子就是利用Apache SeaTunnel去获得多大150多种企业数据库同步和访问的权限利用Apache DolphinScheduler来训练出来自己的DataFabric大模型。每个企业都可以简单的使用这些开源大模型生态来通过比较小的代价GPU可以使用4090、A40、V100等来训练自己的大模型。

97a64c9c4d6145cb19cc945b5f0809a8.png

当然这些开源大模型的训练生态还在迭代还有很多需要进一步提高的地方而DataFabric这个概念也是和大模型一样刚开始落地不过我相信有大模型的助力和DataFabric理念框架的指引最终在每个企业里都可以拥有自己的人工智能大数据管理平台。

未来几年企业的“数智化”升级是离不开大模型的助攻数据治理的“数智化”升级只是开始私有化开源大模型的进一步普及会让企业各方面的传统软件流程再重新构建一次让我们拭目以待

·关于郭炜

郭炜先生白鲸开源CEO毕业于北京大学现任中国通信学会开源技术委员会委员中国软件行业协会智能应用服务分会副主任委员Apache基金会成员, Apache孵化器导师全球中小企业创业联合会副会长TGO鲲鹏会北京分会会长ApacheCon Asia DataOps论坛主席波兰DataOps峰会、北美Big Data Day演讲嘉宾虎啸十年杰出数字技术人物中国开源社区最佳33人中国2021年开源杰出人物。

郭炜先生曾任易观CTO联想研究院大数据总监万达电商数据部总经理先后在中金、IBM、Teradata任大数据方重要职位对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作Presto, Alluxio,Hbase等是国内开源社区领军人物。


以上由郭炜投递申报的观点性文章最终将会角逐由数据猿与上海大数据联盟联合推出的《2023中国企业数智化转型升级先锋人物》榜单/奖项

该榜单奖项最终将于11月14日以下活动中进行榜单的首发与奖项的颁发欢迎报名莅临现场

34747f52d0d52fcb02a06855b2b08864.jpeg

c26e2c03ef56df00c525d1fce6689e65.png

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

“【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级...-CSDN博客” 的相关文章