高密度 ARM 服务器如何引领“数智时代”发展,打通“智变质变”正循环

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

并行计算 | 多样性计算 | ARM架构

深度学习 | 高性能计算 | ARM服务器

如今随着算力、高性能计算的快速发展数字经济已经成为全球经济增长的主引擎。数字经济的快速发展使得深度学习、数据分析、数据挖掘等技术迅猛发展起来。伴随国家政策东数西算的出台传统的风冷散热方式已经不足以满足散热需要这就需要新兴的液冷散热技术以此满足节能减排、静音高效的需求。

作为国内品牌服务器厂商蓝海大脑液冷GPU服务器是基于ARM 架构的基础软硬件设施、行业应用及服务涵盖从底层硬件、基础软件到上层行业应用的全产业链条。硬件方面围绕ARM处理器涵盖包括智能网卡芯片、底板管理控制器BMC芯片、固态硬盘SSD、磁盘阵列卡RAID卡、主板等部件以及个人计算机、服务器、存储等整机产品。基础软件方面涵盖操作系统、虚拟化软件、数据库、中间件、存储软件、大数据平台、数据保护和云服务等基础软件及平台软件。行业应用方面蓝海大脑产业生态覆盖政府、金融、电信、能源、大企业等各大行业应用提供全面、完整、一体化的信息化解决方案。

随着通用算力的普及各行各业的数字化得到快速发展的同属又产生更多的数据这就需要更多的算力。预计到2030年全球通用计算算力相比2020年将增长10倍AI算力将增长500倍。

计算从通用计算进入通用计算+AI计算的多样性计算时代。通用计算构建了数字经济发展的基础AI计算将成为数字经济发展的加速器。从数字化到智能化人工智能作为新的GPT将使数字经济迈向新高度。

为此华为联合合作伙伴发出《迈向智能世界计算白皮书》以下将对该白皮书进行解读一起了解算力发展六大趋势。

注由于篇幅有限需要更多详细资料请在公众号末尾留下您的邮箱小编会将PDF文件发您邮箱共同进步。

ARM 成为多样性计算的重要选择

一、产业趋势

1、应用的多样化驱动算力多样性发展

1随着自动驾驶、云游戏VR/AR等应用的兴起以及物联网、移动应用、短视频、个人娱乐、人工智能的爆炸式增长应用越来越多样化用户对应用体验的追求不断提高。数据中心侧传统单一架构难以满足要求。

万物互联的智能时代非结构化数据占比越来越大。相对应原来可以用数据库二维表结构来实现的结构化数据海量、多种多样非结构化数据如文本、图片、语音、视频等数据的加工、处理、传输自然需要多样性的计算来匹配。

举例来说CPU处理大数据、Web等场景是非常匹配的但对于图形、图像的处理需要GPU来匹配而日常生活中的图形 /图像识别、智能搜索推荐等需要基于AI计算的NPU处理。因此业务应用场景的多样性、数据的多样化使得计算进入多样性计算的新时代。

2未来超过70%的数据和应用将在边缘产生和处理。边缘和移动端设备受场景约束处理能力和性能的提升受到限制需要与云协同。随着5G的规模部署网络传输时延、带宽、连接密度均得到数量级的提升给端-边-云协同提供了基础保障。目前云、边、端的计算架构、开发模式存在较大差异应用须多次开发和部署。

2、多样性计算需求加速算力格局转换ARM算力从嵌入式场景快速延深至服务器场景 

ARM算力是从最初的端侧起步在智能手机、平板、智能电视等领域占据绝对领先的份额但随着云、边、端协同的驱动、多样性计算的发展已经开始进入到算力更高的服务器领域同时也表现出显著的优势

1在分布式数据库、大数据、Web前端等高并发应用场景中单芯片核数更多的ARM架构处理器相比传统处理器拥有更好的并发处理效率。

2绝大多数移动终端采用ARM架构处理器端云同构为开发人员在整个生态系统的编写与优化上提供便利而且能够降低异构环境开发所造成的性能损失和潜在漏洞风险。随着云化进程的推进大量基于ARM架构的终端业务与数据中心的云端业务维持同构可以实现应用开发、部署和运行的无缝协同大幅度降低开发者开发难度。

3ARM生态优势不断推动技术进步近年来不断涌现出创新的服务器产品和解决方案如蓝海大脑液冷服务器就是基于ARM架构华为基于ARM架构鲲鹏处理器打造了TaiShan系列服务器等。在高性能计算领域以ARM、RISC-V 为代表的多样性计算平台也逐渐发挥重要作用例如欧盟EPI项目致力于打造本土基于ARM架构核心处理器和RISC-V架构加速器芯片的百亿亿级超级计算机日本“富岳”超算系统采用自主开发的ARM架构处理器成为全球首台基于ARM芯片的TOP500冠军超级计算机等。

4ARM架构授权模式让合作伙伴既自主发展又共享生态平台加速产业链多样化。ARM的商业模式不以出售芯片为主而是架构授权。 合作伙伴可以根据自身需求灵活选择不同的授权模式

  • 架构授权模式基于ARM 架构可以自主扩充指令集并升级产品

  • CPU核授权模式软核和硬核基于ARM CPU IP可实现设计生产升级则需完成新CPU 核授权的获取

5)2000年x86占据市场第一份额总算力输出达到70%。到2020年算力架构发生逆转世界上最大算力架构变成了ARM平台基于ARM指令的处理器总算力输出占比超过 80%。

3、中国市场服务器侧ARM生态已逐步成熟并全面应用于国计民生行业

全球范围内以ARM为核心架构的CPU已经开始显现出增长趋势。在中国众多芯片厂商和云巨头也纷纷布局基于ARM架构的系列产品鲲鹏、飞腾已耕耘多年ARM服务器市场份额持续增加。

以鲲鹏为代表的ARM服务器已经广泛应用于包括政府、金融、电信、电力、交通、制造、教育、医疗等行业核心场景各行业生态已经建立超过12000个行业应用完成适配认证产业生态瓶颈已经消除。

二、行动建议

1、基于业务需求识别适合ARM架构的业务场景主动规划部署ARM架构服务器

数字化转型、人工智能和5G在垂直行业的广泛应用带来了海量数据处理、高能效边缘计算等问题尤其在电信、金融、政府、能源等重点行业ARM架构能够更好的满足数字化应用对IT基础设施算力的严苛要求在升级发展中发挥关键作用。

以电信行业为例5G时代数据量爆发式增长、电信云面临从架构到底层硬件基础设施的全面升级在容器化部署、分布式存储和边缘计算等关键场景都非常适合引入ARM架构充分利用其多核高并发、大内存和高内存带宽等架构优势。

1IT云方面

IT支撑系统业务逻辑更趋复杂实时数据处理、高并发数据处理、大数据分析等技术需求不断扩大容器化部署、分布式处理等场景加速向CRM、BOSS、MSS等核心系统渗透需要底层IT基础设施在并行计算、内存容量和带宽等方面提供更好能力匹配

2网络云方面

5G核心网采用原生云化设计思路和微服务架构将网元功能拆分为细颗粒度的网络服务为差异化的业务场景提供敏捷的系统架构支持核心网容器化、硬件资源池化成为发展方向对底层计算架构的多样性、负载能力和计算效率提出新要求

3边缘节点方面

为应对大视频、物联网等各类高带宽和低时延的边缘计算类业务电信云计算能力将向移动边缘节点下沉边缘数据中心 IT 基础设施将面临计算、存储等网络能力的全面提升以实现大流量、高并发、低时延的本地数据处理能力。

蓝海大脑围绕重点行业的计算诉求主动推进ARM架构服务器的应用依托ARM处理器多核高并发、高效可靠的硬件平台以及在基础软件方面的领先优势和安全特性在大数据、分布式存储、数据库和云平台等计算场景中构建安全可靠的算力底座。

2、有节奏的开展现有应用适配、迁移并基于ARM架构持续开发原生应用

以电信行业为例根据电信行业的业界专家评估绘制的《电信行业ARM架构迁移路径图》显示ARM架构平均优势高平均迁移难度较小其中云核心网、大数据经营分析系统、大数据网络优化平台、CRM前台和中台、网关资源管理系统、网管性能管理系统、BOSS话单存储、Cloud VR等系统的ARM架构优势明显并且迁移难度偏低均可优先考虑适配迁移。

在迁移过程中针对行业应用跨架构迁移周期长、工作量大的问题通过ARM架构配套的应用迁移工具将代码修改、汇编语言翻译、兼容文件替换、编译调试、调优诊断等迁移关键步骤在工具辅助下自动完成降低开发人员技术门槛、提升应用迁移效率引导行业加快应用迁移进展。

迁移完成之后在后续版本迭代及新功能开发过程中通过ARM架构配套的开发工具帮助开发人员便捷获取和使用ARM架构优势特性开发出高性能软件同时自动完成典型场景下的应用包构建和执行提升开发效率和体验引导开发人员持续基于ARM架构原生开发行业应用深入构建行业软件生态。

3、通过全栈软硬件优化充分释放多样算力发挥极致性能

为适应行业应用快速创新及多样性计算的需求进一步提升软件运行性能面向ARM架构的全栈优化能力必不可少通过使用包括一系列的硬件加速库、软件加速包、开源加速组件、典型场景的性能优化解决方案等围绕硬件、基础软件到场景化应用开展全栈优化充分发挥应用极致性能。

1硬件加速

提供CPU、内存、磁盘、网络子系统等硬件基础性能优化参考包括系统硬件配置优化方法及硬件加速库消除性能瓶颈提升硬件资源利用率

2软件加速

围绕系统指令、媒体转码、数学算法、存储网络等方向提供一系列软件加速包优化大数据加解密、分布式存储压缩、视频转码等常用软件性能

3基础软件优化

开源软件作为最重要的软件开发模式之一是软件生态的核心让开源软件与ARM平台进行充分的适配和优化尤为重要持续在开源社区贡献关键性能优化成果提供典型场景下的开源加速组件让主流开源软件能够在ARM架构上发挥最佳性能

4典型场景优化

面向大数据、分布式存储和数据库等行业应用的典型计算场景提供加速数据处理、优化存储访问和提升算力部署密度的场景优化方案有针对性的提升行业应用性能

三、解决方案

蓝海大脑提供基于ARM架构的鲲鹏全栈基础软件平台解决方案 

鲲鹏计算产业是基于鲲鹏处理器基于ARM 架构的基础软硬件设施、行业应用及服务涵盖从底层硬件、基础软件到上层行业应用的全产业链条。纵观鲲鹏计算产业生态全景硬件方面围绕鲲鹏处理器涵盖包括智能网卡芯片、底板管理控制器BMC芯片、固态硬盘SSD、磁盘阵列卡RAID卡、主板等部件以及个人计算机、服务器、存储等整机产品。基础软件方面涵盖操作系统、虚拟化软件、数据库、中间件、存储软件、大数据平台、数据保护和云服务等基础软件及平台软件。行业应用方面鲲鹏计算产业生态覆盖政府、金融、电信、能源、大企业等各大行业应用提供全面、完整、一体化的信息化解决方案。

鲲鹏计算产业从2019年正式起航在全球鲲鹏计算产业伙伴的共同努力下已经构筑了完整的基础软硬件生态和人才发展体系并在各大国计民生行业实现了规模商用落地为行业数字化变革和应用创新提供了强大稳定的算力支持。

作为鲲鹏计算产业的发起者和重要成员华为秉持“硬件开放、软件开源、使能伙伴发展人才”的策略通过战略性、长周期的研发投入吸纳全球计算产业的优秀人才和先进技术和产业伙伴一起持续推进全栈计算技术的创新发展构筑面向多样性计算的全球开源体系与产业标准推动鲲鹏生态全面发展。

1、鲲鹏主板开放伙伴优先使能商业成功

2019年华为面向伙伴开放基于鲲鹏处理器的主板、网卡、硬盘等标准部件帮助整机合作伙伴快速推出自有品牌的服务器产品。

2020年华为发布了主板开放2.0通过基础板+扩展板的开放模式基础板沉淀共性减少伙伴重复开发扩展板实现创新使能伙伴差异化竞争力同时结合BIOS/BMC软件开放支持伙伴自行开发差异化部件打造创新整机产品。当前鲲鹏主板走向更加开放华为仅聚焦“CPU+内存”最小计算单元通过全量组件化方式实现从使能伙伴创新走向伙伴主导创新。

此外在鲲鹏主板开放的同时华为从研发、制造、采购供应、服务、商业模式、解决方案、市场、人力资源、财务、文化十大方面全方面对伙伴进行赋能帮助伙伴快速成长使能合作伙伴打造更有竞争力的鲲鹏计算产品。

市场上华为践行伙伴优先将自有品牌TaiShan服务器逐步退出市场和伙伴不竞争把市场空间让出来支持伙伴商业成功2022年1到10月伙伴出货占比已达95%以上。

2、基础软件开源持续创新实现最佳支持鲲鹏

基础软件方面华为坚定开源把自身多年来构建的操作系统能力和数据库能力开源出来让合作伙伴能够在此基础上做增量开发由此来提升中国的基础软件产业水平和伙伴共建生态。并创建了openEuler开源社区和openGauss开源社区以社区 运作的方式同产业伙伴和广大开发者共同构建基础软件生态。

当前无论是openEuler或是openGauss均在鲲鹏服务器上做了大量的性能优化工作最终实现最佳支持鲲鹏为鲲鹏生态的体系构建奠定了基础。 

以openGauss为例通过NUMA-Aware优化Inplace-Update融合引擎多存储引擎架构软硬协同优化等技术为用户带来多样化业务场景下极致、稳定的数据业务处理能力在鲲鹏2路服务器上实现性能达150W TpmC鲲鹏4路服务器上达230W TpmC单节点处理能力业界领先同时保持內核在高负载情况下性能抖动小于5%业界稳定性最优。在2022年4月openGauss3.0版本发布分布式解决方案在性能方面持续精进16节点性能达到1000万 tpmC领先目前竞品性能2倍。

3、使能极简开发极致性能繁荣应用生态

鲲鹏开发套件鲲鹏DevKit使能应用极简开发鲲鹏生态发展的关键挑战是应用软件迁移为了帮助开发者加速应用迁移和算力升级华为提供鲲鹏开发套件DevKit包括代码迁移、开发调试、编译、测试、调优和诊断等一系列工具套件。 

鲲鹏DevKit主要面向不同计算平台间的应用迁移以及鲲鹏平台原生开发当前实现1-2人天应用无忧迁移。2022年鲲鹏DevKit2.0聚焦原生开发能力增强面向全研发作业流程提供鲲鹏开发框架和场景化SDK、鲲鹏编译工具、鲲鹏调试器、云测服务、以及面向全场景性能分析和调优让开发者更便捷高效的基于鲲鹏原生开发效率提升50%+。

鲲鹏BoostKit从硬件、基础软件到场景化应用开展全栈优化主要面向伙伴和客户的开发者提供高性能开源组件、基础加速软件包、应用加速软件包使能应用极致性能。其中高性能开源组件由伙伴从开源社区、鲲鹏社区获取直接编译/部署目前90%主流开源软件已支持鲲鹏实现开源软件在鲲鹏上开箱即用。基础加速软件包面向伙伴开源、开放丰富的基础性能优化方法、加速库、加速算法释放鲲鹏算力。应用加速软件包联合伙伴开展解决方案创新提供业界领先的加速组件、算法实现应用性能倍增。

鲲鹏BoostKit 1.0面向鲲鹏聚焦的八大主力场景把鲲鹏算力性能发挥到极致。在很多传统计算负载中CPU的实际利用率并不高大量有效计算能力浪费在等待数据的加载上。2021 年全新推出的BoostKit 2.0提供五大类“数据亲和”加速组件包括数据就近计算数据加速传输数据并行化处理数据安全等对数据全处理流程进行负载优化从而大幅提升应用性能。

通过使能极简开发、极致性能鲲鹏在国计民生行业的技术生态满足度从19年的仅9%逐年稳步提升22年底预计达70%以上生态兼容性的瓶颈已基本消除初步构建起繁荣的鲲鹏应用生态。

4、全栈协同加速行业规模应用

鲲鹏与伙伴、开发者一路前行全面进入国计民生行业核心应用场景。在政府鲲鹏与北明、超图、太极和神州软件等伙伴服务于各省市政务云在金融鲲鹏携手长亮、麒麟软件、科蓝、华锐等伙伴服务于大行和金融机构的核心交易系统。

在电信运营商鲲鹏和亚信、浩瀚深度、东方国信等伙伴服务于三大运营商的网络云、IT云与公有云。在电力鲲鹏携手南瑞集团、许继、麒麟信安和岳能科技等伙伴服务于国网、南网电力调度系统。

邮储银行作为拥有百年历史的金融机构在中国有6亿用户4万个营销网点是国家普惠金融的主力为国民经济发展做了突出贡献。现有的核心系统采用经典的大型机+商业软件搭建而成支撑了邮储银行初期信息化电子金融。但随着金融服务在线化小额交易频次越来越高等这些服务场景的变化对传统的核心系统带来了巨烈的冲击尤其在交易热点时段现有系统弹性不足造成交易缓慢。商业软件架构与技术封闭迭代慢在应对金融创新乏力。无法继续支撑邮储银行向前发展。

因此邮储银行从19年初开始启动下一代金融核心的预研为了保持持续创力的能力和可能邮储银行决定基于通用计算平台加开源软件技术构建分布基础IT能力。整个不仅保持灵活的资源扩缩容能力还具有丰富的开源软件生态使未来的技术获取等方面成本更低。同时邮储采用企业级业务建模对邮储上千种业务进行抽像建模使用业务逻辑关系更清晰。 

同时基于鲲鹏服务器和openGauss的原型验证结果超越客户预期。并引入了微服务容器等业界先进成熟的技术。经过一年多的建设并于21年4月18日技术平台上线开始接入生产系统进行镜像验证于6月上线分布式运维系统利用AI技术解决海量节点带来的运维复杂度。系统于22年3月份全量投产支持邮储日均20亿笔的交易和未来10年的业务发展。 

邮储银行是国內首个建成新一代个人业务新核心的国有大行证明了鲲鹏openGauss在金融这种的对可靠性和性能要求极高的场景不但可以胜任 而且可以很好鲲鹏的多核、高并发结合openGauss高性能、高可用及智能运维等內核能力助力邮储个人新核心业务处理能力5倍提升支取和查询等核心业务场景的性能提升25%以上这些数据都可以提升客户的使用体验与感知提升满意度加强邮储银行服务竞争力。 

邮储银行通过分布式金融新核心建设在金融服务技术上已走到同行前列相信凭借邮储银行人的勇于开拓的创新精神未来会持续领先为同业树立新的标杆和为用户带来更好的服务。

多样性算力全场景的协同

操作系统作为计算产业中最基础的软件承担着抽象底层硬件向上层应用提供统一接口的核心功能是计算产业的关键环节。面向多样性计算和海量应用场景操作系统应支持多样算力和多种应用的协同成为数字产业的可靠软件底座。

一、产业趋势

在IT产业的全栈系统中处理器是硬件的基础操作系统是所有软件的根基。

操作系统作为连接底层基础硬件处理器整机/部件和上层应用的最基础软件被称为IT产业的魂硬件提供算力的供给应用软件是算力价值的实现而操作系统则完成算力释放。一方面操作系统面向硬件系统提供更好更高效的硬件资源管理能力另一方面操作系统面向应用和用户沉淀应用领域共性提供更为便利易用的人机交互。

1、多样性计算时代呼唤面向数字基础设施的操作系统 

计算产业从通用计算已经进入到通用计算+AI计算的多样性计算时代。多种算力协同发展对操作系统提出了新的要求。首先操作系统对上层应用要屏蔽不同硬件的差异提供统一的接口要完成不同计算架构、不同硬件的兼容适配提供良好的兼容 性为应软件用的部署提供尽可能的便利。其次针对不同的硬件的特征操作系统需要针对性的优化确保能充分发挥硬件的能力提升性能。比如基于ARM架构的处理器其典型特征是核数更多这使得ARM处理器在高并发应用场景更具竞争力。因此操作系统需要针对多核的处理器进行优化确保多核任务并发时的任务调度更加合理避免任务冲突提高系统整体性能。 

此外除了针对不同架构的CPU优化CPU和GPU、NPU等其他特定用途之间处理器之间的协同也是影响系统效率的关键因素。操作系统层面在处理CPU任务和GPU、NPU任务时协调好这些任务的调度成为必要的能力。

2、数字化走向深入操作系统面向云管边端全场景应用协同发展

随着云计算的快速发展云计算和云服务已经成为各企业进行数字化转型的优先选择。无论是高科技行业还是传统行业无论是大企业还是小企业都可以通过云服务随时随地获取数字化转型所必需的计算、存储等硬件资源大数据、AI、IoT 等技术资源以及凝结了领先企业大量投入的经验知识资源极大提升了企业运行效率。

云上的应用与其他场景的应用协同场景越来越丰富比如AI应用在云和边缘的协同。通过云端充足强大的算力进行AI训练而且云端能很好的支持多种不同的服务和AI框架此外云端可以简化训练的开发无需软件下载、无需配置、无需安装。边缘端则利用靠近数据产生和采集的优势在边缘端可以迅速把采集的数据拿去做推理快速得到推理结果的同时避免了向云端传输大量数据带来的高成本。 

因此操作系统通过在软件底层实现应用在云、管、边、端、数据的高效、可靠、安全交换是可以大幅提升系统整体效率和安全性的。

3、开源成为主流软件开发模式 操作系统开源共建成为产业共识 

开源已经成为主流软件开发模式。从全球范围来看过去一年开源整体呈现高速发展的趋势。据最新官方报告2021年全球最大开源代码平台GitHub活跃用户数和活跃代码仓库数量均有明显增长其中新增活跃用户数超过 1600 万、新增活跃代码仓库数量超过 6100 万。中国开源贡献者占比明显提升从2015年的7%的占比快速提升至2021年的11%。开源模式越来越成为全球软件技术和产业创新的主导模式。 

同时开放开源是软件技术创新特别是发展操作系统这类基础软件的重要途径充分利用开源参与开源支持开源发展操作系统联合做大做强是当前最为可行之路。构建根植于中国的开源社区培养良好的土壤和与环境可以为产业打造可持续发展的创新之地。

二、行动建议

1、规划部署支持数字基础设施多样算力的操作系统使能全场景应用协同创新 

通过规划部署支持不同应用场景、支持多样性算力的统一数字基础设施操作系统打通不同硬件架构和多种场景应用实现更优的性能业务更好的协同。

在企业的各类数字应用场景中通常部署了各种不同类型的计算设备典型的包括服务器、边缘设备嵌入式等等。不同设备安装各类不同的操作系统给整体系统运行运维带来挑战设备间的互联互通复杂度也因此显著提升不同应用之间的可靠、安全的交互协同相对繁琐。

统一的数字基础设施操作系统可以实现从操作系统底层完成设备间的连接、数据交互从而大幅提升运行运维效率。 

2、分析应用迁移策略制定应用迁移计划完成应用高效迁移 

部署新的操作系统应选择具备可持续演进性、基础兼容性和支持应用快速迁移的能力的技术路线。可持续演进是指除了可靠、稳定、安全等基础能力外所选择的技术路线有具备独立维护、长期演进的机制和能力基础兼容性是指在操作系统南向各类处理器、整机、板卡的兼容性支持以及北向的各类应用的适配性应用迁移能力是指需要提供包括兼容性识别、应用迁移与调优系统测试等全流程的自动化工具和技术支持文档。 

操作系统迁移是一个系统工程包括从技术路线选型、系统分析、方案设计、移植适 配、迁移实施和测试上线等全流程因此需要组建合理的团队、详细的计划有节奏分阶段实施在确保业务持续稳定运行的情况下有序开展。

3、加入开源操作系统社区积极拥抱开源、回馈开源 

通过主动加入开源社区与社区核心组织和成员的运作与沟通保持与业界各类领先技术的同步可获取最新的技术趋势、业务方向以及关键支撑。企业、高校、操作系统厂商等组织单位加入操作系统开源社区加强交流合作共建共赢共同发展。

更为重要的是操作系统开源社区提供各类开发工具硬件资源技术指导以及各类在线服务企业鼓励有能力的开发人员加入社区获取最新的开发手册、技术补丁以及开发平台可以大幅度提升应用开发效率。成熟的开源社区除了提供日常代码审核、提交的工具之外还包括大量满足开发全流程所需要的各类资源同时社区是技术人员积累能力、了解技术趋势、解决技术难题互相交流的平台。

三、解决方案 

华为是全球领先的ICT信息与通信基础设施和智能终端提供商在ICT领域提供包括服务器、存储、云服务、边缘计算、基站、路由器、工业控制等各类产品和解决方案。在多年的全系列产品研发过程中不断累积软件根技术全面布局操作系统等基础软件满足自身业务发展需要。 

2019年12月华为创立欧拉开源项目通过开源的方式把积累的操作系统能力开放出来携手产业伙伴共同发展操作系统产业得到了产业积极响应。

目前欧拉开源操作系统发展迅速生态快速构建已累计实现超过245万套装机国内新增市场份额超过22%跨越生态拐点成为企业数字化转型、应用创新、构筑安全可靠操作系统的首选技术路线。

1、欧拉面向数字基础设施的开源操作系统

欧拉是面向数字基础设施的开源操作系统支持服务器、云计算、边缘计算、嵌入式等应用场景支持多样性计算致力于提供安全、稳定、易用的操作系统。通过为应用提供确定性保障能力支持OT领域应用及OT与ICT的融合。

欧拉持续丰富南向多样性设备支持北向使能 IT、CT和OT全场景应用。当前欧拉已经实现主流计算架构100%覆盖支持包括ARM、x86、RISC-V等全部主流CPU指令集同时支持NPU、GPU和DPU等多种异构算力适配超过100款整机、300款板卡成为最佳支持多样性算力的开源操作系统。在北向应用生态上与伙伴协作适配了一万多款应用主流应用场景100%支持满足各行业不同应用需求。

1统一操作系统支持多设备

通过一套操作系统架构支持多样性设备。欧拉采用全量组件原子化支持内核灵活组合全栈服务化按需构建可以根据设备不同的资源能力和业务需求灵活裁剪按需构建不同的操作系统版本满足不同设备对于操作系统的要求。

同时欧拉支持构建服务自助化支持“菜单式”配置内核和系统服务可以针对软件包、文件级、函数级的不同层级分级灵活组合自动化、简化版本构建。 进一步欧拉还提供多设备协同套件来实现不同设备间的能力互助和资源共享。 

2应用一次开发覆盖全场景

欧拉通过一套标准APIICT+OT全场景提供统一API这样就实现了操作系统与应用之间交互语言的统一 同时通过欧拉SDK把各种应用所需数据能力、音视频能力、安全等能力进行统一封装使能极简开发欧拉Devkit开发套件还可以方便的集成到各种主流应用开发平台。 

3欧拉与鸿蒙能力共享生态互通

欧拉是数字基础设施开源操作系统鸿蒙是面向万物互联的智能终端操作系统欧拉和鸿蒙进一步打通就可以更好地服务数字全场景。欧拉和鸿蒙已经实现了内核技术和分布式能力共享。通过共享分布式套件实现了欧拉和鸿蒙的互通两大开源操作系统打通欧拉覆盖云管边鸿蒙覆盖端欧拉+鸿蒙共同服务全场景数字应用。未来进一步在安全OS、设备驱动框架、以及新编程语言等方面实现共享通过能力共享实现生态互通。

2、欧拉开源共建已构建成熟的产业生态

1欧拉开源项目

2019年12月华为创建欧拉开源项目成立欧拉开源社区开源代码上线。 

2021年11月在操作系统产业峰会2021上在“政产学研用”各方代表的共同见证下华为携手社区全体伙伴将欧拉开源操作系统全量代码、品牌商标、社区基础设施等相关资产贡献给中国开放原子开源基金会具体包括华为自己开发的数百万的自研代码版权和知识产权许可超过8000多个经过华为和社区验证的软件包openEuler以及相关项目的中英文的商标品牌共30多个域名4个以及构建服务与测试体系代码托管社区运营平台等社区基础设施。这实现了欧拉开源操作系统从企业 主导到产业主导的重要转变有利于促进欧拉开源项目从开放治理走向自治繁荣。

2欧拉生态繁荣欧拉社区已成为国内最具活力开源社区 

截止目前国内外10+家主流操作系统厂商 麒麟、统信、麒麟信安、SUSE等均已发布了欧拉路线的操作系统商业发行版社区当前已有超过400家企业加入汇聚了从处理 器、整机、到基础软件、应用软件、行业客户等全产业链核心伙伴社区已经有超过1万名开源贡献者创立近100个SIG组特别兴趣小组社区维护的核心软件包达到8000多个。 

欧拉创新领先的技术良好的硬件兼容性丰富的应用软件生态和覆盖全场景的部署能力为欧拉的规模部署提供了充分的条件。 

截至目前欧拉技术路线的操作系统已经在数字政府、电信、金融、电力等多个行业实现大规模部署应用在核心系统中为各行业提供稳定、可靠的数字根基累计部署量超过245万套国内新增市场份额占比达到22%在数字政府、金融行业增速第一。 

部署欧拉路线操作系统的用户包括三大运营商中国移动、中国电信、中国联通、两大电网国家电网、南方电网以及多个大型国有和商业银行建设银行、工商银行、中信银行、中国银联等等。典型应用案例包括中移在线大数据平台、中国电信云平台、国家电网核心调度系统、中国建设银行信用卡核心系统等等。

3、欧拉以发展根技术引领操作系统创新

欧拉以内核级创新打造最佳多样性算力支持、全场景数字基础设施操作系统成为企业数字化转型、应用创新的首选可靠操作系统技术路线。

欧拉引领操作系统内核创新。作为社区主要成员华为自 2012 年以来向 Linux Kernel 社区贡献在 Linux Kernel 5.10版本中华为内核代码贡献排名第一。

欧拉最佳支持多样性算力。支持鲲鹏、x86、飞腾、龙芯、申威、RISC-V等多种处理器架构并且性能相比主流操作系统更佳。

欧拉打破不同场景操作系统生态壁垒成为首个全场景数字基础设施操作系统。欧拉统一支持服务器、云计算、边缘计算、嵌入式等等应用场景。

截止目前欧拉已经发布2个LTS长生命周期支持版本和4个创新版本。华为不做欧拉商业发行版通过社区使能伙伴商业发行版、企业自用版、社区发行版等多种形式促进操作系统产业健康、高速发展。华为持续在欧拉开源项目贡献包括技术创新、社区运营、生态建设等。华为联接、计算和云等各领域继续全面使用欧拉技术路线以社区版本为基线构筑华为自用操作系统版本。

欧拉技术路线的操作系统主要包括以下集中形式

1社区发行版

由欧拉社区成员和社区开发者共同构建发布的开源操作系统版本以免费的形式通过社区提供。社区每2年发布一个长周期LTSLong Term Support版本 比如openEuler 20.03 LTS版openEuler 22.03 LTS版。

2商业发行版

操作系统产业伙伴即OSV 结合各自的优势基于欧拉的社区版开发自己的商业发行版操作系统面向最终用户提供和销售有竞争力的产品。比如麒麟软件有限公司的银河麒麟高级服务器操作系统V10、统信服务器操作系统V201020e 麒麟信安操作系统V3欧拉版SUSE数硕Linux等。

3企业自用版

具备自研能力的企业基于欧拉的社区发行版开发自用的操作系统版本 非独立销售或不销售。比如华为公司通信设备搭载的自研操作系统、中国移动BCLinux for Euler、中国电信CTyunOS中国联通CULinux、百度 Linux 智能云操作系统等。

人工智能算力增长是主要增量

一、宏观趋势

1、数字经济飞速发展将催生强劲算力需求人工智能算力是主要增量

当前数字经济正在成为全球经济的主要增长点算力作为数字经济时代新的生产力是支撑数字经济发展的坚实基础。算力已成为全球战略竞争新焦点是国民经济发展的重要引擎全球各国的算力水平与经济发展水平也呈现出显著的正相关。 

与此同时人工智能技术的不断发展带来了远远超越摩尔定律的算力需求。从2011年深度学习技术兴起到今天对人工智能算力的需求一直是指数级增长的每隔3-4个月算力需求翻一倍。2020年自然语言处理模型GPT-3参数量达到1750亿算力需求是3640PDPD代表 以千万亿次每秒的算力计算一天所用的浮点计算量2021年鹏程盘古——业界首个全开源 2000亿参数中文预训练语言模型使用E级AI算力的鹏城云脑II算了50天算力需求达到了 25000PD到2023年这种大模型的算力需求能到百万PD这就对现有计算处理能力提出了严峻的考验。 

在蓬勃的需求带动下全球算力发展水平正在持续扩大而在这其中人工智能算力成为主要增量。华为预测到2030年人类将进入YB 数据时代全球通用算力将增长10倍达到3.3 ZFLOPS(FP32)人工智能算力将增长500倍 超过105 ZFLOPS(FP16)。

2、人工智能正日益快速渗透行业 应用的核心场景

人工智能技术的落地为行业带来更多价值不仅提高了企业的运作效率、生产效率还推动了企业创新的能力。调研发现采用人工智能三年以上的企业已经在多方面获得显著的收益实现收入增加和生产效率提升。在2021的行业调研中TOP3的行业人工智能渗透度均超过了50%最高的渗透度甚至超过了80%。

人工智能将在城市、交通、制造、能源、医药、教育、农业等行业持续渗透为衣食住行带来更智能的体验在城市领域城市的智慧化治理成为实现城市可持续发展的必然选择。未来每一个物理实体都将有一个数字孪生如城市楼宇、水资源、基础设施等将组成城市数字孪生实现更加智能的城市管理。城市智慧治理将带来100 倍的社会数据聚集人工智能技术将实现高效城市治理。 

在交通领域预计2030年全球道路上的电动汽车、面包车、重型卡车和公共汽车数量将达到1.45亿辆。每辆汽车行驶中产生的数据需要在汽车与城市之间频繁进行数据交换借助智慧交通基础设施的AI分析能力城市通勤时间将得到大幅提升日均通勤缩短15-30分钟交通事故和汽车对城市碳排放量也随之大幅降低。智能带来的交通安全、效率、体验的提升必将释放出新的生产力推动社会经济的发展。 

在制造领域AI可以帮助制造企业实现智慧化运营管理、海量数据分析挖掘以及低时延诊断预警。中国制造2025提出制造业重点领域全面实现智能化试点示范项目运营成本将降低50%产品生产周期缩短50%不良品率降低50%。 人工智能将融入千行百业的核心场景实现多个人工智能场景的落地带来源源不断的创新与无所不及的智能。

二、行动建议 

1、加速AI基础设施建设让AI算力成为像水和电一样的公共资源

作为新基建的重要组成部分人工智能已经成为数字经济发展的重要驱动力人工智能产业在发展过程中仍面临诸多挑战。

1人工智能产业布局不均衡

通过对多个城市的实际调研发现人工智能产业存在基础薄弱和研发实力弱等情况无法匹配产业发展规划和战略布局

2企业使用AI算力成本高

大规模预训练模型的参数量越来越大需要的算力也从TFLOPS级别增加到PFLOPS级别多数企业表示当前算力不足。企业使用人工智能算力成本昂贵仅算力成本就占据企业开发成本的15%~25%

3AI人才缺口大

大量人工智能企业表示缺乏AI技术人才在全国各地都缺乏核心AI技术人才的背景下加强培育本土AI人才非常必要。鉴于上述挑战建议大力发展以人工智能计算中心为代表的新型基础设施让AI成为水和电一样的基础公共资源为数字经济发展提供新动能。

人工智能计算中心建设具有技术实现复杂、建设周期长、资源投入巨大、产业辐射面广的特点需要进一步强化战略统筹和政策保障进行系统的组织机制和体制创新加强关键核心技术攻关和标准化建设以加快推动人工智能计算中心的高质量发展和网络化建设。系统总结已建成的人工智能计算中心的建设经验持续加强人工智能计算中心的统筹建设在确保已建成的人工智能计算中心保持高效运营的同时顺应人工智能发展趋势和产业落地的需求坚持以应用为导向坚持自主创新技术路线加强人工智能计算中心建设。

2、加速人工智能进入行业关键场景使能行业智能化升级

促进人工智能与各行业融合创新在城市、交通、制造、能源、医疗、金融等重点行业和领域开展人工智能应用试点示范推动人工智能规模化应用全面提升产业发展智能化水平

1智慧城市

构建适用于政府服务与决策的人工智能融合赋能平台实现AI在智慧城市建设中 “大脑”般的智慧将人工智能技术与城市应 用场景深度融合实现城市在各类场景下的高效治理。研制面向开放环境的决策引擎在复杂社会问题研判、政策评估、风险预警、应急处置等重大战略决策方面推广应用

2智慧交通

针对高速公路自由流收费、收费稽核、视频云联网、车路协同等典型交通AI应用场景打造智慧交通解决方案用人工智能技术对车辆、轨迹等进行智能分析让出行管理更高效让通行更通畅

3智慧制造

打造数字工厂AI使能解决方案为制造行业量身定制的质量检测、厂区安全等应用领域的一站式、高精度、支持快速换线、开箱即用的AI解决方案打通AI落地制造行业的“最后一公里”加速AI应用在工厂规模化部署把AI带入每一条产线为工厂生产和运营提质增效

4智慧巡检

用人工智能的分析取代传统的人工巡检让巡检更安全效率和准确率更高。 结合智能电网、智能油气和智能矿山的发展需求以AI技术为基础打造智慧巡检解决方 案为输电线路、变电站、配电房、油气田、加油站和煤矿等场景提供区域智能感知

5智慧医疗

打造传染病AI监测预警平台、紧密型县域医共体AI解决方案、智慧医院AI 解决方案等助力医疗行业智能化升级将AI科技进步服务于人类健康

6智慧金融

面向金融行业提供更加高效、安全、个性化的综合性金融解决方案贯穿于金融服务垂直全流程为银行智慧网点、金融OCR、智能双录等AI应用场景提供智慧化解决方案。

三、解决方案

1、以昇腾AI基础软硬件平台构筑智能根基

昇腾AI产业是以昇腾AI基础软硬件平台为基础坚持“硬件开放、软件开源、使能伙伴、 发展人才”联合技术和商业伙伴打造“共建、共享、共赢”的人工智能产业致力于让 AI“用得起、用得好、用得放心”以人工智能赋能社会发展与产业升级为人类社会发展带来价值。

昇腾AI产业(简称昇腾AI/昇腾)是以昇腾AI基础软硬件平台为基础构建的人工智能计算产业。 昇腾AI基础软硬件平台包含Atlas系列硬件及伙伴硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX、全流程开发工具链MindStudio和一站式AI开发平台ModelArts等。

1Atlas系列硬件及伙伴硬件

基于昇腾AI处理器通过模组、板卡、小站、服务器、集群等丰富的产品形态打造面向“云、 边、端”的全场景昇腾AI基础设施解决方案

2异构计算架构CANN

异构计算架构CANN北向支持业界主流AI 框架南向支持系列化芯片的硬件差异通过软硬协同充分释放硬件的澎湃算力

3全场景AI框架昇思MindSpore

全场景AI框架昇思MindSpore致力于成为全球主流AI框架具备一次开发云边端全场景部署、原生支持大模型训练、支持AI+科学计算等关键特性加速科研创新和产业应用

4MindX昇腾应用使能

昇腾应用使能MindX包含深度学习使能MindX DL、智能边缘使能MindX Edge、模型优选库ModelZoo和行业应用开发套件MindX SDK旨在沉淀行业知识使能行业应用极简开发加速人工智能应用落地

2、以“一中心四平台”建设人工智能计算中心打造人工智能算力基础设施

1人工智能计算中心

是专注于AI计算的新型城市基础设施它以昇腾AI基础软硬件平台为基础是涵盖了从基建基础设施、硬件基础设施到软件基础设施的完整系统。作为一体化城市人工智能新型基础设施AICC承载着“一中心四平台”的产业模式创新解决算力普惠、科研创新、应用孵化与落地、人才培养等AI发展关键问题旨在让AI算力像水和电一样成为城市公共基础资源为数字经济发展提供新动能让智能无所不及

2公共算力服务平台

通过产业政策牵引将人工智能计算中心的算力资源有序、高效、普惠地开放给当地的企业、科研机构和高校解决当地AI技术发展和产业智能升级的算力和服务需求

3应用创新孵化平台

各地AI企业、高校、科研机构针对各地特色的AI应用场景项目机会依托人工智能计算中心进行科技创新成果商用转化、形成有本地特色的的重大产品创新和示范应用

4产业聚合发展平台

依托计算中心配套相关产业政策、吸引和招募AI产业链上的各类公司算法公司、数据处理公司、行业集成公司等入驻形成完整产业闭环促进和推动AI产业集约集聚发展

5科研创新和人才培养平台

基于人工智能计算中心充沛的算力资源促进高校院所联合行业龙头企业围绕产业技术创新需求开展人工智能技术研发、科技成果转化等重点工作落地科技创新成果的、培养关键人才。

当前在国家统筹规划下已有20多个城市在规划和建设人工智能计算中心华为也积极参与其中。深圳、武汉、中原、西安、成都、南京、杭州、沈阳、青岛、重庆已相继上线或试运营已经累计为1200+企业、120+高校、70+科研单位提供了算力服务。 

深圳“鹏城云脑II”于2020年10月正式上线实现上线即饱和运营其三项打榜获得世界第一2021年7月在IO500排行榜中蝉联全系统输入输出和10节点规模系统两项世界冠军。其中全系统输入输出性能超越第二名近20 倍至今仍保持榜单第一。2021年11月在AI  Perf500排行榜中保持世界第一。依托鹏城云脑IIE级的澎湃算力鹏城实验室与华为联合研发了全开源开放的两千亿参数中文NLP大模型鹏程.盘古以及赋能生物医药探索的大模型鹏程神农。

武汉人工智能计算中心基于昇腾AI基础软硬件建设于2021年5月31日正式竣工并投入运营上线即算力资源满负荷使用。于2022年2 月7日完成扩容总算力达200P并再次饱和运营。率先实践“一中心四平台”开创“武 汉模式”。5个月从进场施工到正式投运让业界见证了“武汉速度”打造了全国人工智能示范标杆。目前基于武汉人工智能计算中心孵化了全球全球首个三模态大模型——紫东太初全球首个遥感影像智能解译专用框架——武汉LuojiaNet业界最大遥感影像样本数据集——武汉LuojiaSet并成立多模态人工智能产业联盟和智能遥感开源生态联盟为武汉孵化数百亿级智能遥感和多模态产业大于300亿截止到2022年9月底已服务企业120+孵化AI创新解决方案130+。

3、产学研携手共筑人工智能产业生态

华为开放昇腾AI基础软硬件平台包括Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等帮助伙伴和开发者高效使用AI能力创新场景化AI应用加速千行百业智能升级。 

完成昇腾AI生态的初步构建目前发展了100 万+开发者在100多所高校开设昇腾AI相关的人工智能课程发展700+行业合作伙伴共同孵化了超过1600+解决方案为中国人工智能产业繁荣提供一个强健、稳固的基石。 

全场景AI框架昇思MindSpore是业界首个全自动并行的框架且具备全场景协同和全流程极简的特点。华为于2020年3月28日开源昇思 MindSpore框架开源后获得国内外开发者的积极响应访问量数千万超过320万用户下载安装使用在码云千万开源项目中综合排名第一服务企业数量超过5500家高校授课数量超过140所超过40所科研机构选择昇思进行科研创新社区贡献者达8000+ModelZoo支持模型350+获得业界首个AI框架类产品级CC安全认证和AI可信开源社区认证成为国内最具创新活力的AI开源社区。 

昇腾众智计划是华为围绕昇腾基础软件平台推出的一项生态合作计划旨在汇聚高校、科研院所、企业等组织和机构的开发团队通过项目合作方式基于昇腾基础软硬件平台开发算子、网络模型及行业参考设计不断丰富昇腾计算产业生态为加速千行百业智能化升级贡献智慧与力量。目前通过昇腾众智计划已经完成4000多个AI模型、算子等。2022年将继续投入2亿人民币激励基金推出超过4000 个众智任务。 

此外在人才培养方面教育部-华为“智能基座”产教融合协同育人基地项目由教育部、华为于2020年底联合发起首批布局72所高校。 

华为联合72所高校持续深化“智能基座”项目在理工科专业深入实践产教融合把鲲鹏、昇腾、欧拉、高斯、昇思等根技术融入高校教学。目前已赋能3000多个老师开设 1500多门课程覆盖了30多万学生成立了72 个智能基座社团出版约20本教材教辅书籍和12门精品慕课并推出“智能基座”优秀教学资源奖励计划激励更多教师百花齐放自主开发教材和慕课。华为联合教育部已建设17个教育部智能基座课程虚拟教研室。

大模型成为 AI 规模应用重要途径

一、宏观趋势

1、“大算力+大数据”正在催生大模型的快速发展孵化系列行业新应用

当前人工智能领域大规模预训练模型得到长足发展和广泛关注以大数据和大算力优势取代了一些小的算法模型“大模型+大数据+大算力”成为迈向通用人工智能的一条可行路径。以GPT-3为代表的超大规模预训练模型展示了一条通向通用人工智能的可能方向。

在此背景下我国超大规模预训练模型的发展如火如荼。2021年以来国内相继发布了一系列大模型华为与鹏城实验室联合发布了“鹏程盘古”系列超大规模预训练稠密模型中科院自动化所发布了全球首个三模态大模型“紫东太初”以及北京智源人工智能研究院发布了“悟道2.0”稀疏模型等。

人工智能大模型可以实现在众多场景通用、泛化和规模化复制减少对数据标注的依赖。随着超大规模预训练模型系统的开放预训练基线智能水平大幅提升行业人工智能应用不必从零开始开发只需结合某个行业的领域数据进行调整即可生成某个领域的相关模型且得到良好的精度和性能。华为云发布的盘古预训练大模型已经在多个行业、100多个场景成功验证包括能源、零售、金融、工业、医疗、环境、物流等等。其中在能源领域盘古预训练大模型帮助行业客户实现设备能耗的智能控制可以节约电力成本50%在金融行业中的异常财务检测让模型精度提升20%以 上在尘肺检测中病例识别准确率提升22%等等。行业应用和算法高效流通可以让人工智 能应用和场景快速复制。

2、科学计算正在从传统HPC进入科学智能新阶段 

科学计算是继大模型之后AI 发展的另一重要方向。此前借助HPC高性能计算技术科学计算对基础科学研究和国计民生行业发展起到重大推动作用。但是随着求 解问题不断复杂化、高维化科学计算仍然面临着维数灾难、计算尺度受限、理论突破与工程方法创新缓慢三大挑战。 

因此越来越多的科学家正在将AI技术引入到科学计算科学计算正在从传统HPC进入到科学智能的新阶段。科学智能同时覆盖HPC与AI 两大技术领域包含AI赋能机理计算、数据驱动AI计算、机理计算与AI计算相融合三大计算场景。

第一个场景是AI赋能机理计算它是将AI计算嵌入到机理计算中实现AI对机理计算的加速。 第二个场景是数据驱动的AI计算它则不依赖于数学机理通过大量的数据输入获得AI模型通过AI计算获得结果。 第三个场景则是机理计算与AI计算相结合它提升了科学计算的准确率和计算效率。 

目前科学计算已经进入科学智能新阶段其创新技术已经在气象、新材料研发、生物信息等领域中得到应用。

二、建议

1、汇聚大模型发展要素使能大模型从规划到落地

当前人工智能技术趋势正朝着通用大模型方向发展大模型具备更强泛化能力、可覆盖多业务场景发展大模型也成为产学研各界共识。为了更好的推动大模型的发展倡议汇聚大模型的发展要素构建从规划、开发到产业化的大模型全流程使能体系与产业界共筑中国大模型生态。 

1以大模型地图统筹大模型有序发展

首先建议统筹规划大模型发展布局汇聚大模型发展要素在算力方面加强发展人工智能计算中心和算力网络塑造我国人工智能大模型人才培养体系同时以自主创新的人工智能根技术发展我国大模型其次强化场景创新提升大模型的活跃度和影响力最后强化政府支持鼓励产学研各界携手在产业条件具备的行业和区域加速大模型的产业落地。 

2打造大模型开发使能平台让大模型易开发、易适配、易部署

针对基础模型开发建议打造大模型开发套件通过算法开发、并行计算、存储优化等能力实现大模型的高效开发此外建议开发大模型微调组件来适配行业应用实现一键式微调和调优功能在模型推理部署方面还需要提供大模型部署套件以实现分布式推理服务化、模型轻量化和动态加密部署功能。 

3成立大模型产业联盟推动大模型应用落地

技术维度端到端打通后大模型下一个最为关键的问题是产业化落地。为了打通科研创新和产业应用的断点、促进大模型产业化落地建议围绕大模型打通产学研用建立大模型产业联盟促进产业伙伴直接基于大模型孵化行业应用实现产业聚集让大模型真正赋能产业。 

同时产业联盟模式可以加速大模型从科研创新到行业落地的进程在这样的大模型产业化落地过程中各行业领域可以以更为丰富的数据和参数、更泛化的应用场景来反哺大模型基础能力让大模型更智能、场景适用性更好从而迭代升级为行业应用提供更大的支持从而形成大模型创新-应用-迭代创新的产业正循环开启了“炼大模型”的新范式。

2、打造科学智能基础平台、携手产学研构筑科学智能生态加速产业闭环

过去单一、烟囱状的软硬件平台已无法满足科学智能需求。因此华为建议打造原生科学智能基础软硬件平台以实现极致性能、极简开发。华为认为该基础平台在硬件方面应当拥有面向多样性算力的液冷整机柜在软件方面包含业界领先的融合编程语言、编译器和操作系统在开发使能方面则需要全场景统一的工具链应用使能方面需要AI与HPC融合的框架和调度器。从底层硬件到上层应用协同创新为科学研究提供“AI范式”。

对于科学智能的产业生态建设华为倡议成立科学智能创新联合体汇聚政策、科研和产业优质资源携手产学研伙伴以科学智能新范式拓展科学边界助力技术创新加速科研创新到产业落地进程加强交叉学科建设和人才培养构筑中国科学智能领先格局。

三、解决方案

1、基于大模型全流程使能体系 使能大模型规划、开发、产业化 

华为的人工智能大模型全流程使能体系包含从大模型规划、大模型开发到大模型产业化的全流程可端到端加速大模型产业落地是以大模型产业化推动AI产业化的新范式。 

1规划大模型沙盘与产业界共筑中国大模型创新高地

从2020年开始国内外顶尖公司的AI技术发展越来越像一场比拼资金与人才的军备竞赛推动AI竞争从2018年前后兴起的“大炼小模型”进入到今天的“炼大模型”时代。大模型的优势不言而喻但动则上百亿的大参数也带来了训练成本太昂贵模型修正不容易等难题导致本来定位于“不再重复造 轮子”的大模型面临重新陷入粗放式发展的境地。华为看到这一问题积极联合产业界规划大模型沙盘牵引产业界建设真正需要的大模型共筑中国大模型创新高地。

从任务和应用类别两个维度出发过去的一年华为携手产业界伙伴基于昇腾AI先后推出 了各个领域有影响力的大模型形成了基础大模型+行业大模型的整体布局。基础大模型面向多行业领域通用需求行业大模型面向特定行业多应用场景类似“新基建”中的信息基 础设施+融合基础设施形成既有横向也有纵深的立体支撑。 

值得一提的是考虑到“炼大模型”对大算力的强需求华为与产业界在规划大模型沙盘的同时全国20多个城市也都规划和建设了人工智能计算中心并已开始将部分算力中心连点成片构建中国算力网——智算网络以便基于它们的超强算力孵化AI大模型大幅缩短大模型的训练时间。鹏程、武汉、秦岭、金陵系列大模型的快速推出正得益于这一布局的强力支持。反过来这些带有一定地域特色的大模型又能够结合本地AI算力更好地服务产业。 

2打造大模型开发使能平台让大模型易开发、易适配、易部署 

依托长期的根技术积累华为建立起了完整的大模型开发使能平台加速从基础模型开发到推理部署的全流程让大模型易开发、易适配、易部署。 

首先在基础模型开发方面华为推出大模型开发套件通过算法开发、并行计算、存储优化、断点续训重磅特性支撑大模型的高效开发。这其中作为人工智能之“魂”昇思 MindSpore自诞生起就有着鲜明的产业导向可以在云、边、端等不同环境下进行开发部署是并行维度业界最多、模型切分支持结构最全、单机容纳模型参数业界最强的的AI框架这使其原生支持AI大模型训练具备实现开发并行代码量降低80%、系统调整时间下降60%、仅用512卡就能完成十万亿模型参数训练的超强能力。 

其次在行业应用适配方面华为推出基于MindX的大模型微调组件其预置典型行业任务微调模板通过小样本学习等手段实现一键式微调和低参数调优可以快速适配各种行业应用。目前紫东太初大模型就基于微调套件提供了开放服务平台已有40多个企业在平台上孵化了近60个产品解决方案可以快捷的完成场景适配。 

最后在推理部署方面推出基于MindStudio的大模型部署套件其提供量化、剪枝、蒸馏等模型小型化能力实现10倍级模型压缩率同时分布式推理服务化能力还大幅提高吞吐率此外模型动态加密技术可在保证模型性能的同时对部署的模型进行加密保护开发者的模型资产。

3从科研创新到行业落地开创人工智能产业聚集新模式

技术维度端到端打通后大模型下一个最为关键的问题是产业化落地。去年底基于全球首个智能遥感框架及数据集武汉LuoJia和全球首个三模态大模型紫东太初产业各界成立了智能遥感开源生态联盟和多模态人工智能产业联盟如今60余家伙伴已陆续孵化出多个行业解决方案。

千博信息与中科院自动化所、华为三方联手 基于昇腾AI基础软硬件平台以及紫东太初三模态大模型打造出手语多模态模型并发布手语教考一体机大幅改善了特殊人群的学习环境。此外长安汽车、新华社技术局、浙江移动、爱奇艺等多模态人工智能产业联盟成员也分别打造了自己的多模态+智能座舱、多模态+新媒体内容检索平台、多模态+南宋御街数字人、多模态+视频摘要智能平台等场景化大模型及行业应用。智能遥感开源生态联盟下基于武汉LuoJia的自然资源大脑、全场景类脑遥感矩阵、耕地保护自然监测平台、智能遥感解译平台等创新成果也不断涌现。

大模型是AI产业加快发展的必然也是科研创新走向产业应用的关键。华为联合产业界基于昇腾AI开启的“炼大模型”新范式首次从大模型规划、开发到产业化构建了大模型全流程使能体系拉通了技术生态与商业生态之间的桥梁将加速我国大模型产业化发展进而推动AI产业化和产业AI化加速智能世界到来。

2、打造原生支持科学智能的基础软硬件平台原生构建科学智能新生态

华为基于鲲鹏和昇腾AI融合HPC和AI两大技术优势通过创新的计算架构打造原生科学智能基础软硬件平台以全栈的创新实现科学智能基础设施的极致性能、极简开发。

在硬件方面华为推出科学智能全场景液冷“天成”多样性算力平台其支持多样性算力灵活弹性部署可实现液冷级能效整系统 TCO降低20%性能提升20~30%在基础软件方面华为发布毕昇C++编程语言并全面升级毕昇编译器实现系统开发效率提升一倍系统性能提升30~50%在开发使能方面华为升级全场景统一工具MindStudio实现软件融合编程、编译和调优可使科学智能全场景开发效率提升50%在应用使能方面昇思MindSpore 2.0升级为AI融合框架原生支持科学智能以及多瑙融合调度器其内嵌科学智能套件让科学智能应用的开发、部署和调度更 高效应用性能提升10~20倍系统资源利用率提升15%。

目前科学智能基础软硬件平台已在新材料研发、大飞机设计、蛋白质结构预测等领域中应用。科学智能要实现产业化落地还需要突破科研理论创新工程方法并构建产业生态聚焦产业价值场景打通科研创新、应用示范到产业推广的通道。在华为全联接大会2022中华为倡议成立科学智能创新联合体呼吁产学研各方共同携手为大力发展科学智能生态奠定基础。

绿色高效成为算力基础设施建设的关键诉求

一、产业趋势

1、在双碳目标下算力基础设施的建设更加注重能耗

未来算力将爆炸式增长而数据中心是算力的主要载体是新型基础设施节能降耗的关键环节也是促进全社会降碳增效的有力抓手。传统数据中心能耗高、算力利用率低在“3060 双碳”目标牵引下国家对数据中心能耗提出更严格的要求各省也出台了能耗指标及PUE要求算力爆发式增长和降低碳排放的矛盾愈发突出数据中心绿色化转型升级势在必行算力基础设施的建设更加注重绿色高效。 

2、从单领域创新走向系统级创新实现绿色高效

传统数据中心能耗控制往往是单领域创新优化比如材料优化、供配电优化、空调制冷优化等但提升效果有限因此需要通过系统工程的创新包括提升集成度、多领域全栈协同优化比如通过AI技术对设备功率进行动态控制、IT设备与供配电及制冷设备全栈协同联动等解决大规模数据中心建设能耗的难题降低能耗提高能效比和系统性能实现绿色高效。

二、建议

1、建设模式从传统的部件堆叠逐步走向集群全栈一体化

传统的数据中心都是分层建设、部件堆砌导致建设周期长、能耗高、算力利用率低集群计算中心为代表的新建数据中心采用全栈一体化设计从L0到L3整系统创新和协同优化集中化建设、集约化使用达到多样算力融合、模块化快速部署、液冷绿色高效实现DC as a Computer。

2、散热方式逐步从传统风冷走向风液混合或全液冷

数字经济时代对高性能、高密度的计算需求逐渐增多。芯片和单机柜功率密度不断增大传统散热方式难以为继房间级空调方案受限于物理空间和空气比热容低难以支持每柜12KW以上机柜行级空调方案单机柜超过12KW时需冗余配置空调以增加换热量影响机房出柜率和TCO超过15KW风冷换热效率不足难以支撑高功率元器件散热负荷无法满足散热需求液冷技术逐渐普及。液冷提供了高能效、高可靠、低碳环保的散热技术逐渐成为算力基础设施的主流散热方式。 

3、算力评估逐步从面向硬件的裸算力走向面向业务的有效算力

传统算力度量采用裸算力或部件级算力评估如规格算力芯片标称的算力规格指标单机或单服务器的性能评测只关注IT计算设备的单台设备理论性能无法完全体现集群系统或者算力中心整体性能。算力中心的真实性能需要综合考虑芯片、存储、网络以及平台软件各层协调所呈现的综合业务性能也就是“有效算力”。有效算力通过评测真实业务性能表现来衡量算力基础设施对业务的支撑效果也就是业务实际可获得的算力水平。通过有效算力的模式来牵引算力基础设施的建设提升算力的利用率推动算力建设绿色高效诉求的落地更好地支撑当地产业的发展。

三、解决方案

1、集群计算全栈协同优化实现 DC as a computer

集群计算解决方案通过系统级工程创新采用软硬件协同设计包括应用软件与平台软件的协同优化基础硬件平台及供电散热系统与平台软件的协同优化实现从应用到平台到基础硬件平台、供电散热系统的纵向业务联动数据中心全栈优化DC基础架构采用数据中心整体设计包括计算、存储、互联等各子系统协同优化结合基础架构及通信网络优化使能平台及中间件持续提升CPU/NPU/xPU多样性算力平台及融合调度实现横向资源整合突破硬件基础算力瓶颈。

通过上述措施软硬协同、纵向业务联动整体优化、横向资源整合提升数据中心的有效算力提高能效比实现DC as a Computer。

算力网络将成为重要的算力供给方式

一、产业趋势

1、算力建设从分散化走向集约化

在“东数西算”“网络强国”等战略的牵引下在“3060双碳”目标牵引下原来传统的分散化算力建设的弊端也越来越突出建设周期长、能耗高、利用率低不符合绿色高效的算力发展趋势。以人工智能计算中心、超算中心、一体化大数据中心等为代表的算力基础设施成为国家新基建的重要组成算力建设走向集约化建设周期短、能耗低、算力利用率高。各地集中进行算力中心的建设让算力像水和电一样成为城市新型基础设施和公共资源。就像过去每个核心城市标配有机场、有高铁站未来数字经济发展、智能化发展核心城市都将标配一个公共算力中心来以算力赋 能科研创新和产业发展。

2 从算力中心走向算力网络

各地算力中心、算力基础设施陆续建成后结合网络基础设施就可以连成一张算力网络。像过去有电力网、通信网一样在数字世界也一定会有一张算力网。以人工智能算力为例2021年中国科学技术信息研究所、新一代人工智能产业技术创新战略联盟AITISA、鹏城实验室共同发布《人工智能计算中心发展白皮书2.0》指出了人工智能中心发展的新阶段——从人工智能计算中心走向人工智能算力网络。2021年底在科技部的指导下鹏城实验室牵头成立了人工智能算力网络推进联盟 推进各地上线的人工智能计算中心连接成网上线运行。2022年6月“中国算力网—智算网 络”一期正式上线这是中国算力网络建设迈出的关键一步。各地的算力建设开始从单独的算力中心走向全国范围内的算力网络。

二、行动建议

1、加速算力基础设施的建设

集约化建设绿色高效的算力基础设施既是响应国家产业政策的需要也是区域社会经济发展的需要。算力基础设施建设需要结合当地的产业布局、科研实力及数字经济发展情况以应用为导向以信息技术与制造等传统技术深度融合为主线推动人工智能计算、超级计算等先进技术的产业化与集成应用发展高端智能产品夯实核心基础提升智能制造水平。促进算力服务相关各基础设施的建设完善公共支撑体系促进产业发展推动制造强国和网络强国建设助力实体经济转型升级。 

结合各地实际情况联合高校、科研院所、企业等行业技术力量适度超前、加速建设算力基础设施可以服务于千行百业满足高校、 科研院所、企业不断增长的算力需求以充沛算力促进本地各行各业发展的诉求同时承担国家和区域里涉及国际民生的关键行业科研诉求带来良好的经济效益和社会效益。 

2、积极加入中国算力网实现算力汇聚共享

2022年6月在科技部指导下由鹏城实验室牵头的“中国算力网-智算网络”正式上线伴随各地算力基础设施的不断建设。截止2022年11月鹏城云脑、北京、成都、中原、合肥、 武汉、西安、济南、青岛、沈阳、广州、重 庆、昆明、福州、长沙、河北廊坊等20多个节点已接入中国算力网。多个人工智能计算中心间的AI算力调度与协同训练已完成初步验证全国AI算力一张网初具雏形。 

未来各地的人工智能计算中心、超算中心、一体化大数据中心、算力枢纽、以及社会泛在云算力中心都可以接入中国算力网共同构建一个支撑中国数字经济发展的强大算力底座汇聚多种社会算力实现绿色高效布局、泛在算力协同和全网交易流通以东数西存、东数西算、东数西训为牵引将逐步形成绿色集约的算力布局汇聚多种社会算力形成更加泛在的算力协同并通过全网的算力交易流通 弹性满足全网范围内的算力需求。让算力成为与水电一样可“一点接入、即取即用”的社会级服务。

三、解决方案

1、算力网络架构创新打造全网一台计算机

算力网络需要以终为始站在最终用户使用者的角度打造全网一台计算机的架构实现全程全网的社会级算力服务。算力网络的参考架构包括算网大脑及运营层、算网基础设施及使能层。

1单域自治

使能层通过算力使能、网络使能和数据使能实现算力、网络和数据的单域管理与调度确保单域独立交付与演进

2跨域编排

实现跨域跨厂家的业务编排与调度负责多云管理

3北向接口

制定统一接口标准各单域使能以服务化形式云服务或Restful API对外供上层调用

4以云调算

云纳管算通过云服务来调度各种算力重用云在大规模、跨域和异构算力的统 一调度能力

非云化资源池由云管纳管不参与全局调度通过单域自治、跨域编排、北向接口、以云调算实现“全网一台计算机”为用户提供无所不在的算力服务。

面向未来华为将坚持围绕鲲鹏和昇腾携手产业伙伴共建计算产业生态坚持“硬件开 放、软件开源、使能伙伴和发展人才”和产业伙伴共同构筑坚实的算力底座。 共建计算产业共赢数智时代。

 

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: 服务器