常见AI模型参数量-以及算力需求评估

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

文章目录

不同参数量下算力需求

模型参数量亿数据量并行卡数如A100时间天算力P/天
110300 billion token1240312Tx12=3.7P;
2100300 billion token12840312Tx128=40P;
310001 trillion token204860312Tx2048=638P;
4

典型大模型下算力需求

模型参数量亿数据量时间天算力P/天金额
盘古2.6B600G3110
盘古13B600G7110
ChatGPT13300 billion token27.527.5一次模型训练成本超过1200万美元
GPT-3 XL13300 billion token27.527.5
GPT-31746300 billion token13640一次模型训练成本超过460万美元
GPT-3.513640

注ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来

在这里插入图片描述

来源https://arxiv.org/abs/2005.14165

在这里插入图片描述

来源https://arxiv.org/abs/2104.12369

在这里插入图片描述

在这里插入图片描述

常见小模型参数量

来源 https://github.com/Lyken17/pytorch-OpCounter

ModelParams(M)MACs(G)
alexnet61.100.77
vgg11132.867.74
vgg11_bn132.877.77
vgg13133.0511.44
vgg13_bn133.0511.49
vgg16138.3615.61
vgg16_bn138.3715.66
vgg19143.6719.77
vgg19_bn143.6819.83
resnet1811.691.82
resnet3421.803.68
resnet5025.564.14
resnet10144.557.87
resnet15260.1911.61
wide_resnet101_2126.8922.84
wide_resnet50_268.8811.46
ModelParams(M)MACs(G)
resnext50_32x4d25.034.29
resnext101_32x8d88.7916.54
densenet1217.982.90
densenet16128.687.85
densenet16914.153.44
densenet20120.014.39
squeezenet1_01.250.82
squeezenet1_11.240.35
mnasnet0_52.220.14
mnasnet0_753.170.24
mnasnet1_04.380.34
mnasnet1_36.280.53
mobilenet_v23.500.33
shufflenet_v2_x0_51.370.05
shufflenet_v2_x1_02.280.15
shufflenet_v2_x1_53.500.31
shufflenet_v2_x2_07.390.60
inception_v327.165.75

推理训练算力需求分析

训练

主要以机器视觉应用使能人工智能算力分析为课题其中的视觉能力训练平台、图像增强模型、目标检测、图像分割、人员跟踪需求。

对人工智能算力需求计算过程如下

参考业界流行的视频训练算法(表一、第四章)训练一个模型需要2560TFLOPS FP16算力8卡/周单卡算力为320 TFLOPS FP16运算时间为7天左右且通常需要训练大于8~10次才能找到一个满意的模型。

考虑2天的调测安装和模型更新时间则一个模型的训练周一为10天。

综上至少需占用要2560*8=20480 TFLOPS FP16算力才能在10天内找到一个满意的训练模型

按照目标检测分割跟踪等常规模型统计预计一年有30+任务需要分别训练总算力需求20PFLOPS FP16。

表一业界流行的视频训练算法
序号算法分类算法需求模型参考数据量参考所需算力 (TFLOPS FP16)训练时间/周训练次数
1视频异常检测CLAWS200G视频数据20480110
2视频异常检测C3D20480110
3视频活动分析SlowFast20480110
4视频活动分析AlphAction20480110
5图像分类基础网络ResNet系列resnet18, resnet34, resnet50, resnet101resnet50,ImageNet, ~150G图片256018
6MobileNet系列MobileNetV1, MobileNetV2, MobileNetV3mobilenetv2,256018
7人脸识别算法图像分类BackboneFaceNetFaceNet NN1,MS-Celeb-1M LFW, 1万+张图片 Adience, 2万+张图片 Color FERET, 1万+张图片256018
8目标检测一阶段SSDyolo系列yolov3, yolov4, yolov5YOLOv3-608,COCO 2017, 25F数据256018
9二阶段FasterRCNNfaster rcnn + resnet101,256018
10分割算法yolact, yolact++unet、unet++maskrcnn+resnet50 fpn,256018
11MaskRCNN256018
12人员跟踪DensePeds100G图片256018
13底层图像增强CycleGAN等10G视频数据256018
14维护预测算法1G数据256018
15洗煤优化算法1G数据256018

推理

推理服务器算力资源采用适合张量计算的创新人工智能芯片架构提供高性能视频解析能力和人工智能算力用于AI应用场景人工智能算法的推理系统支持3000路视频流解析

基于昇腾芯片的AI推理卡主要用于视频对象和行为分析需要从视频流中提取对象和行为数据每块AI推理卡的算力为88TINT8。

不同的算法模型对计算能力的要求不同对于视频分析场景通过业界主流ISV在该AI推理卡的测试结果来看在每路视频的分辨率为不低于1080P帧率不低于25帧同屏检测目标数不低于5个的情况下每路视频需要5.5T(INT8)的算力进行解析。单张AI推理卡算力为88TINT8所以每张推理卡可支持16路视频的分析。

如当前业务需要接入3000路视频的需求来计算共需要的AI推理卡的数量为3000/16≈188块。考虑到数据加工集群建模的并行效率一般集群的并行效率为90%左右留出适当的资源后需要的NPU卡的数量为188/0.9≈209块。

参考

1、https://arxiv.org/abs/2005.14165

2、CNN的参数量、计算量FLOPs、MACs与运行速度

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6