银河Galaxy集团中心主页 - 银河Galaxy集团线路检测

hth网页版在线登录如何初步理解GPU算力？

发布日期：2024-05-09 访问量：来源：华体会HTH官方网站

　　广发证券股份有限公司研究员：王亮/耿正/栾玉民日期：2023-04-03

　　核心观点：

如何初步理解GPU算力？

　　结论。GPU 峰值算力反映GPU 的主频和相应核心的硬件配置，如FP32 的核心的个数，FP64 的核心的个数以及Tensor core 的计算能力等峰值参数，并非其实际计算能HTH官网地址。GPU 峰值算力参数可用来初步区分其适用的应用场景，如在某GPU 内，其FP64 算力显著高于FP32 等算力，其可能更适用于科学计算等场景，如FP32、TF32、FP16、INT8 等算力较为均衡，其可能更适用于AI 训练和推理环节。

　　首先我们引入数据类型华体会最新地址。计算机运行必须考虑计算资源的分配，不同场景下使用不同的数据类型是必要的，数据类型即标定数据的正负、数据的范围大小、数据的精度大小。AI 芯片的主要应用场景包括训练、推理与高能计算，根据英伟达官网的表述，AI 训练为缩短训练时间，主要使用FP8、TF32 和FP16；AI 推理为在低延迟下实现高吞吐量，主要使用TF32、BF16、FP16、FP8 和INT8；HPC（高能计算）为实现在所需的高准确下进行科学计算的功能，主要使用FP64。

　　GPU 算力参数从哪里来。NVIDIA GA100 GPU 由多个GPU 处理群集(GPC)，纹理处理群集(TPC)，流式多处理器 (SM) 和HBM2 显存控制器等组成。A100 中总共有108 个SM，每个SM 有64 个FP32 CUDA 核，64个INT32 CUDA 核，32 个FP64 CUDA 核，以及4 个第三代Tensor Core，其中Tensor Core 专注于矩阵运算，在模型训练与推理的过程中，Tensor Core 将是主要的计算内核。GPU 峰值算力的测算公式为：峰值计算能力= GPU Core 的运行频率*GPU SM 数量*单个SM 对应的特定数据类型的指令吞吐量*2。根据该公式，可以得到A100 FP16（Tensor Core 加速）峰值算力为312T FLOPS，FP32（Cuda Core）峰值算力=19.5TFLOPS，与英伟达官方披露的能参数一致。由此可见，GPU 峰值算力与主频和硬件配置数量等参数相关。

　　模型训练&推理算力需求测算。根据我们的测算：在训练侧，训练一个GPT-3.5 175B 模型的NVIDIA A100需求为1080 个、AI 服务器需求为135 台；训练一个万亿参数量AI 大模型对A100、AI 服务器的需求分别为8521 个、1065 台。在推理侧，一个谷歌级应用使用GPT-3.5 175B 进行推理，对NVIDIA A100 需求为72 万个、对AI 服务器需求为9 万台；一个谷歌级应用使用万亿参数大模型进行推理，对NVIDIA A100 需求为378万个、对AI 服务器需求为47.3 万台。据Trendforce 数据，预估2022 年搭载GPGPU 的AI 服务器年出货量占整体服务器比重近1%，即约14 万台。我们以14 万台为基数测算训练、推理侧算力需求对AI 服务器出货量的拉动。根据测算，训练100 个GPT-3.5 175B 模型对AI 服务器出货量的拉动为9.6%，10 个使用GPT-3.5 175B 模型的谷歌级推理应用对全球AI 服务器出货量的拉动为643%。

　　投资建议。建议关注算力芯片厂商：海光信息（与计算机组联合覆盖）、寒武纪（计算机组覆盖）、芯原股份、龙芯中科等；连接芯片厂商：源杰科技、澜起科技、裕太微、聚辰股份、帝奥微等；存储芯片厂商：深科技、兆易创新、东芯股份等；服务器硬件厂商：工业富联、沪电股份、胜宏科技等。AIGC 应用：海康威视、大华股份等。

　　风险提示：AIGC 发展不及预期， AI服务器出货量不及预期，国产厂商技术和产品进展不及预期。

返回列表

上一篇 : 华体会最新首页找不到满意的 iOS 14 小组件？这些 App 让你自己做一个下一篇 : hth官网登录入口太开心了！小朋友体验制作飞机看航模开飞机

hth网页版在线登录如何初步理解GPU算力？

hth网页版在线登录无线通信技术延迟的原因

hth官网登录入口5G无线通信技术的发展

hth官网登录入口信用卡的无线通信技术

hth网页版在线登录物联网批数量是什么

hth官网登录入口无线通信模组的技术发展