;
广发证券股份有限公司 研究员:王亮/耿正/栾玉民 日期:2023-04-03
核心观点:
结论。GPU 峰值算力反映GPU 的主频和相应核心的硬件配置,如FP32 的核心的个数,FP64 的核心的个数以及Tensor core 的计算能力等峰值参数,并非其实际计算能HTH官网地址。GPU 峰值算力参数可用来初步区分其适用的应用场景,如在某GPU 内,其FP64 算力显著高于FP32 等算力,其可能更适用于科学计算等场景,如FP32、TF32、FP16、INT8 等算力较为均衡,其可能更适用于AI 训练和推理环节。
首先我们引入数据类型华体会最新地址。计算机运行必须考虑计算资源的分配,不同场景下使用不同的数据类型是必要的,数据类型即标定数据的正负、数据的范围大小、数据的精度大小。AI 芯片的主要应用场景包括训练、推理与高能计算,根据英伟达官网的表述,AI 训练为缩短训练时间,主要使用FP8、TF32 和FP16;AI 推理为在低延迟下实现高吞吐量,主要使用TF32、BF16、FP16、FP8 和INT8;HPC(高能计算)为实现在所需的高准确下进行科学计算的功能,主要使用FP64。
GPU 算力参数从哪里来。NVIDIA GA100 GPU 由多个GPU 处理群集(GPC),纹理处理群集(TPC),流式多处理器 (SM) 和HBM2 显存控制器等组成。A100 中总共有108 个SM,每个SM 有64 个FP32 CUDA 核,64个INT32 CUDA 核,32 个FP64 CUDA 核,以及4 个第三代Tensor Core,其中Tensor Core 专注于矩阵运算,在模型训练与推理的过程中,Tensor Core 将是主要的计算内核。GPU 峰值算力的测算公式为:峰值计算能力= GPU Core 的运行频率*GPU SM 数量*单个SM 对应的特定数据类型的指令吞吐量*2。根据该公式,可以得到A100 FP16(Tensor Core 加速)峰值算力为312T FLOPS,FP32(Cuda Core)峰值算力=19.5TFLOPS,与英伟达官方披露的能参数一致。由此可见,GPU 峰值算力与主频和硬件配置数量等参数相关。
模型训练&推理算力需求测算。根据我们的测算:在训练侧,训练一个GPT-3.5 175B 模型的NVIDIA A100需求为1080 个、AI 服务器需求为135 台;训练一个万亿参数量AI 大模型对A100、AI 服务器的需求分别为8521 个、1065 台。在推理侧,一个谷歌级应用使用GPT-3.5 175B 进行推理,对NVIDIA A100 需求为72 万个、对AI 服务器需求为9 万台;一个谷歌级应用使用万亿参数大模型进行推理,对NVIDIA A100 需求为378万个、对AI 服务器需求为47.3 万台。据Trendforce 数据,预估2022 年搭载GPGPU 的AI 服务器年出货量占整体服务器比重近1%,即约14 万台。我们以14 万台为基数测算训练、推理侧算力需求对AI 服务器出货量的拉动。根据测算,训练100 个GPT-3.5 175B 模型对AI 服务器出货量的拉动为9.6%,10 个使用GPT-3.5 175B 模型的谷歌级推理应用对全球AI 服务器出货量的拉动为643%。
投资建议。建议关注算力芯片厂商:海光信息(与计算机组联合覆盖)、寒武纪(计算机组覆盖)、芯原股份、龙芯中科等;连接芯片厂商:源杰科技、澜起科技、裕太微、聚辰股份、帝奥微等;存储芯片厂商:深科技、兆易创新、东芯股份等;服务器硬件厂商:工业富联、沪电股份、胜宏科技等。AIGC 应用:海康威视、大华股份等。
风险提示:AIGC 发展不及预 期, AI服务器出货量不及预期 ,国产厂商技术和产品进展不及预期。