本文作者:linbin123456

中金 | 智算未来系列六:AI产业加速,驱动1.6T光模块需求高景气

linbin123456 04-15 153
中金 | 智算未来系列六:AI产业加速,驱动1.6T光模块需求高景气摘要: 中金 | 智算未来系列六:AI产业加速,驱动1.6T光模块需求高景气 AI硬件产业需求高景气,计算芯片有望加速放量。结合我们的算力产业链调研,我们预计2024年英伟达H系列和B系列...
微信号:18321177950
添加微信好友, 获取更多信息
复制微信号
中金 | 智算未来系列六:AI产业加速,驱动1.6T光模块需求高景气 AI硬件产业需求高景气,计算芯片有望加速放量。结合我们的算力产业链调研,我们预计2024年英伟达H系列和B系列芯片出货量分别达到356万片和35万片,2025年随着GB200进一步交付,B系列GPU总出货量有望达250万片;此外,我们预计谷歌的TPU和AMD的MI300也或将持续部署,我们认为以上AI芯片的需求均将驱动网络层面800G/1.6T光模块的同步放量。 产业链利好频现,1.6T需求有望超预期。OFC 2024上多家参展商展示最新1.6T光模块产品,此前英伟达GTC大会发布的新一代Blackwell AI芯片对互联能力提出更高要求,X800系列交换机使能1.6T网络搭建,而光模块上游产业链亦逐步到位,Marvell在业绩会上预期其单通道200G的1.6T DSP将于2024年底开始部署、博通表示200G EML准备量产,综上,我们认为1.6T产业链上下游正在加速成熟。部署节奏上,我们预计2H24,1.6T光模块有望配合英伟达B系列芯片的量产落地开启配套组网,初步实现小规模放量,至2025年则有望迎来大规模批量部署。技术路径上,我们认为EML单模在1.6T时代仍是主流,同时看好硅光、LPO等新技术方案的渗透率在1.6T时代迎来跨越式增长。需求形态上,我们预计2025年:1)海外头部2家左右大客户的需求将从800G快速向1.6T迭代,1.6T光模块步入快速放量;2)虽有部分客户800G需求因向上迭代而下探,但另一批客户需求从400G向800G迭代有望形成弥补,对800G总需求量形成一定支撑。 我们以2个因素为核心变量,对2025年1.6T总出货量进行情景分析:1)2025年AI硬件采购整体景气度(B系列GPU出货量200-300万只);2)1.6T网络成熟时点(B系列GPU配套1.6T组网方案的比例70%-90%),测得2025年1.6T光模块总出货量水平为360-595万只,中性情景对应470万只,整体区间高于当前的市场预期。 风险 200G EML光芯片量产能力不及预期;AI产业需求不及预期。 1.6T光模块需求量的情景分析 我们综合考虑英伟达、TPU、MI300等AI芯片出货量预测、光模块和AI芯片的配比关系、以及光模块速率配置选择等核心假设,测算得到2025年800G、1.6T光模块需求量或将分别达到791万只、470万只。核心假设如下: ► AI芯片出货量预测:GTC 2024大会上,英伟达发布了基于Blackwell架构的初代B系列云端GPU产品,同时推出了新一代CPU+GPU架构超级芯片GB200,以及对应的计算单元GB200 NVL72,可以在单机柜内提供超算级1E Flops算力,实现从芯片走向系统的性能升级。除通用GPU外,我们预计谷歌的TPU和AMD的MI300也将持续部署,带动800G/1.6T光模块配置需求。 ► 光模块和AI芯片的配比关系估测:InfiniBand胖树网络架构之下,由于无收敛网络特性,每一层网络带宽加总基本一致,在AI加速卡和网卡配比关系为1:1的假设基础上,我们测算得到三层组网架构下H100和800G光模块之间的数量比为1:3,两层组网下则为1:2。GTC 2024大会上,英伟达发布X800系列交换机,其中基于InfiniBand协议的Q3400-RA 4U交换机,共有144个800Gb/s端口,可等效分配为72个1.6T端口。我们认为可配置144个端口的Quantum-X800系列交换机的性能较上一代64端口的QM9700系列交换机有较大幅度提升,胖树架构下2层Quantum-X800交换机可支持的集群数增加。从相对谨慎的角度出发,我们按照B系列GPU和1.6T光模块1:2的数量配比关系对光模块有效需求量进行预测。 ► 光模块速率配置选择:一般情形之下,我们预计云厂商或AI厂商倾向于优先配置更高传输速率的网络以将集群的计算性能发挥到最优。但考虑到2024年1.6T硬件生态尚未完全成熟,我们预计今年客户在配套英伟达B系列芯片小批量部署组网时或将以800G速率为主,到2025年随着1.6T产业链的逐步成熟,以1.6T配套B系列芯片组网有望成为主流方案。 ► 详细测算过程请见完整版本报告。 当前时点,产业内对2025年B系列GPU总出货量尚未有明确订单指引口径,且对B系列芯片出货量的预测还会受到GPT-5发布时间节点、新的AI大模型或应用的落地催化、以及AI商业正循环可实现性的探索等诸多变量扰动,上述因素会影响到以头部云厂商为代表的AI产业参与方对AI硬件的整体采购力度。我们观察到,过去一年市场对北美头部四家云厂商2024年资本开支预期呈一路上修态势,各家企业在公开业绩会上均表示将持续加大对AI基础设施的投入,反映出AI产业的持续进步推动底层硬件需求量扩张,我们认为2025年头部厂商对AI硬件的资本支出仍将继续受到AI产业端变化的影响。 我们以2个因素为核心变量,对2025年1.6T光模块总出货量进行情景分析:1)2025年AI硬件采购整体景气度(B系列GPU出货量200-300万只);2)1.6T网络成熟时点(B系列GPU配套1.6T组网方案的比例70%-90%,其余为800G)。 综合考虑AI产业需求景气度、以及1.6T光电口关键技术商用成熟时点等变量,经我们情景测算,我们预期2025年1.6T光模块的总出货量区间有望在360-595万只,区间整体水平高于当前市场预期,相关测算表请详见报告原文。 新一代计算集群对高速光模块延续高需求,产业链景气度共振向上 AI发展浪潮下,新一代计算集群呈现两个趋势变化: ► 网络流量高速增长、东西向流量为主:据中国移动研究院发布的《面向AI大模型的智算中心网络演进白皮书(2023年)》,智能计算需要大量并行计算,产生的All Reduce(全规约)集合通信数据量达百GB级别。我们认为,在大模型百花齐放的背景下,“千模大战”将驱动网络流量进一步高增。同时,东西向(即服务器之间)流量占比大幅提高,根据思科预测,当前东西向流量占比或已达到网络流量的80-90%。 ► 典型网络架构从三层树型架构向以脊叶架构为代表的多核心架构转变:据英伟达和英迈中国联合开展的英伟达新一代数据中心网络产品培训会公开资料,数据中心原以传统三层架构为主,多采用树型架构,具有2个核心,向上逐层汇聚,南北向流量为主。三层网络架构分别是接入层、汇聚层和核心层。其中,接入层直接面向用户连接,汇聚层连接接入层和核心层,提供防火墙、SSL卸载、入侵检测、网络分析等服务,核心层是网络的高速交换主干。由于智能计算对通信性能需求的提升,AI云端训练及推理需求驱动数据中心网络架构逐渐走向多层不汇聚、少收敛、更具可拓展性的形态。 我们认为,智算中心整体流量增长、以及网络架构的演进共同推升连接需求,带动光模块用量提升、速率升级。 英伟达数据中心采用胖树型架构构建无收敛网络,三层网络能够连接的节点数多于二层网络。英伟达数据中心的胖树模型相比起传统胖树模型,使用大量高性能交换机构建大规模无阻塞网络,甚至增加上行端口以避免丢包导致网络崩溃,更类似于扩散型架构。层数方面,有二层组网和三层组网供选择,其中三层网络架构相比于二层架构,能够连接的节点数更多,即可实现更多AI芯片的互连,适用于更大参数量AI大模型的训练。
文章版权及转载声明

作者:linbin123456本文地址:http://chenmj.com/post/95460.html发布于 04-15
文章转载或复制请以超链接形式并注明出处政信标债网

阅读
分享