我爱免费 发表于 2023-11-15 02:24

AI算力全产业链:大模型“卖铲人”,AI芯片全产业创新不断,国产化向阳而生

作者:幻影视界


今天分享的是2024年AI算力行业投资策略报告:《全产业创新不断,国产化向阳而生》,(报告出品方:申万宏源)。

本报告共计:53页。完整版PDF电子版报告下载方式见文末。
研究报告内容摘要如下
AI算力全产业链



大模型时代,训练需求飙升

基于Transformer架构的大模型时代,训练算力需求陡峭攀升

训练算力=参数*token数*6次32位浮点数精度,GPT-3.5训练一次算力3637PFlops/s-day

根据英伟达,Transformer大模型训练算力需求将以275倍/2年的速度增长

GPU计算性能10年内将再翻1000倍

摩尔定律即将结束,CPU计算性能进入滞缓期,GPU内含更多计算单元,计算性能未来10年 可翻1000倍



AI算力:大模型“卖铲人”,技术创新的基石。

无论谁做大模型、采用何种模型技术路线,算力都是必须的,需求确定性强、持续性 高(前期训练+应用铺开后推理),业绩率先体现,并且有明确的量价关系。





AI算力产业链多环节均有重大创新

AI大模型引发算力变革,英伟达产业链上下游多环节迎机遇

内存与封装:HBM存储容纳超大参数模型,Chiplet封装产业受益

光模块:Infiband高速网络推动高速率光模块(400G/800G)量价齐升

算力出租:英伟达 DGX 算力云推动 AIGC 快速发展,算力出租将成为面向中小厂商新趋势

液冷:服务器集群网络功耗提升,液冷散热需求明确



AIGC应用密集发布期,推理需求指数增长

截至23.11.10,中国累计发布大模型130个,通过备案大模型数超过20个,对应推理 卡需求量为11、117、450万张(以T4为例)。 假设1个大模型支撑2个应用,模型平均参数量175B





半导体:英伟达GPU为例,制程进步带动大

两轮2010年以来英伟达GPU主要架构可以推测行业趋势:注重互联,对AI支持与时俱 进(从Cuda Core到Tensor Core,增加对INT/BF16等AI新趋势的支持,结构稀疏矩 阵支持),注重带宽和扩展性而非核心数量等





AI芯片国产替代单芯片性能进步明显

两轮禁令后,AI芯片供给安全需求更加迫切

2022年9月后,A100/H100进口受限;2023年10月后,A800/H800进口受限

对标A100/H100的国产产品仍未大规模放量

仅华为昇腾910规模出货,其余国产AI芯片截止目前均未规模放量

国产推理芯片品类丰富,可满足下游需求

华为昇腾310,寒武纪100、270、370,燧原,沐曦,壁仞等均有产品可用







华为昇腾910也针对大模型训练进行优化设计

昇腾910也支持英伟达Ampere架构中引入的稀疏性技术,实现2倍算力提升

英伟达H100 Tensor Core中引入了Transformer引擎、张量存储加速器,减少计算 单元数据复制时的无用功

Transformer引擎使用混合精度计算,大模型上提供9倍的AI训练速度和30倍的AI推理速度

张量存储加速器提高张量核心与全局存储和共享存储的数据交换效率



华为AI芯片通信瓶颈通过芯片、设备、组网优化

大模型训练性能瓶颈之一在通信,吞吐带宽与连接架构是算力性能的决定因素之一

类似 GPT3 的千亿参数模型,通信的端到端耗时占比达到 20%,

针对某个万亿参数 MoE 模型建模发现,通信的端到端耗时占比急剧上升到约 50%

英伟达:芯片层面采用高速C2C连接方案NVlink,集群层面,引入 InfiniBand网络 , 并 将 C2C场景下应用的NVLink延伸至设备间互联,提出fat-tree胖树架构

华为:目前动作主要在集群层面,与英伟达思想类似,最新华为星河交换机采用 800GE端口,同时降低组网层数,最新Atlas 900 SuperCluster仅2层交换网络便能 实现无收敛集群组网





需求确定性:根源是通信的AI边际价值被放大

AI背景下通信环节的价值,从内容驱动的流量逻辑,延伸至模型驱动的算力逻辑。

历史上的几轮通信周期,下游驱动主要是互联网和云。

每一轮成长都叠加了内容或应用的创新,通信的流量管道属性充分体现。

当前通信环节的最大边际价值在于,网络与算力强耦合,网络需求与算力需求共进退。





市场普遍关心,训练与推理的网络需求是否差异巨大。

AI大模型训练相比通用计算需要更多运算单元的同时参与,算力难点之一是解决并行(Parallelism) 问题,因此AI训练网络强调点对点充分互联,带宽固定(等宽网络)、但距离多变。高速网络设备/器 件的需求量更大。

实际上,大模型推理同样需要高性能算力网络。

1)预训练 – 微调 – 推理密不可分;

2)单位性能的成本差异巨大;

3)容纳千亿以上参数。



此外,AI应用落地的重要场景之一是终端,边缘算力与AIPC的前提是网络下沉。

智能化+定制化,终端景气度边际变化,算力模组成为边缘算力新载体。例如:

美格智能:基于高通QCS8550平台的最新一代高算力AI模组,支持INT8和INT4混合精度运算;旗舰系列 SNM970综合AI算力高达48Tops,成功运行Stable Diffusion大模型。

广和通:算力模组布局车载/泛IoT边缘算力盒子等。

移远通信:5G模组与英伟达Jetson AGX ORIN平台已联调实现5G通信+边缘计算能力。





网络架构:两极格局,均有机会

2)以太网阵营:则体现成本、性能、兼容性的考量。

如LLaMA 2已明确使用基于以太网的RoCE网络,国内诸多大厂类似;原因是高性价比的RoCE本身也 是RMDA网络,AI生态的解耦后利于降本放量。主流网络厂商(交换机等)核心受益。

例如,紫光股份“支持400G RoCE和400G IB两种组网,其中400G RoCE方案……测试性能可与IB媲美。”

以及华为:昇腾AI计算集群Atlas 900 SuperCluster,采用星河AI交换机CloudEngine XH16800,高密 800G端口或576*400G,两层交换网络实现2250节点(18000张卡)超大规模无收敛集群组网。

随着国内科技大厂的网络演进至400G以上、运营商400G全光网推进建设、本土模型训练组网等加速, 国内市场的高速网络需求将显著提升。









HBM突破算力内存墙

HBM带宽和容量远超其他常见内存形态(DDR DRAM、LPDDR、GDDR 等)。

频率和位宽决定显存性能。显存带宽=显存等效频率×显存位宽bit/8。

HBM显存可以提供1024bit起跳的显存位宽,4颗粒堆叠式显存可达128GB/s带宽,每瓦带宽 比GDDR5高出3倍多,大幅提高数据处理速度。HBM2比GDDR5节省了94%的表面积,减少 20%+的功耗。

2022年发布的HBM3技术指标较HBM2和HBM2E标准有巨大的提升。

HBM3芯片单个引脚速率达到6.4Gbit/s,总带宽超过1TB/s。支持16-Hi堆栈,堆栈容量达到 64GB。HBM3带宽较DDR5高出10倍以上。

NVDIA H100、AMD MI300已搭载HBM3,SK海力士是目前唯一量产新世代 HBM3产品的供应商。



HBM成为AI服务器标配

应对算力的内存墙,HBM作为高端显存芯片用于AI加速器及高效能服务器上。

HBM由AMD和SK Hynix发起,基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求 的应用场合。HBM使用TSV技术将数个DRAM Die堆叠,大幅提高了容量和数据传输速率。

根据TrendForce咨询,2023-2025年HBM市场CAGR预计保持40-45%以上,至 2025年市场规模有望快速增至25亿美元。

2021年以来HBM在数据中心应用快速增长。以位元计算,目前HBM占整个DRAM市场比重 约1.5%。



英伟达DGX GH200超算系统超配存储

DGX GH200超算系统集成256个GH200芯片,内存容量首次突破100TB,AI性能达 到了1 exaFLOPS。

Grace Hopper超级芯片将72核的Grace CPU、Hopper GPU、96GB的HBM3和512GB的 LPDDR5X集成在同一个封装中,共有2000亿个晶体管。

通过NVLink,超算GPU共享内存从DGX H100的640GB跃升至DGX GH200的144TB,支 持更大模型的训练。

GPU与CPU共封使内存带宽提升了7X,CPU和GPU之间数据带宽高达1TB/s。



AI大模型推动服务器存储需求提升

AI模型需要大量Server DRAM、SSD与HBM,服务器市场占DRAM/NAND市场应 用比例分别为31%、26%(TrendForce)。AI为2024年存储芯片涨价核心动力。

AI服务器DRAM和SSD容量相比普通服务器提升3倍以上。据TrendForce,服务器DRAM配 置约500~600GB,AI服务器平均容量可达1.2~1.7TB,增至3倍;美光认为AI服务器DRAM 容量是普通服务器的6-8倍,NAND是普通服务器的3倍。

HBM 2024年供给持续紧俏。以NVIDIA A100配置4~8张80GB计算,单台服务器HBM约 320~640GB。HBM主要由三星、SK 海力士和美光三家存储器厂商供应。2023年初以来, HBM需求强劲,供不应求,SK海力士已出售2024年HBM3和HBM3E的所有产量。



电源为算力能耗之基石,AI服务器单机价值量可达2.8万

通用型服务器使用2颗低功率电源,AI服务器则至少4颗-8颗3000W高功率电源,单 台AI服务器电源价值量可高达2.8万元。

2025年全球/中国服务器电源市场有望达316/91亿元。根据华经产业研究院数据,2021年 全球服务器电源市场规模为203亿元,预计2025年达316亿元;2021年中国服务器电源市场 规模为59亿元,2025 年有望达91亿元。

服务器电源领域,市场份额主要由台达、光宝、艾默生、中国长城等企业长期占据;立讯精 密、泰嘉股份、奥海科技、欧陆通等迎国产化机遇。



AI服务器带动PCB量价齐升

AI服务器PCB增量:GPU模块加入使得AI服务器新增GPU模组板并需要更大面积主板。

PCIe AI服务器PCB复杂度提升。PCIe AI服务器的GPU板组主要包括PCIe主板、PCIe 加速卡、 硬板背板、UBB GPU主板四部分。

NVLINK AI服务器PCB复杂度更胜一筹。NVLINK AI服务器的GPU板组主要包括CPU主板、 OAM加速卡、硬板背板、UBB GPU主板四部分,相比PCIe AI服务器主要的增量在于加速卡 的价值量更高。



华为昇腾计算产业搭建全栈AI计算基础设施,数据中心液冷势在必行

2023年7月27日,华鲲振宇发布全新一代算力基础设施与解决方案

华为集群计算业务副总裁王振华认为液冷是必然趋势,认为“液冷能够使能重算力、高算力 芯片的应用,同时还可以大幅度提高服务器芯片的可靠性,还能有效降低PUE”



生成式AI重新定义C端

联想AI版图——“三个大模型”框架。除了公共大模型、私域大模型外,手机或PC等 本地设备借助个人大模型实现新维度创新。

端侧模型:识别并评估网络中所有的关联子结构的重要性,随后进行裁剪量化。联想 董事长兼CEO杨元庆:要让每个人都拥有自己的大模型。

硬件实现平台:

Intel+联想:据英特尔中国终端系统事业群(CCG)郑炯,30%的创新想法在Meteor Lake 上加速推进+70%的创新想法将运用在未来的PC平台。AI PC将在2024年9月份左右上市。

高通+联想:合作推出人工智能增强型联想ThinkPad X13s。



Intel—CPU架构变革,首次集成NPU模块支持AI推理

AI PC是未来几年PC市场的一个关键转折点,预计将达上亿台出货量。

2023年9月,基辛格首次提出“AI PC”概念,“我们预计到2024年将向市场出货数千万台 支持人工智能的新型PC,随后将扩大到数亿台。”

酷睿Ultra处理器 Meteor Lake 被英特尔视为40年来最重大的处理器架构变革。

首次集成NPU在SoC 模块,用于AI本地推理加速;

基于Intel 4制程节点+3D高性能混合架构,能耗比显著进步。

Foveros 3D封装技术+分离式模块架构。



高通—新发2款芯片平台支持端侧生成式AI

2023骁龙峰会发布了骁龙X Elite和第三代骁龙8,分别面向Win 11 PC和智能手机。

骁龙8 Gen3:高通首个专为生成式AI打造的移动平台。端侧可运行高达100亿参数的大模型;运行70亿参数大模型时,每秒可以生成20个tokens(代币),速度高于人的阅读速度。

骁龙X Elite:单线程性能超过苹果M2和英特尔i9,性能可达x86同级竞品2倍;相同峰值性 能时,功耗仅为竞品的1/3;AI处理速度为竞品的4.5倍,异构AI引擎性能75 TOPS,支持设 备端运行参数量超过130亿大模型。



“安迪-比尔”定律有望在生成式AI中继续演绎

生成式AI在终端的渗透,演绎了新一版本的“安迪-比尔”定律。

在ICT中,“AI应用-终端-芯片-通讯”之间存在轮动迭代关系。端测AI在PC、手机先行,可 穿戴、智能家居的端侧AI也紧随其后。

鲶鱼效应会促进这个过程。一旦1-2家巨头开始加速,或带来消费电子更新潮。



总结:

AI算力创新加速期,AGI催化产业链量价齐升

AI进入大模型时代,算力“卖铲人”迎诸多创新

需求侧,训练算力率先以275倍/2年速度飙升,推理算力在AI应用落地期具备更高爆发性

供给侧,AI芯片为基,推动直接载体AI服务器变化

单服务器价值量显著提升,由约5-6万/台提升至100万元/台(8卡训练服务器)

芯片及内存价值占比由50%+提升至80%+

AI芯片:国产替代,追风逐日

AI算力两条线,NV和国产化并行

英伟达芯片依然有生态优势和稀疏矩阵优势

AI芯片国产替代进步明显,华为昇腾AI算力是国产算力核心

昇腾在华为内部业务布局中也极其重要,且围绕芯片,华为布局完善

最新昇腾芯片在稀疏化、软件工具链及网络通信层面均有创新,追赶英伟达

算力通信:价值放大,两极发力

需求确定性:通信具备流量管道属性,通信变化带动集群性能继续线性提升

通信网络创新在加速,云 – ICT - 光通信 - IDC环环紧扣

AI大模型训练需要更多运算单元的同时参与,算力难点之一是解决并行问题

AI训练网络强调点对点充分互联

成本压力下,AI

网络架构:两极格局,均有机会,本土RoCE等网络及400G以上光通信演进,是进一步重要 趋势!

Nvidia(Mellanox)代表的InfiniBand网络阵营,是AI网络架构的新力量,优势是性能与生态

传统硬件与科技大厂为代表,则形成基于以太网底座的高性能网络阵营,优势是通用性与成本

通信芯片与器件:产业链国产替代进程已从光模块逐步开始向上延伸进入到光芯片、光器件 等价值量更高环节

中美对比:电信运营商的算网融合战略明确,体现资源复用率、梯次布局、算力整体优势, 将是“中国式”算力大市场

算力电子:量价齐升,群星璀璨

云端AI:存储、电源、PCB量价齐升

HBM突破算力内存墙,有望成为AI服务器标配

电源为算力能耗之基石,AI服务器单机价值量可达2.8万

PCB:GPU模块加入,主板面积提升,PCIe AI服务器合计PCB价值量约1.4万元/台,NVLink AI服务器 PCB价值量约1.5万元/台

端侧AI:云端下沉,带动消费电子终端变革

高通、Intel发布集成NPU(AI计算)的SoC

“安迪-比尔”定律有望在生成式AI中继续演绎,国内外手机厂陆续跟进


本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,如需使用请参阅报告原文。

本报告共计:53页。受篇幅限制,仅列举部分内容。
幻影视界行业报告资源库,每天分享实用资源。扫描下方二维码加入后,直接搜索下载,海量历史资料随时查看、随意下载。


免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权, 请联系我们及时删除;内容为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系。

戳“阅读原文”下载报告。
页: [1]
查看完整版本: AI算力全产业链:大模型“卖铲人”,AI芯片全产业创新不断,国产化向阳而生