连接未连之点:为什么AMD是唯一不需要收购就能应对SRAM推理革命的公司
地球上每一块AI芯片都有同样的问题。两家公司刚花了数十亿美元承认,仅靠GPU无法解决它。
这个问题叫做存储墙。而解决方案可能已经藏在AMD内部——在一个大多数投资者已经遗忘的部门里。
问题:为什么GPU只能胜任一半的工作
当你向AI模型提问时,硬件内部会发生两件截然不同的事情。
阶段1:预填充。 模型一次性并行读取你的整个提示词。这是矩阵乘法的盛宴——数千个计算核心同时运算。GPU 完美适合这个任务。
阶段2:解码。 模型逐个生成回答的token。每个token依赖前一个。无法并行——本质上是串行的。问题在于:解码期间,GPU的计算核心大部分闲置,等待从存储器读取数据。
解码时,GPU就像困在学校区域限速路段的F1引擎。你有数千个计算核心——但只能使用其中一小部分,因为从内存读取权重的速度才是瓶颈。
解决方案:不移动数据
传统方法:计算在处理器中,数据在内存中,通过总线来回搬运。更快的总线=更小的墙。这就是HBM——高带宽内存——也是NVIDIA锁定950亿美元内存供应承诺的原因。
但有一种根本不同的方法:如果根本不移动数据呢?
SRAM存内计算(CIM) 直接在存储阵列内部执行乘加运算。数据不需要传输到处理器——处理器来到数据身边。
| SRAM / CIM | HBM | Delta | |
|---|---|---|---|
| Latency | Sub-nanosecond | ~10-20 ns | 10-100x faster |
| Bandwidth/watt | Very high | High but power-hungry | 4x+ advantage |
| Capacity | 4-32 MB on-chip | 288-432 GB | 10,000x+ more |
| Cost per GB | Very expensive | Expensive but scalable | 100x+ cheaper |
| Best for | Decode (sequential tokens) | Prefill (parallel prompt) | Different jobs |
| Data movement | Zero (compute in-place) | GPU ↔ memory bus | Eliminated |
SRAM的访问延迟比外部DRAM快10-100倍。每次运算消耗的功率远更低,因为零数据移动。代价是:容量很小。片上只能放4-32MB,而HBM有288-432GB。
但对解码来说,这个代价无关紧要。token生成时,你反复读取相同的权重矩阵。设计良好的SRAM CIM芯片可以将热权重保存在片上,以最大速度生成token,完全不触及外部存储。
证明分裂正在发生的交易
2026年初的三笔交易表明,这不是理论——而是整个行业的架构方向。
AWS + Cerebras:租用速度
AWS宣布在Amazon Bedrock上提供Cerebras推理,拆分流水线:Trainium3处理预填充,Cerebras CS-3处理解码。AWS不拥有解码硬件——从Cerebras租用。
NVIDIA + Groq:收购架构
NVIDIA正在收购Groq——基于纯片上SRAM构建LPU推理芯片的公司。收购后,Groq将三星4nm晶圆订单增加了70%(9,000→15,000片)。
讽刺的是:NVIDIA锁定了952亿美元偏重HBM的供应承诺。现在它自己的收购表明HBM在推理中的核心地位可能下降。
Gimlet:新品类
Gimlet正在构建”原生代理推理云”,将工作负载分配到GPU、SRAM芯片、加速器和CPU上。不同硬件用于不同阶段。
每个主要玩家都在得出相同结论:一块芯片无法同时优化预填充和解码。技术栈正在分裂。问题是谁拥有两半。
没人连起来的点:AMD已经拥有一切
NVIDIA必须收购Groq才能获得SRAM专业知识。AWS必须租用Cerebras。Google运行单体TPU,没有SRAM解码方案。
AMD有。自2022年就有了。
当AMD以490亿美元收购Xilinx时,大多数分析师关注的是FPGA业务。他们错过的是:Xilinx花了十多年开发业界最先进的SRAM计算架构。
| GPU (Prefill) | SRAM/CIM (Decode) | NPU (Edge) | CPU (Orchestration) | |
|---|---|---|---|---|
AMD Already owned (Xilinx $49B, 2022) | MI455X 432GB HBM4, 19.6 TB/s | Versal CIM 4MB SRAM, 4x perf/watt vs GPU | XDNA2 3.8x more efficient than GPU | EPYC Server CPUs sold out for 2026 |
NVIDIA Had to acquire Groq | GB300 / Rubin 288GB HBM3E/HBM4 | Groq LPU On-chip SRAM, acquired 2026 | — | Grace ARM server CPU |
AWS Rents from Cerebras | — Uses NVIDIA GPUs | Cerebras CS-3 Rented, not owned | Inferentia Inference ASIC | Graviton ARM server CPU |
Google Monolithic TPU — no disaggregation | — Uses own TPUs | — No SRAM CIM play | TPU v7 Monolithic, own interconnect | Axion ARM server CPU |
AMD通过Xilinx拥有的:
Versal AI Edge — 4MB片上SRAM,比领先GPU的AI性能功耗比高4倍。10-100倍快于外部DRAM的确定性低延迟访问。无缓存架构——每个时钟周期都能交付数据。
FPGA LLM推理 — Alveo V80上Llama2-7B达到65.8 tok/s。VHK158上达到333 tok/s解码。
AMD同时拥有的:
- MI455X Helios — 432GB HBM4,19.6 TB/s。GPU侧。
- XDNA2 NPU — 比GPU高3.8倍的能效比。
- EPYC — 2026年全年售罄的服务器CPU。
地球上没有其他公司同时拥有四种计算模式:GPU + FPGA/CIM + NPU + CPU。
市场应该追问的问题
如果AMD已经拥有业界最深厚的SRAM CIM IP、最节能的NPU架构、有竞争力的数据中心GPU,以及到处售罄的服务器CPU——为什么没人把这些点连起来?
可能的解释:
组织壁垒。 自适应计算部门(前Xilinx)与数据中心GPU团队半独立运营。Versal定位于边缘,而非数据中心推理。两个团队可能没有就解耦推理进行沟通。
战略耐心。 AMD可能在刻意等待。让NVIDIA花数十亿收购Groq。让AWS用Cerebras验证解耦架构。然后带着不依赖任何第三方的垂直集成方案入场。
规模差距。 Versal的4MB SRAM对边缘很出色。但数据中心级LLM解码需要更多。将SRAM CIM从嵌入式扩展到数据中心是困难的工程问题。
无论原因是什么,这种不对称都很惊人。整个行业都在竞相拆分推理,花数十亿获取SRAM专业知识。而AMD——每个人心目中的”GPU替代选择”——自2022年以来就坐拥解耦推理最完整的硬件组合。
他们只是还没告诉任何人。
引用来源: [1fbf1fa0], [b1b735c6], [89f7ad3d], [00c4dbbf], [a40e0e8c], [27c9054f], [2f943716], [7d07608a], [39a5f30a], [295e13c0], [c6a1ac98], [969d02d2], [e3995993], [14a18fdc]