SGNL Intelligence.
EN 中文
1 min read

连接未连之点:为什么AMD是唯一不需要收购就能应对SRAM推理革命的公司

AMDNVIDIAGroqCerebrasAWSSRAM存内计算推理XilinxVersalHBM

地球上每一块AI芯片都有同样的问题。两家公司刚花了数十亿美元承认,仅靠GPU无法解决它。

这个问题叫做存储墙。而解决方案可能已经藏在AMD内部——在一个大多数投资者已经遗忘的部门里。


问题:为什么GPU只能胜任一半的工作

当你向AI模型提问时,硬件内部会发生两件截然不同的事情。

阶段1:预填充。 模型一次性并行读取你的整个提示词。这是矩阵乘法的盛宴——数千个计算核心同时运算。GPU 完美适合这个任务。

阶段2:解码。 模型逐个生成回答的token。每个token依赖前一个。无法并行——本质上是串行的。问题在于:解码期间,GPU的计算核心大部分闲置,等待从存储器读取数据。

两个阶段,两个瓶颈
PrefillCompute-bound
Process entire prompt in parallel
Compute
85%
Memory
30%
Best hardware: GPU / ASIC
DecodeMemory-bandwidth-bound
Generate tokens one at a time
Compute
15%
Memory
95%
Best hardware: SRAM / CIM
One chip can't be optimal for both phases. That's why the stack is splitting.

解码时,GPU就像困在学校区域限速路段的F1引擎。你有数千个计算核心——但只能使用其中一小部分,因为从内存读取权重的速度才是瓶颈。


解决方案:不移动数据

传统方法:计算在处理器中,数据在内存中,通过总线来回搬运。更快的总线=更小的墙。这就是HBM——高带宽内存——也是NVIDIA锁定950亿美元内存供应承诺的原因。

但有一种根本不同的方法:如果根本不移动数据呢?

SRAM存内计算(CIM) 直接在存储阵列内部执行乘加运算。数据不需要传输到处理器——处理器来到数据身边。

SRAM vs HBM:不同的工具,不同的任务
SRAM / CIMHBMDelta
LatencySub-nanosecond~10-20 ns10-100x faster
Bandwidth/wattVery highHigh but power-hungry4x+ advantage
Capacity4-32 MB on-chip288-432 GB10,000x+ more
Cost per GBVery expensiveExpensive but scalable100x+ cheaper
Best forDecode (sequential tokens)Prefill (parallel prompt)Different jobs
Data movementZero (compute in-place)GPU ↔ memory busEliminated
SRAM wins on speed and efficiency. HBM wins on capacity. The future uses both.

SRAM的访问延迟比外部DRAM快10-100倍。每次运算消耗的功率远更低,因为零数据移动。代价是:容量很小。片上只能放4-32MB,而HBM有288-432GB。

但对解码来说,这个代价无关紧要。token生成时,你反复读取相同的权重矩阵。设计良好的SRAM CIM芯片可以将热权重保存在片上,以最大速度生成token,完全不触及外部存储。

SRAM消除了存储墙。HBM用带宽冲击它。未来两者都需要。

证明分裂正在发生的交易

2026年初的三笔交易表明,这不是理论——而是整个行业的架构方向。

AWS + Cerebras:租用速度

AWS宣布在Amazon Bedrock上提供Cerebras推理,拆分流水线:Trainium3处理预填充,Cerebras CS-3处理解码。AWS不拥有解码硬件——从Cerebras租用。

NVIDIA + Groq:收购架构

NVIDIA正在收购Groq——基于纯片上SRAM构建LPU推理芯片的公司。收购后,Groq将三星4nm晶圆订单增加了70%(9,000→15,000片)。

讽刺的是:NVIDIA锁定了952亿美元偏重HBM的供应承诺。现在它自己的收购表明HBM在推理中的核心地位可能下降。

Gimlet:新品类

Gimlet正在构建”原生代理推理云”,将工作负载分配到GPU、SRAM芯片、加速器和CPU上。不同硬件用于不同阶段。

每个主要玩家都在得出相同结论:一块芯片无法同时优化预填充和解码。技术栈正在分裂。问题是谁拥有两半。


没人连起来的点:AMD已经拥有一切

NVIDIA必须收购Groq才能获得SRAM专业知识。AWS必须租用Cerebras。Google运行单体TPU,没有SRAM解码方案。

AMD有。自2022年就有了。

当AMD以490亿美元收购Xilinx时,大多数分析师关注的是FPGA业务。他们错过的是:Xilinx花了十多年开发业界最先进的SRAM计算架构

解耦推理中谁拥有什么
GPU (Prefill)SRAM/CIM (Decode)NPU (Edge)CPU (Orchestration)
AMD
Already owned (Xilinx $49B, 2022)
MI455X
432GB HBM4, 19.6 TB/s
Versal CIM
4MB SRAM, 4x perf/watt vs GPU
XDNA2
3.8x more efficient than GPU
EPYC
Server CPUs sold out for 2026
NVIDIA
Had to acquire Groq
GB300 / Rubin
288GB HBM3E/HBM4
Groq LPU
On-chip SRAM, acquired 2026
Grace
ARM server CPU
AWS
Rents from Cerebras
Uses NVIDIA GPUs
Cerebras CS-3
Rented, not owned
Inferentia
Inference ASIC
Graviton
ARM server CPU
Google
Monolithic TPU — no disaggregation
Uses own TPUs
No SRAM CIM play
TPU v7
Monolithic, own interconnect
Axion
ARM server CPU
Only AMD has all four columns filled with owned IP. Everyone else has gaps.

AMD通过Xilinx拥有的:

Versal AI Edge — 4MB片上SRAM,比领先GPU的AI性能功耗比高4倍。10-100倍快于外部DRAM的确定性低延迟访问。无缓存架构——每个时钟周期都能交付数据。

FPGA LLM推理 — Alveo V80上Llama2-7B达到65.8 tok/s。VHK158上达到333 tok/s解码

AMD同时拥有的:

  • MI455X Helios — 432GB HBM4,19.6 TB/s。GPU侧。
  • XDNA2 NPU — 比GPU高3.8倍的能效比。
  • EPYC — 2026年全年售罄的服务器CPU。

地球上没有其他公司同时拥有四种计算模式:GPU + FPGA/CIM + NPU + CPU

AMD是唯一能在不做任何额外收购的情况下构建完整解耦推理技术栈的公司——GPU预填充 + SRAM解码 + NPU边缘 + CPU编排。

市场应该追问的问题

如果AMD已经拥有业界最深厚的SRAM CIM IP、最节能的NPU架构、有竞争力的数据中心GPU,以及到处售罄的服务器CPU——为什么没人把这些点连起来?

可能的解释:

组织壁垒。 自适应计算部门(前Xilinx)与数据中心GPU团队半独立运营。Versal定位于边缘,而非数据中心推理。两个团队可能没有就解耦推理进行沟通。

战略耐心。 AMD可能在刻意等待。让NVIDIA花数十亿收购Groq。让AWS用Cerebras验证解耦架构。然后带着不依赖任何第三方的垂直集成方案入场。

规模差距。 Versal的4MB SRAM对边缘很出色。但数据中心级LLM解码需要更多。将SRAM CIM从嵌入式扩展到数据中心是困难的工程问题。

无论原因是什么,这种不对称都很惊人。整个行业都在竞相拆分推理,花数十亿获取SRAM专业知识。而AMD——每个人心目中的”GPU替代选择”——自2022年以来就坐拥解耦推理最完整的硬件组合。

他们只是还没告诉任何人。


引用来源: [1fbf1fa0], [b1b735c6], [89f7ad3d], [00c4dbbf], [a40e0e8c], [27c9054f], [2f943716], [7d07608a], [39a5f30a], [295e13c0], [c6a1ac98], [969d02d2], [e3995993], [14a18fdc]

获取信号,而非噪音

最新分析直达收件箱。无垃圾邮件,随时退订。