2026-03-15 1 min read

连接未连之点：为什么AMD是唯一不需要收购就能应对SRAM推理革命的公司

AMDNVIDIAGroqCerebrasAWSSRAM存内计算推理XilinxVersalHBM

地球上每一块AI芯片都有同样的问题。两家公司刚花了数十亿美元承认，仅靠GPU无法解决它。

这个问题叫做存储墙。而解决方案可能已经藏在AMD内部——在一个大多数投资者已经遗忘的部门里。

问题：为什么GPU只能胜任一半的工作

当你向AI模型提问时，硬件内部会发生两件截然不同的事情。

阶段1：预填充。 模型一次性并行读取你的整个提示词。这是矩阵乘法的盛宴——数千个计算核心同时运算。GPU 完美适合这个任务。

阶段2：解码。 模型逐个生成回答的token。每个token依赖前一个。无法并行——本质上是串行的。问题在于：解码期间，GPU的计算核心大部分闲置，等待从存储器读取数据。

两个阶段，两个瓶颈

PrefillCompute-bound

Process entire prompt in parallel

Compute

85%

Memory

30%

Best hardware: GPU / ASIC

DecodeMemory-bandwidth-bound

Generate tokens one at a time

Compute

15%

Memory

95%

Best hardware: SRAM / CIM

One chip can't be optimal for both phases. That's why the stack is splitting.

解码时，GPU就像困在学校区域限速路段的F1引擎。你有数千个计算核心——但只能使用其中一小部分，因为从内存读取权重的速度才是瓶颈。

解决方案：不移动数据

传统方法：计算在处理器中，数据在内存中，通过总线来回搬运。更快的总线=更小的墙。这就是HBM——高带宽内存——也是NVIDIA锁定950亿美元内存供应承诺的原因。

但有一种根本不同的方法：如果根本不移动数据呢？

SRAM存内计算（CIM） 直接在存储阵列内部执行乘加运算。数据不需要传输到处理器——处理器来到数据身边。

SRAM vs HBM：不同的工具，不同的任务

	SRAM / CIM	HBM	Delta
Latency	Sub-nanosecond	~10-20 ns	10-100x faster
Bandwidth/watt	Very high	High but power-hungry	4x+ advantage
Capacity	4-32 MB on-chip	288-432 GB	10,000x+ more
Cost per GB	Very expensive	Expensive but scalable	100x+ cheaper
Best for	Decode (sequential tokens)	Prefill (parallel prompt)	Different jobs
Data movement	Zero (compute in-place)	GPU ↔ memory bus	Eliminated

SRAM wins on speed and efficiency. HBM wins on capacity. The future uses both.

SRAM的访问延迟比外部DRAM快10-100倍。每次运算消耗的功率远更低，因为零数据移动。代价是：容量很小。片上只能放4-32MB，而HBM有288-432GB。

但对解码来说，这个代价无关紧要。token生成时，你反复读取相同的权重矩阵。设计良好的SRAM CIM芯片可以将热权重保存在片上，以最大速度生成token，完全不触及外部存储。

SRAM消除了存储墙。HBM用带宽冲击它。未来两者都需要。

证明分裂正在发生的交易

2026年初的三笔交易表明，这不是理论——而是整个行业的架构方向。

AWS + Cerebras：租用速度

AWS宣布在Amazon Bedrock上提供Cerebras推理，拆分流水线：Trainium3处理预填充，Cerebras CS-3处理解码。AWS不拥有解码硬件——从Cerebras租用。

NVIDIA + Groq：收购架构

NVIDIA正在收购Groq——基于纯片上SRAM构建LPU推理芯片的公司。收购后，Groq将三星4nm晶圆订单增加了70%（9,000→15,000片）。

讽刺的是：NVIDIA锁定了952亿美元偏重HBM的供应承诺。现在它自己的收购表明HBM在推理中的核心地位可能下降。

Gimlet：新品类

Gimlet正在构建”原生代理推理云”，将工作负载分配到GPU、SRAM芯片、加速器和CPU上。不同硬件用于不同阶段。

每个主要玩家都在得出相同结论：一块芯片无法同时优化预填充和解码。技术栈正在分裂。问题是谁拥有两半。

没人连起来的点：AMD已经拥有一切

NVIDIA必须收购Groq才能获得SRAM专业知识。AWS必须租用Cerebras。Google运行单体TPU，没有SRAM解码方案。

AMD有。自2022年就有了。

当AMD以490亿美元收购Xilinx时，大多数分析师关注的是FPGA业务。他们错过的是：Xilinx花了十多年开发业界最先进的SRAM计算架构。

解耦推理中谁拥有什么

	GPU (Prefill)	SRAM/CIM (Decode)	NPU (Edge)	CPU (Orchestration)
AMD Already owned (Xilinx $49B, 2022)	MI455X 432GB HBM4, 19.6 TB/s	Versal CIM 4MB SRAM, 4x perf/watt vs GPU	XDNA2 3.8x more efficient than GPU	EPYC Server CPUs sold out for 2026
NVIDIA Had to acquire Groq	GB300 / Rubin 288GB HBM3E/HBM4	Groq LPU On-chip SRAM, acquired 2026	—	Grace ARM server CPU
AWS Rents from Cerebras	— Uses NVIDIA GPUs	Cerebras CS-3 Rented, not owned	Inferentia Inference ASIC	Graviton ARM server CPU
Google Monolithic TPU — no disaggregation	— Uses own TPUs	— No SRAM CIM play	TPU v7 Monolithic, own interconnect	Axion ARM server CPU

Only AMD has all four columns filled with owned IP. Everyone else has gaps.

AMD通过Xilinx拥有的：

Versal AI Edge — 4MB片上SRAM，比领先GPU的AI性能功耗比高4倍。10-100倍快于外部DRAM的确定性低延迟访问。无缓存架构——每个时钟周期都能交付数据。

FPGA LLM推理 — Alveo V80上Llama2-7B达到65.8 tok/s。VHK158上达到333 tok/s解码。

AMD同时拥有的：

MI455X Helios — 432GB HBM4，19.6 TB/s。GPU侧。
XDNA2 NPU — 比GPU高3.8倍的能效比。
EPYC — 2026年全年售罄的服务器CPU。

地球上没有其他公司同时拥有四种计算模式：GPU + FPGA/CIM + NPU + CPU。

AMD是唯一能在不做任何额外收购的情况下构建完整解耦推理技术栈的公司——GPU预填充 + SRAM解码 + NPU边缘 + CPU编排。

市场应该追问的问题

如果AMD已经拥有业界最深厚的SRAM CIM IP、最节能的NPU架构、有竞争力的数据中心GPU，以及到处售罄的服务器CPU——为什么没人把这些点连起来？

可能的解释：

组织壁垒。 自适应计算部门（前Xilinx）与数据中心GPU团队半独立运营。Versal定位于边缘，而非数据中心推理。两个团队可能没有就解耦推理进行沟通。

战略耐心。 AMD可能在刻意等待。让NVIDIA花数十亿收购Groq。让AWS用Cerebras验证解耦架构。然后带着不依赖任何第三方的垂直集成方案入场。

规模差距。 Versal的4MB SRAM对边缘很出色。但数据中心级LLM解码需要更多。将SRAM CIM从嵌入式扩展到数据中心是困难的工程问题。

无论原因是什么，这种不对称都很惊人。整个行业都在竞相拆分推理，花数十亿获取SRAM专业知识。而AMD——每个人心目中的”GPU替代选择”——自2022年以来就坐拥解耦推理最完整的硬件组合。

他们只是还没告诉任何人。

引用来源: [1fbf1fa0], [b1b735c6], [89f7ad3d], [00c4dbbf], [a40e0e8c], [27c9054f], [2f943716], [7d07608a], [39a5f30a], [295e13c0], [c6a1ac98], [969d02d2], [e3995993], [14a18fdc]