2026-03-13 1 min read

正在重塑AI硬件格局的四大博弈

CerebrasAWS光互连OCI MSAUALink芯片设计OracleAgentic AINVIDIA

如果制造世界上最大芯片的公司…其实并没有在卖那颗芯片呢？

本周四个独立的公告，串联起来讲述了同一个故事：AI硬件技术栈正在裂变为专业化的层级，赢家不会是拥有最大芯片的公司——而是控制正确层级的公司。

让我们逐一拆解。

1. AWS + Cerebras：买的是速度，不是护城河

Cerebras刚拿下了第一个云端合作。AWS将在Amazon Bedrock上提供Cerebras推理服务。听起来很厉害。但看看架构：

AWS如何拆分推理流水线

PrefillAWS Trainium3

DecodeCerebras CS-3

Prefill: Process the entire prompt in parallel

Compute-bound (matrix math) → AWS Trainium3

Decode: Generate tokens one by one

Memory-bandwidth-bound → Cerebras CS-3

Disaggregated inference: different silicon for each phase

AWS并没有把整个推理任务交给Cerebras。而是将流水线拆成两段：

预填充（Prefill）——并行处理整个提示词——运行在AWS自研的Trainium3芯片上。这是计算密集型阶段。AWS自己处理。
解码（Decode）——逐个生成token——运行在Cerebras CS-3上。这是内存带宽受限的阶段，Cerebras巨大的片上SRAM在此大放异彩。

这叫做解耦推理——在不同阶段使用不同的硬件。工程上很巧妙。但它揭示了Cerebras处境中一个重要的问题。

AWS买的是Cerebras的速度，不是它的晶圆级芯片。

令人不安的事实是：Cerebras制造了世界上最大的半导体——将整片晶圆变成一颗处理器。这是工程杰作。但它的核心特性——非结构化稀疏性（跳过神经网络中零值计算的能力）——目前似乎没有任何主流AI工作负载在使用。真正重要的模型——Llama、GPT、Gemini——并没有以匹配Cerebras硬件优势的方式利用稀疏性。

摩根士丹利直言不讳地指出：当机架级NVIDIA GB300和Vera Rubin上市后，Cerebras不具备20-25%的性能优势。而Cerebras目前享有的推理利润率？全行业都会很高，并非Cerebras独有。

那AWS为什么要做这笔交易？抢占时间窗口。 此时此刻，Cerebras CS-3提供最快的token生成速度。AWS正在租用这个速度差距——趁它还在。当Vera Rubin以5倍于Blackwell的推理吞吐量发货时——差距可能就关闭了。

看多的理由：解耦推理成为标准架构，Cerebras在解码阶段的优势上比NVIDIA迭代得更快。看空的理由：NVIDIA的软件生态（TRT-LLM、Dynamo）仅通过优化就能弥合差距——他们已经在60天内实现了2倍的性能提升。

2. 光互连联盟：谁在圈内，谁被排除，以及为什么重要

六家公司——Broadcom、AMD、Meta、Microsoft、NVIDIA和OpenAI——刚刚推出了光计算互连多源协议（OCI MSA）。这是一个开放规范，定义了AI集群中芯片和机架之间光信号如何传输数据。

第一反应：这不是UALink做的事情吗？

不是。它们是完全不同的层级。

三大标准，三个层级

OCI MSAPhysical / Optical

How light carries data between chips and racks

In: NVIDIA, Broadcom, AMD, Meta, Microsoft, OpenAI

Out: Google, AWS, Intel, Marvell, Ayar Labs

UALinkProtocol / Interconnect

GPU-to-GPU communication within a node (NVLink competitor)

In: AMD, Broadcom, Cisco, Google, HPE, Intel, Meta, Microsoft

Out: NVIDIA

UECNetwork / Ethernet Stack

AI-optimized Ethernet with RDMA for scale-out

In: AMD, Arista, Broadcom, Cisco, Intel, Meta, Microsoft

Three standards, three layers, three sets of power dynamics

可以类比互联网：

OCI MSA 是光纤电缆——物理介质。铜线 vs 光纤 vs 共封装光学。光子如何移动。
UALink 是协议——就像GPU间通信的TCP/IP。芯片在节点内如何对话。直接竞争NVIDIA专有的NVLink。
UEC（超以太网联盟）是网络栈——AI优化的以太网，用于机架间大规模互联。

OCI MSA位于UALink之下。你可以在OCI MSA光学上运行UALink。它们是互补的，不是竞争的。

但缺席者讲述了一个故事：

Google缺席OCI MSA。 为什么？Google端到端地设计自己的TPU互连架构。他们不需要行业联盟来标准化光链路——他们控制着从芯片到机架的整个技术栈。

AWS也缺席了。 同样的逻辑。Trainium使用自研互连（NeuronLink）。AWS在垂直整合，而非水平协作。

Ayar Labs——领先的共封装光学初创公司——被排除在外，尽管它是多个联盟成员的供应商。这可能暗示联盟更倾向于可插拔光学而非CPO。可插拔更灵活、更易现场维护。CPO更高效但更难维护。联盟可能在押注可插拔光学在这一代的规模化扩展中会胜出。

3. 当AI设计自己的芯片

这是本周最低调但最具深远影响的公告。

在Synopsys Converge——半导体设计行业的重要会议上——OpenAI的Richard Ho确认AI代理正在工程团队下班后自主执行芯片设计任务。

工程师回家了。代理继续工作。早上，设计取得了进展。

AI芯片设计加速时间线

2024

AI assists with RTL code generation

Engineers use Copilot-style tools for Verilog boilerplate

Early 2025

AI writes competitive GPU kernels

6+ months of AI-assisted development, quality goes from 'helpful' to 'useful'

Late 2025

One-shot kernel optimization

GPT-5.3-Codex outperforms human-written kernels at scale (DoubleAI WarpSpeed)

Mar 2026

Overnight autonomous chip design

OpenAI agents doing chip design while engineering team sleeps (Richard Ho, Synopsys Converge)

Mar 2026

Cross-vendor kernel porting

Claude and Codex write GPU kernels across multi-vendor hardware, reducing porting friction

From autocomplete to autonomous design in 18 months

这不是假设性的未来技术。它与过去18个月一直在积累的更广泛模式相连：

DoubleAI WarpSpeed研究表明，AI编写的GPU内核现在在规模上超越了人类编写的内核。从业者报告说，这个过程从”有帮助”变成了”一次成功”——你描述内核应该做什么，GPT-5.3-Codex在第一次尝试中就写出生产级代码。
Claude和Codex正被用于跨多供应商硬件平台编写GPU内核——NVIDIA、AMD、Intel——将原本需要数周的专业工程工作缩短到几分钟。

从自动补全到自主设计，仅用了18个月。

半导体设计周期历来以年为单位。一个新的GPU架构从概念到硅片需要3-4年。如果AI代理能处理重复性工作——RTL编码、验证、布局优化、时序收敛——这些周期将大幅压缩。

传统EDA护城河——由Synopsys和Cadence主导的超过150亿美元的行业——面临一个有趣的悖论。它们的工具是AI代理运行的平台。但如果代理足够强大，它们可能会将工具本身商品化。价值从软件迁移到驱动软件的智能。

4. Oracle的5530亿美元之问

让我们谈谈当前科技界最极端的背离。

Oracle：积压上升，股价下跌

RPO ($B)Stock ($)

Q1 2025

$130B

$168

Q2 2025

$138B

$175

Q3 2025

$310B

$190

Sep 2025

$380B

$178

Q4 2025

$455B

$132

Mar 2026

$553B

$89

RPO 4x up, stock 50% down. The market doesn't believe the backlog converts.

RPO——剩余履约义务——是一个会计术语。意思是：已签署但Oracle尚未交付的服务合同。就像餐厅的预订簿。RPO说明未来一年预订了多少桌。收入说明实际端了多少餐。

Oracle的RPO从1380亿美元飙升至5530亿美元，大约一年时间。4倍爆发。预订簿完全爆满。

与此同时，股价自2025年9月以来下跌了50%。股票回到了2025年初的水平，当时积压只有1300亿美元。

为什么会出现这种背离？三个原因：

转化质疑。 RPO是承诺，不是现金。市场要看实际收入增长。建设数据中心来履行这些积压需要大量资本支出——执行风险很高。
客户集中。 OpenAI正在Oracle基础设施上扩展Vera Rubin GPU集群。这很好——直到你意识到5530亿美元积压中很大一部分可能来自一个客户。
合同结构。 并非所有RPO都相同。多年期云合同通常有使用承诺，可以重新协商。市场在定价某些合同可能有退出条款——或者增长会比标题数字暗示的更慢。

看多的理由：如果Oracle以云级别的利润率转化哪怕30%的积压，股价在当前水平简直便宜到离谱。看空的理由：RPO是海市蜃楼。合同缓慢增长，基础设施交易利润率微薄，客户集中（OpenAI）创造了脆弱性。

贯穿四个故事的主线

这些故事表面上看似不同。芯片合作。光学标准。AI设计硬件。数据库公司的积压。

但它们共享一个论点：AI技术栈正在分裂为专业化的层级，赢家控制特定的瓶颈点，而非整个技术栈。

Cerebras 控制token生成速度——目前如此。但当Vera Rubin发货时，瓶颈点会转移。
OCI MSA 是关于谁定义光学层的争夺。制定标准的公司控制互操作性——并锁定竞争对手。
AI芯片设计代理 将设计时间线从数年压缩到数月，可能打破EDA双寡头格局，使芯片创新民主化。
Oracle的积压 是一个赌注：控制数据中心产能——而不仅仅是云软件——才是AI供应受限世界中真正的瓶颈点。

AI技术栈曾经很简单：买GPU，跑模型。现在它是一个由专业硅片、光学标准、设计自动化和基础设施合同组成的层级蛋糕。理解哪个层级最重要，就是新的alpha。

引用来源: [1fbf1fa0], [fce437d2], [738231cd], [3014cf7b], [7a35d4d9], [d858c507], [9e12bc13], [c2b29aac], [9950ef3b], [b5c817dd], [ee660b93]

1. AWS + Cerebras：买的是速度，不是护城河

2. 光互连联盟：谁在圈内，谁被排除，以及为什么重要

3. 当AI设计自己的芯片

4. Oracle的5530亿美元之问

贯穿四个故事的主线

获取信号，而非噪音