SGNL Intelligence.
EN 中文
1 min read

正在重塑AI硬件格局的四大博弈

CerebrasAWS光互连OCI MSAUALink芯片设计OracleAgentic AINVIDIA

如果制造世界上最大芯片的公司…其实并没有在卖那颗芯片呢?

本周四个独立的公告,串联起来讲述了同一个故事:AI硬件技术栈正在裂变为专业化的层级,赢家不会是拥有最大芯片的公司——而是控制正确层级的公司。

让我们逐一拆解。


1. AWS + Cerebras:买的是速度,不是护城河

Cerebras刚拿下了第一个云端合作。AWS将在Amazon Bedrock上提供Cerebras推理服务。听起来很厉害。但看看架构:

AWS如何拆分推理流水线
PrefillAWS Trainium3
DecodeCerebras CS-3
Prefill: Process the entire prompt in parallel
Compute-bound (matrix math)AWS Trainium3
Decode: Generate tokens one by one
Memory-bandwidth-boundCerebras CS-3
Disaggregated inference: different silicon for each phase

AWS并没有把整个推理任务交给Cerebras。而是将流水线拆成两段:

  • 预填充(Prefill)——并行处理整个提示词——运行在AWS自研的Trainium3芯片上。这是计算密集型阶段。AWS自己处理。
  • 解码(Decode)——逐个生成token——运行在Cerebras CS-3上。这是内存带宽受限的阶段,Cerebras巨大的片上SRAM在此大放异彩。

这叫做解耦推理——在不同阶段使用不同的硬件。工程上很巧妙。但它揭示了Cerebras处境中一个重要的问题。

AWS买的是Cerebras的速度,不是它的晶圆级芯片。

令人不安的事实是:Cerebras制造了世界上最大的半导体——将整片晶圆变成一颗处理器。这是工程杰作。但它的核心特性——非结构化稀疏性(跳过神经网络中零值计算的能力)——目前似乎没有任何主流AI工作负载在使用。真正重要的模型——Llama、GPT、Gemini——并没有以匹配Cerebras硬件优势的方式利用稀疏性。

摩根士丹利直言不讳地指出:当机架级NVIDIA GB300和Vera Rubin上市后,Cerebras不具备20-25%的性能优势。而Cerebras目前享有的推理利润率?全行业都会很高,并非Cerebras独有。

那AWS为什么要做这笔交易?抢占时间窗口。 此时此刻,Cerebras CS-3提供最快的token生成速度。AWS正在租用这个速度差距——趁它还在。当Vera Rubin以5倍于Blackwell的推理吞吐量发货时——差距可能就关闭了。

看多的理由:解耦推理成为标准架构,Cerebras在解码阶段的优势上比NVIDIA迭代得更快。看空的理由:NVIDIA的软件生态(TRT-LLM、Dynamo)仅通过优化就能弥合差距——他们已经在60天内实现了2倍的性能提升。


2. 光互连联盟:谁在圈内,谁被排除,以及为什么重要

六家公司——Broadcom、AMD、Meta、Microsoft、NVIDIA和OpenAI——刚刚推出了光计算互连多源协议(OCI MSA)。这是一个开放规范,定义了AI集群中芯片和机架之间光信号如何传输数据。

第一反应:这不是UALink做的事情吗?

不是。它们是完全不同的层级。

三大标准,三个层级
OCI MSAPhysical / Optical
How light carries data between chips and racks
In: NVIDIA, Broadcom, AMD, Meta, Microsoft, OpenAI
Out: Google, AWS, Intel, Marvell, Ayar Labs
UALinkProtocol / Interconnect
GPU-to-GPU communication within a node (NVLink competitor)
In: AMD, Broadcom, Cisco, Google, HPE, Intel, Meta, Microsoft
Out: NVIDIA
UECNetwork / Ethernet Stack
AI-optimized Ethernet with RDMA for scale-out
In: AMD, Arista, Broadcom, Cisco, Intel, Meta, Microsoft
Three standards, three layers, three sets of power dynamics

可以类比互联网:

  • OCI MSA光纤电缆——物理介质。铜线 vs 光纤 vs 共封装光学。光子如何移动。
  • UALink协议——就像GPU间通信的TCP/IP。芯片在节点内如何对话。直接竞争NVIDIA专有的NVLink。
  • UEC(超以太网联盟)是网络栈——AI优化的以太网,用于机架间大规模互联。

OCI MSA位于UALink之下。你可以在OCI MSA光学上运行UALink。它们是互补的,不是竞争的。

但缺席者讲述了一个故事:

Google缺席OCI MSA。 为什么?Google端到端地设计自己的TPU互连架构。他们不需要行业联盟来标准化光链路——他们控制着从芯片到机架的整个技术栈。

AWS也缺席了。 同样的逻辑。Trainium使用自研互连(NeuronLink)。AWS在垂直整合,而非水平协作。

Ayar Labs——领先的共封装光学初创公司——被排除在外,尽管它是多个联盟成员的供应商。这可能暗示联盟更倾向于可插拔光学而非CPO。可插拔更灵活、更易现场维护。CPO更高效但更难维护。联盟可能在押注可插拔光学在这一代的规模化扩展中会胜出。


3. 当AI设计自己的芯片

这是本周最低调但最具深远影响的公告。

在Synopsys Converge——半导体设计行业的重要会议上——OpenAI的Richard Ho确认AI代理正在工程团队下班后自主执行芯片设计任务

工程师回家了。代理继续工作。早上,设计取得了进展。

AI芯片设计加速时间线
2024
AI assists with RTL code generation
Engineers use Copilot-style tools for Verilog boilerplate
Early 2025
AI writes competitive GPU kernels
6+ months of AI-assisted development, quality goes from 'helpful' to 'useful'
Late 2025
One-shot kernel optimization
GPT-5.3-Codex outperforms human-written kernels at scale (DoubleAI WarpSpeed)
Mar 2026
Overnight autonomous chip design
OpenAI agents doing chip design while engineering team sleeps (Richard Ho, Synopsys Converge)
Mar 2026
Cross-vendor kernel porting
Claude and Codex write GPU kernels across multi-vendor hardware, reducing porting friction
From autocomplete to autonomous design in 18 months

这不是假设性的未来技术。它与过去18个月一直在积累的更广泛模式相连:

  • DoubleAI WarpSpeed研究表明,AI编写的GPU内核现在在规模上超越了人类编写的内核。从业者报告说,这个过程从”有帮助”变成了”一次成功”——你描述内核应该做什么,GPT-5.3-Codex在第一次尝试中就写出生产级代码。
  • Claude和Codex正被用于跨多供应商硬件平台编写GPU内核——NVIDIA、AMD、Intel——将原本需要数周的专业工程工作缩短到几分钟。
从自动补全到自主设计,仅用了18个月。

半导体设计周期历来以为单位。一个新的GPU架构从概念到硅片需要3-4年。如果AI代理能处理重复性工作——RTL编码、验证、布局优化、时序收敛——这些周期将大幅压缩。

传统EDA护城河——由Synopsys和Cadence主导的超过150亿美元的行业——面临一个有趣的悖论。它们的工具是AI代理运行的平台。但如果代理足够强大,它们可能会将工具本身商品化。价值从软件迁移到驱动软件的智能。


4. Oracle的5530亿美元之问

让我们谈谈当前科技界最极端的背离。

Oracle:积压上升,股价下跌
RPO ($B)Stock ($)
Q1 2025
$130B
$168
Q2 2025
$138B
$175
Q3 2025
$310B
$190
Sep 2025
$380B
$178
Q4 2025
$455B
$132
Mar 2026
$553B
$89
RPO 4x up, stock 50% down. The market doesn't believe the backlog converts.

RPO——剩余履约义务——是一个会计术语。意思是:已签署但Oracle尚未交付的服务合同。就像餐厅的预订簿。RPO说明未来一年预订了多少桌。收入说明实际端了多少餐。

Oracle的RPO从1380亿美元飙升至5530亿美元,大约一年时间。4倍爆发。预订簿完全爆满。

与此同时,股价自2025年9月以来下跌了50%。股票回到了2025年初的水平,当时积压只有1300亿美元。

为什么会出现这种背离?三个原因:

  1. 转化质疑。 RPO是承诺,不是现金。市场要看实际收入增长。建设数据中心来履行这些积压需要大量资本支出——执行风险很高。

  2. 客户集中。 OpenAI正在Oracle基础设施上扩展Vera Rubin GPU集群。这很好——直到你意识到5530亿美元积压中很大一部分可能来自一个客户。

  3. 合同结构。 并非所有RPO都相同。多年期云合同通常有使用承诺,可以重新协商。市场在定价某些合同可能有退出条款——或者增长会比标题数字暗示的更慢。

看多的理由:如果Oracle以云级别的利润率转化哪怕30%的积压,股价在当前水平简直便宜到离谱。看空的理由:RPO是海市蜃楼。合同缓慢增长,基础设施交易利润率微薄,客户集中(OpenAI)创造了脆弱性。


贯穿四个故事的主线

这些故事表面上看似不同。芯片合作。光学标准。AI设计硬件。数据库公司的积压。

但它们共享一个论点:AI技术栈正在分裂为专业化的层级,赢家控制特定的瓶颈点,而非整个技术栈。

  • Cerebras 控制token生成速度——目前如此。但当Vera Rubin发货时,瓶颈点会转移。
  • OCI MSA 是关于谁定义光学层的争夺。制定标准的公司控制互操作性——并锁定竞争对手。
  • AI芯片设计代理 将设计时间线从数年压缩到数月,可能打破EDA双寡头格局,使芯片创新民主化。
  • Oracle的积压 是一个赌注:控制数据中心产能——而不仅仅是云软件——才是AI供应受限世界中真正的瓶颈点。

AI技术栈曾经很简单:买GPU,跑模型。现在它是一个由专业硅片、光学标准、设计自动化和基础设施合同组成的层级蛋糕。理解哪个层级最重要,就是新的alpha。


引用来源: [1fbf1fa0], [fce437d2], [738231cd], [3014cf7b], [7a35d4d9], [d858c507], [9e12bc13], [c2b29aac], [9950ef3b], [b5c817dd], [ee660b93]

获取信号,而非噪音

最新分析直达收件箱。无垃圾邮件,随时退订。