2026-03-09 1 min read

看不见的瓶颈：为什么AI的下一场危机不是GPU，而是光和逻辑

光网络CPOCPU短缺智能体AINVIDIAAMDIntel供应链

今天卖出的每一颗NVIDIA GPU都需要一颗自己的激光器。而全世界正在用完激光器。

它还需要一颗CPU来告诉它该做什么。而全世界也正在用完CPU。

三年来，AI行业一直痴迷于一个单一瓶颈：GPU。谁能造最多？谁能买最多？哪种架构赢？但2026年正在发生一件奇怪的事。GPU供应链终于在追赶——而两个”看不见的”基础设施层正在崩溃。

线缆太慢了。指挥者太少了。欢迎来到瓶颈大轮换。

1. 没人预见到的问题

把AI数据中心想象成一个交响乐团。GPU是乐手——强大、昂贵、万众瞩目。但乐团还需要一个音响效果完美的音乐厅（网络）和一个让所有人保持同步的指挥（CPU）。

多年来，我们不断扩大乐团规模，却没有升级音乐厅或雇佣更多指挥。当8颗GPU坐在一台服务器上时，这没问题。但现在我们在建造10万颗GPU的集群——音响效果糟糕透了，指挥也跟不上了。

瓶颈所在

2023–2024GPUs & HBM

GPU allocation wars, HBM3 supply constrained by SK Hynix capacity

2025Advanced Packaging

TSMC CoWoS capacity limits GB200 production ramps

2026Optics + CPUs

Transceiver supply 2x short, server CPUs sold out for the year

Constraint severity (relative)

两场平行危机正在展开：

光危机。 铜缆在物理上无法在10万颗GPU之间以足够快的速度传输数据。行业需要光子互连——用激光代替电子。但激光器的生产受限于一种稀有材料——磷化铟（InP），而光收发器的需求已经超过供应2倍。

逻辑危机。 AI正在从聊天机器人转向自主智能体——它们会规划、调用API、搜索网络、编写代码、并与其他智能体协调。所有这些编排都在CPU上运行。佐治亚理工/Intel的研究发现，在智能体工作负载中，CPU处理了50-90%的总延迟。而服务器CPU在2026年全年售罄。

2. 光的革命：为什么每颗GPU都需要一颗激光器

这里有一个数字可以一句话解释光网络超级周期：

1颗GPU = 1个光收发器。10万颗GPU = 10万颗激光器。

NVIDIA的GB200 NVL72机架——现代AI集群的标准构建模块——需要72个光收发器，每颗GPU一个。每个收发器使用一颗微型激光器，将电信号转换为以800 Gbps速度在光纤中传播的光脉冲。上一代运行在400G。下一代需要1.6 Tbps。

问题在哪？制造这些激光器需要磷化铟——一种全球产能有限的特殊半导体材料。麦肯锡预测，800G光收发器的产量将在2027年前比需求低40-60%，1.6T的供应缺口将在2029年前达到30-40%。

光收发器供需对比

800G Transceivers (2026–2027)40–60% shortfall

Demand

Supply

1.6T Transceivers (2027–2029)30–40% shortfall

Demand

Supply

Current demand exceeds supply by 2x due to indium phosphide (InP) laser production constraints. Source: McKinsey

行业的答案是共封装光学（CPO）——将激光器和光子电路直接集成到交换机或处理器的同一封装上。不再需要插入单独的收发器模块，光学元件成为硅芯片本身的一部分。

这样理解：今天的方式就像把灯泡拧进灯座。CPO是把LED直接嵌入电路板。更少的连接，更低的功耗，更大的带宽。

NVIDIA全力押注。2026年3月，黄仁勋宣布了40亿美元的平行投资：

20亿美元投资Coherent Corp —— 到2030年的数十亿美元CPO供应协议。股价飙升15%至历史新高。
20亿美元投资Lumentum Holdings —— 专注硅光子技术和美国新工厂。股价收涨12%。

黄仁勋称之为*“开创下一代硅光子技术，以前所未有的规模实现AI基础设施。”*

市场数据支持这一论点。Yole Group预测CPO市场将从2024年的4600万美元增长到2030年的81亿美元——惊人的137%年复合增长率。更广泛的数据中心光子TAM将在2028年达到160亿美元。意法半导体宣布量产其PIC100硅光子平台。NVIDIA的Quantum-X CPO InfiniBand交换机已商用，Spectrum-X以太网CPO将在2026年下半年跟进。

OFC 2026——光学行业最大的会议——预计将有16,000名参会者和700多家展商。2026年是1.6 Tbps交换机批量部署的元年，800G市场份额在一年内从7%攀升至35%——接近10倍增长。

这不是投机。这是一场供应争夺战。

3. CPU的回归：当智能体需要指挥

这是让所有人惊讶的部分：全球最大的AI公司突然急需CPU。

不是GPU。是CPU。那个从1970年代起就存在于每台电脑中的”无聊”芯片。

原因是智能体AI。当你向ChatGPT问一个简单问题时，GPU完成大部分工作——生成token。但当你要求AI智能体*“调研竞争对手、制作电子表格、给团队发邮件、安排后续会议”*——这是完全不同的工作负载：

规划任务分解（CPU）
调用API搜索网络和查询数据库（CPU）
执行工具——运行代码、处理文件、解析数据（CPU）
协调专业子智能体（CPU）
每一步生成文本（GPU）

佐治亚理工/Intel的研究论文（arXiv:2511.00739）在五个真实智能体工作负载中直接测量了这一点。发现：CPU处理了50-90.6%的总延迟。GPU大部分时间处于空闲状态，等待CPU完成编排。

服务器CPU供应紧缩

Intel30+ week lead time

Largely sold out

"The CPU has become cool again" — David Zinsner, CFO, Morgan Stanley TMT Conference (March 2026)

AMD10+ week lead time

Demand far exceeded forecasts

"We are in the process of catching up" — Lisa Su, CEO, Morgan Stanley TMT Conference (March 2026)

>50%

EPYC Turin share of AMD server CPU revenue

+50%

AMD cloud instance growth (YoY)

10–15%

KeyBanc Intel ASP upside estimate

50–90%

Agentic workflow latency on CPU

供应冲击是真实的。在2026年3月摩根士丹利TMT会议上：

AMD CEO 苏姿丰披露服务器CPU需求*“远超”*预期。第五代EPYC Turin超过服务器CPU收入的50%。云实例同比增长50%以上。AMD交期：8-10周。
Intel CFO David Zinsner说*“CPU又变酷了”——然后承认Intel”误判”了需求并且”绝对受限。”* Intel 2026年服务器CPU产能**“基本售罄。”** 交期：超过30周。

KeyBanc将Intel和AMD双双上调至增持，理由是服务器CPU在2026年”基本售罄”。他们认为Intel有10-15%的提价空间。

更关键的是：Meta成为首家部署独立NVIDIA Grace CPU（无配对GPU）专门用于智能体AI的科技巨头。这是一个信号：智能体正在创造一个全新的纯CPU服务器品类。

4. 6020亿美元的连接

这两个瓶颈不是独立的。它们由同一个根本原因连接：计算史上最大的基础设施投资浪潮。

6020亿美元资本支出如何级联传导

Top 5 Hyperscaler Capex (2026)$602B (+36% YoY)

GPU & AcceleratorsHBM, TSMC wafers, CoWoS packaging

Optical Networking3–5 transceivers per GPU, InP lasers, CPO modules

Server CPUs~1:1 CPU-to-GPU for agentic workloads, orchestration

Power & CoolingUp to 600 kW per rack, grid upgrades, liquid cooling

Every GPU purchased creates multiplicative downstream demand.
The constrained layer captures the most incremental value.

五大超大规模企业在2026年部署6020亿美元资本支出——同比增长36%——其中约4500亿美元用于AI基础设施。每一美元都触发一个级联：

购买GPU —— 创造对HBM、台积电晶圆、先进封装的需求
每颗GPU需要收发器 —— 每芯片3-5个光链路 —— 创造对激光器、InP、硅光子的需求
每颗GPU需要指挥 —— 智能体工作负载需要约1:1的CPU-GPU比 —— 创造对EPYC、Xeon、Grace的需求
每个机架需要电力 —— 每机架高达600 kW —— 创造对电网升级、冷却的需求

瓶颈在这个堆栈中轮换。2023-2024年是GPU和HBM。2025年是台积电先进封装。2026年是光网络和CPU。每一层轮流成为约束。

推理正在加速这种轮换。德勤预测2026年推理占所有AI算力的三分之二（从2023年的三分之一上升），最终稳定在80/20推理对训练的比例。推理是突发性的、延迟敏感的、越来越多由智能体驱动——恰恰是同时给网络带宽和CPU编排带来压力的工作负载模式。

5. 信号

数据浮现三个高确信度模式：

光网络超级周期是供应受限，而非需求受限。 光收发器需求今天已超过供应2倍。麦肯锡预测到2027年缺口40-60%。CPO市场以137%的年复合增长率增长。NVIDIA的40亿美元投资、意法半导体的量产、700多家OFC参展商都指向同一结论：这不是投机性需求——这是一场技术供不应求的抢购战。

服务器CPU不再是”被遗忘的芯片”。 Intel和AMD在2026年都已售罄。Intel的交期膨胀到30周以上。Meta在为智能体购买独立CPU。佐治亚理工50-90% CPU延迟占比的数据为此提供了严谨的技术基础。智能体AI在结构上就是CPU密集型的，而行业低估了这一点。

瓶颈轮换就是投资主题。 每卖出一颗GPU，都会在下游创造乘数效应的需求：1个收发器、1颗CPU、600 kW电力。随着行业从730万GPU当量向数千万规模扩张，供应”看不见的”层的公司——Coherent、Lumentum、意法半导体、AMD、Intel和电力基础设施企业——可能比GPU制造商本身获取更多的增量价值。6020亿美元的浪潮提升整个堆栈，但提升受限层最多。

分析由GIKE（通用迭代知识引擎）提供支持。市场数据来源：麦肯锡（收发器供应缺口）、Yole Group（CPO TAM，137% CAGR）、Dell’Oro（光传输市场）、德勤（推理算力占比）、高盛（超大规模资本支出）、KeyBanc资本市场（CPU供应分析）。公司数据来自摩根士丹利TMT会议（AMD CEO苏姿丰、Intel CFO David Zinsner）、NVIDIA新闻室（Coherent/Lumentum投资、Meta Grace部署）及佐治亚理工/Intel研究（arXiv:2511.00739）。声明在15个独立来源间交叉引用。

1. 没人预见到的问题

2. 光的革命：为什么每颗GPU都需要一颗激光器

3. CPU的回归：当智能体需要指挥

4. 6020亿美元的连接

5. 信号

获取信号，而非噪音