Token 海啸:估算当今与年底的全球 AI 吞吐量
全球现在每天生成多少 Token?当 Vera Rubin、MI455X 和下一波硅片上线后又会是多少?没有人公布单一答案——但通过拼接 OpenAI、Google、Microsoft、NVIDIA 基准测试和出货量估算的公开数据点,我们可以勾勒出一个大致图景。数据表明,当前行业每天处理约 30-50 万亿个 Token,而产能将在年底前增长 10-20 倍。需求能否跟上,才是价值万亿美元的问题。
1. 我们已知的数据
大多数 AI 公司不公开 Token 吞吐量。但已有足够多的数据点被泄露或报道,可以作为估算的锚点:
- **OpenAI:**2025 年 10 月 API 日均处理约 8.6 万亿个 Token。随着 Codex 用户自 2026 年 1 月以来增长三倍,加上 ChatGPT 持续增长,当前吞吐量可能更高。
- **Google:**2025 年底月度 Token 处理量达到约 160 万亿——约合每天 5.3 万亿个 Token。涵盖 Gemini、搜索 AI 和内部工作负载。部分估算认为 Google 的处理量接近 Azure 的 10 倍。
- **Microsoft Azure:**2025 年第三季度单月处理了创纪录的 50 万亿个 Token。包括 OpenAI API 流量和 Azure 自有 AI 服务。
- **OpenRouter:**这家小型供应商聚合平台在 2025 年底突破了日均 1 万亿 Token——是推理需求长尾的有用代理指标。
Anthropic、Meta(内部)、Amazon Bedrock 和本地部署均未公开数据。但将已知数据点与未公开玩家的合理估算相结合,2026 年第一季度全行业 Token 消费量可能为每天 30-50 万亿个。
2. 理解这个规模
万亿和千万亿级别的 Token 难以直观感受。这里有一个具象化的方法:当前的 Token 消费量能从零开始构建多少个大型软件项目?
全球最复杂的代码库以数千万行代码计量。Windows 大约有 5000 万行。Chromium 浏览器——Chrome、Edge 和 Brave 的引擎——大约 3500 万行。Linux 内核——驱动从安卓手机到云服务器的一切——大约 2800 万行。
当 Claude Code 或 Cursor 等编码智能体编写软件时,它不仅仅输出代码。它会规划、阅读上下文、推理、编写、测试和调试。SWE-bench 数据显示,智能体修复一个改动 10-50 行的 bug 需要消耗 10 万到 200 万个 Token。从零编写新代码的开销较低但仍然可观。一个合理的中间估算是,完整的智能体「从零构建」工作流——包括规划、编写、测试和迭代——大约每行代码 1,000 个 Token。
这意味着每个项目大约需要:
- **Windows:**5000 万行 x 1,000 Token/行 = ~500 亿 Token
- **Chromium:**3500 万行 x 1,000 Token/行 = ~350 亿 Token
- **Linux 内核:**2800 万行 x 1,000 Token/行 = ~280 亿 Token
现在将其应用到实际数据。以当前约 40 万亿 Token/天的消费量,全球每天生成的 Token 足以从零构建约 800 个 Windows 级项目。相当于 1,100 个 Chromium 浏览器或 1,400 个 Linux 内核。每 24 小时。
| Windows 50M lines = 50B tok | Chromium 35M lines = 35B tok | Linux kernel 28M lines = 28B tok | |
|---|---|---|---|
| Today's consumption (~40T/day) | 800/day | 1,140/day | 1,430/day |
| End-2026 effective capacity (~8Q/day) | 160,000/day | 229,000/day | 286,000/day |
到年底,如果硬件产能达到每天 8 千万亿有效 Token(我们在 35% 利用率下的预测),这将变成每天 160,000 个 Windows 级项目。人类软件工程的全部历史——每一个曾经编写过的程序——都可以在一天之内用 Token 重现许多遍。
当然,Token 不等于软件。规划、设计、测试和人类判断仍然不可或缺。但行业正在构建的原始生成能力是计算历史上前所未有的。
3. 当前硬件产能
全球的 AI 硬件实际能提供多少吞吐量?三个锚点:
- **已装机 GPU 基数:**IEA 和 SemiAnalysis 估计,截至 2026 年初,全球约有 730 万个 H100 等效 GPU,对应约 30 GW 的 AI 数据中心电力容量。
- **单 GPU 吞吐量:**GB300 NVL72 机架每秒输出 110 万个 Token(Microsoft MLPerf),约合每 GPU 15,200 输出 Token/秒。较老的 H100 根据模型和优化程度约 3,000-5,000 Token/秒。整体安装基数的混合平均值可能为 4,000-6,000 Token/秒/GPU。
- **推理分配:**推理现在消耗约三分之二的 AI 算力(2023 年为三分之一)。在 730 万 GPU 等效基数中,约 450-500 万 GPU 分配给推理。
乘法计算:500 万推理 GPU x 平均 5,000 Token/秒 x 86,400 秒/天 = 约 2.2 千万亿 Token/天的理论产能。在 30-40% 的实际利用率下,有效产能约为每天 650-880 万亿 Token。
与实际消费的 30-50 万亿 Token/天相比,行业仅运行在理论产能的约 4-7%。这看起来像是大规模产能过剩——直到你考虑到需求端即将发生的变化。
4. 需求乘数
四股力量正在叠加,可能创造出计算历史上最陡峭的需求曲线。
**智能体工作负载是 Token 乘数。**Cursor 轨迹中的每一步升级——从 Tab 自动补全(~100 Token)到单一 Agent(~1 万)到并行 Agent(~10 万)到 Agent 集群(~100 万+)——都将每次会话的 Token 消耗提升一个数量级。Karpathy 将 2025 年 12 月确定为编码智能体变得实用的拐点。Sam Altman 确认 Codex 周活用户自一月以来增长了三倍。
**模型被专门设计为生成更多 Token。**DeepSeek V3.2 在 1,800 个环境中使用 85,000 条智能体指令进行训练。V3.2-Speciale 等推理模型每次查询产生数千个思考 Token。模型层正在进化以消耗更多算力,而非更少。
**智能体也需要 CPU。**AMD CEO 苏姿丰确认了「来自智能体 AI 的意外 CPU 需求」。如果消费者每天仅使用智能体一小时,全球就需要将现有 CPU 装机量翻倍——这是 GPU Token 之外的并行需求冲击。
**杰文斯悖论。**Blackwell Ultra 相比 Hopper 实现了每 Token 成本降低 35 倍。历史表明,戏剧性的成本降低不仅满足现有需求——它们还会解锁全新的使用类别。当今天的智能体集群真正可靠运行时,每个开发者会话可能消耗比自动补全多 10,000 倍的 Token。
如果 1 亿知识工作者采用平均每天消耗 1 亿 Token 的 AI 智能体集群,那就是每天 10 千万亿 Token — 是当前所有已装机硬件理论产能的 5 倍。4-7% 的利用率差距会迅速缩小。
5. 年底前即将上线的硬件
三波硬件浪潮将在 2026 年下半年大幅扩展供给:
**NVIDIA Vera Rubin NVL72:**已在生产中,2026 年下半年向云合作伙伴发货。每个 Vera Rubin GPU 的推理性能是 GB200 的 5 倍,每 Token 成本比 Blackwell 低 10 倍。配备 288GB HBM4、20.5 TB/s 带宽和 NVLink 6(3.6 TB/s),单个机架可输出约 550 万 Token/秒——是当前 GB300 机架的 5 倍。摩根士丹利预计 2026 年 AI 服务器机柜出货量将从 28,000 翻倍至 60,000。
**AMD MI455X Helios:**目标 2026 年下半年,但量产可能延至 2027 年第二季度。每个 MI455X 配备 432GB HBM4(Vera Rubin 的 1.5 倍)、19.6 TB/s 带宽。Helios 机架包含 72 个加速器,提供 31TB HBM4 和 1.4 PB/s 聚合带宽。AMD 在 Meta 和 OpenAI 已有 12GW 的超大规模客户承诺产能。
**Broadcom 定制 ASIC 和网络:**Meta 的 MTIA 定制芯片进展「超出预期」(Broadcom CEO Hock Tan)。Google 的 TPU Ironwood 开始对外销售。Amazon Trainium 支撑 OpenAI 的 2GW 分配。这些定制设计针对特定推理工作负载优化,增加的产能不会出现在 GPU 出货统计中。
**软件是额外的免费乘数。**NVIDIA 的 GB200 NVL72 仅通过 TensorRT-LLM 软件升级就在 MoE 模型上获得了 2 倍性能提升。AMD 的 MoRI 库在 30 天内实现了 1.5 倍提升。每一代硬件都带有更多的软件优化空间。
6. 年底估算:当前的 10-20 倍
2026 年底推理产能的粗略预测:
- **新增 NVIDIA 机架:**如果 60,000 个机柜出货(摩根士丹利),混合 GB300 和 Vera Rubin——假设 35,000 个 GB300(110 万 Token/秒)和 25,000 个 Vera Rubin(550 万 Token/秒)——新增 1,760 亿 Token/秒的产能,即每天 15.2 千万亿 Token。
- **存量基础升级:**H100/H200/GB200 安装基数的软件优化可带来 1.5-2 倍增益,将现有产能从约 2.2Q 提升至约 3.3-4.4Q Token/天。
- **AMD + 定制 ASIC:**MI355X 正在出货。MI455X Helios 机架在 2026 年底加入。Google TPU、Amazon Trainium 和 Meta MTIA 贡献的产能更难估算,但可能再增加 2-5Q Token/天。
2026 年底总理论产能:约每天 20-25 千万亿 Token——是当前约 2.2Q 的 10-12 倍增长。在实际利用率下,有效产能约为每天 6-10Q Token。
这听起来很庞大。但对比需求场景:1 亿知识工作者 x 1 亿 Token/天 = 10Q Token/天。加上运行智能体集群的开发者、企业自动化和 API 使用的长尾 — 即使 10-20 倍的硬件扩张也可能不会造成产能过剩。它可能只是为下一波需求提供了空间。
信号
知识图谱从这次分析中浮现出三个高置信度模式:
- **当前利用率具有欺骗性地低。**行业目前仅运行在理论 GPU 产能的 4-7%。这看起来像产能过剩,但实际上是智能体工作负载将快速消耗的预留空间。「已服务 Token」与「可能 Token」之间的差距就是市场机会。
- **供给扩张 10-20 倍,需求也是。**Vera Rubin 单 GPU 5 倍性能提升,加上 2 倍机架出货增长和软件增益,可将产能推至年底 20-25Q Token/天。但如果哪怕只有一小部分知识工作者采用智能体,需求将在 12-18 个月内追上或超过这一水平。
- **三池约束持续存在。**即使 GPU 大规模扩张,瓶颈在算力(台积电晶圆竞争)、内存(SK 海力士、三星、美光的 HBM4 供应)和网络架构(Broadcom 730 亿美元积压订单)之间轮转。NVIDIA 在带宽和软件方面领先,AMD 在单 GPU 内存容量方面领先(432GB vs 288GB),Broadcom 控制定制 ASIC 和网络层。没有单一供应商能解决所有三个问题——基础设施超级周期惠及所有玩家。