SGNL Intelligence.
EN 中文
2 min read

杰文斯悖论:为什么每一次 AI 优化都让硬件短缺更加严重

Jevons ParadoxInferenceTurboQuantEngramMemoryHBMDRAMSupply ChainOpenRouter

1865 年,经济学家威廉·斯坦利·杰文斯观察到,詹姆斯·瓦特更高效的蒸汽机并没有减少煤炭消耗,反而增加了。效率的提升使蒸汽动力在新的应用场景中变得经济可行 — 工厂、铁路、轮船 — 煤炭总需求因此爆发式增长。

一百六十一年后,同样的机制正在 AI 推理领域上演。而现在,我们有了数据来证明这一点。


证据:OpenRouter 的百万亿 Token 数据集

OpenRouter 于 2026 年 1 月发布了一项里程碑式的研究,分析了其平台上处理的超过 100 万亿个 token。类别分布揭示了一切:

OpenRouter Token 用途分类(2025-2026)
Early 2025
11%
Mid 2025
25%
Late 2025
38%
Mar 2026
52%
Coding/Programming
All Other Categories
Source: OpenRouter State of AI study (arXiv:2601.10088). 11% and 50%+ are sourced; mid-points interpolated. Category tags added mid-2025.

编程从 2025 年初约占 token 总量的 11% 增长到 2026 年 3 月的 50% 以上。Agent 驱动的工作流 token 现在超过了平台总输出的一半。(需要说明的是:OpenRouter 在 2025 年中期才添加类别标签,因此早期数据是回溯分类 — 但变化的方向和幅度是毫无疑问的。)

这并不是因为现有程序员使用了更多 token。而是因为一个全新的用例 — Agentic 编程 — 被更便宜、更快的推理创造出来了。 Claude Code、Cursor 和 Codex 等工具将编程从人类活动转变为人类指导的 AI 活动。每个 Agentic 编程会话消耗的 token 量比其取代的聊天对话高出数个数量级 — SWE-bench 数据显示,Agent 每修复一个 bug 就会消耗 10 万到 200 万个 token。

OpenRouter 数据:编程 token 在一年内从 11% 增长到 50% 以上。Agent 驱动的工作流现在超过平台总输出的一半。这个使用类别在 18 个月前几乎不存在。

Claude 在 OpenRouter 上超过 80% 的使用量都是编程工作负载。不是聊天,不是创意写作,而是代码。


机制:更便宜的 Token 创造新市场

这一模式在 AI 技术栈的每一次效率提升中都保持一致:

前沿模型定价 vs. 全球 Token 需求
GPT-4
Mar 2023
$60
per 1M output tokens
0.5T
est. daily global tokens
GPT-4 Turbo
Nov 2023
$30
per 1M output tokens
1.2T
est. daily global tokens
Claude 3 Opus
Mar 2024
$75
per 1M output tokens
3T
est. daily global tokens
GPT-4o
May 2024
$15
per 1M output tokens
8T
est. daily global tokens
DeepSeek V3
Jan 2025
$0.28
per 1M output tokens
18T
est. daily global tokens
DeepSeek V3.1
Mar 2026
$0.75
per 1M output tokens
45T
est. daily global tokens
Prices: frontier model output token pricing at launch (official API rates). Volume: industry estimates from disclosed data. As prices fall 200x, demand grows 90x.

前沿模型的输出 token 价格从 60 美元/百万个(GPT-4 发布,2023 年 3 月)降至 0.28 美元/百万个(DeepSeek V3,2025 年 1 月)。不到两年内降幅达 200 倍。同期,全球 token 消耗量估计从每天不到 1 万亿增长到 30-50 万亿。

推理需求的价格弹性是巨大的。每 10 倍的成本下降都会解锁一类新的应用:

  • 60 美元/百万 token: 企业早期采用者进行实验性查询
  • 15 美元/百万 token: 开发者在日常工作中使用 AI 助手
  • 0.75 美元/百万 token: 自主编程 Agent 运行多步骤工作流
  • 0.10 美元/百万 token: 每个 CI 流水线、每次代码审查、每个测试套件都接入 AI

我们目前处于 0.28-0.75 美元这个区间。正在为 0.10 美元价位构建的应用 — 持续 Agent 循环、实时代码监控、自动化安全审计 — 将消耗比之前所有应用加起来还要多几个数量级的 token。

Anthropic 刚刚把这一点变得更加明确。Claude Code 在 Max/Team/Enterprise 计划上现在默认使用 100 万 token 的上下文窗口 — 是之前 20 万限制的 5 倍 — 标准定价,无额外 token 附加费。单次 Agentic 编程会话现在可以消耗 100 万个 token。这不是理论上限,而是默认配置。乘以每天使用 Claude Code 的开发者数量,你就能开始理解为什么效率提升创造需求而非减少需求。

Cerebras 从硬件端展示了同样的动态:他们与 AWS 的合作使用 Trainium 处理预填充、CS-3 处理解码,实现了每秒 1,200 个 token 的速度。一个 10 步 Agent 链在这种速度下不到 3 秒即可完成。以 50 tok/s(标准 GPU 推理速度)计算,同样的链需要超过 30 秒。这个 24 倍的加速不仅仅是让现有工作负载更快 — 而是让多步骤 Agentic 工作流首次变得可行。新的需求,由效率创造而来。


内存悖论:TurboQuant 和 Engram 增加需求

这是杰文斯机制在半导体领域的具体体现,也是市场对 TurboQuant 抛售完全判断错误的地方。

TurboQuant 将 KV 缓存压缩 4-6 倍。天真的解读:GPU 需要更少的 HBM。实际结果:运营商用释放出的内存服务更多的并发用户,保持 HBM 总利用率不变,同时每块 GPU 带来更多收入。

SanDisk 首席财务官 David Visoso 明确指出了这一点:效率提升提高了超大规模资本支出的投资回报率,从而驱动更多投资。AMD 副总裁 Mario Morales 在 SEMICON China 上也表达了同样的观点 — AI 效率在杰文斯悖论下推动需求增长。

DeepSeek Engram 更进一步。它用静态哈希查找表替代了稠密模型层。这些表不需要 HBM 带宽 — 它们需要的是便宜、高容量的 DDR5 或 LPDDR5。所以 Engram 并没有减少内存需求,而是把需求从昂贵的 HBM 转移 到更便宜的 DRAM,同时释放出的 HBM 被更大的模型或更多的并发所消耗。我们在 DeepSeek 的内存分离 一文中详细分析了这一架构变革的影响。

效率提升下每 GPU 内存部署变化(示意图)
BaselinePre-TurboQuant, Pre-Engram
80 GB
HBM 80
TurboQuantKV cache 4x compressed
80 GB
HBM 80
Same HBM, 4x more concurrent users
EngramKnowledge offloaded to DRAM
180 GB
HBM 60
DDR5 120
Both + JevonsEquilibrium after demand fills freed capacity
280 GB
HBM 80
DDR5 200
HBM4
DDR5 / LPDDR5
Illustrative per-GPU memory deployment. TurboQuant frees KV cache headroom but operators fill it with concurrency. Engram shifts knowledge to DDR5. Net: more total GB deployed.

结果:每台服务器部署的总内存更多而非更少。HBM 晶圆消耗保持高位(杰文斯悖论)。DDR5 需求增加(新层级)。内存厂商在更多产品线上销售更多产品。AMD 的 MI455X 恰好 不经意间设计成了 这种三层工作负载的最佳架构:权重在 HBM4 上,压缩后的 KV 缓存,Engram 哈希表在 LPDDR5 上。

TrendForce 将 2026 年第一季度服务器 DRAM 价格预测从环比 +60-65% 上修至 +93-98%。NAND 从 +33-38% 上修至 +85-90%。这不是一个面临需求萎缩的行业的数据。

SK 海力士对 TurboQuant 的回应不是削减产能,而是提交赴美上市申请,目标筹资 100-140 亿美元,专门用于 HBM 产能扩张,并下达了 790 亿美元的 ASML EUV 设备订单。


毛利率陷阱

如果杰文斯悖论驱动了无限的需求增长,为什么 AI 推理公司还在亏钱?

据 SemiAnalysis 报道,Anthropic 2024 年的毛利率为 -94%。MiniMax 报告 -25%。这些公司的全部业务就是提供推理 token 服务。

当你把总体需求单位经济分开看时,悖论就解开了。总需求正在爆发式增长。但在前沿水平上,每个需求单位的售价低于服务成本。从杰文斯悖论中受益的公司不是卖 token 的,而是卖镐头和铲子的:GPU、HBM、基板、氦气和电力。

这就是为什么 NVIDIA 的利润率在扩张而 Anthropic 深度亏损,为什么尽管每篇效率论文都在发表,内存厂商依然拥有定价权。效率提升降低了推理价格,创造了需求,需求需要更多硬件,硬件价格上涨,这让推理服务商的单位经济变得更差,即使他们的收入在增长。

自上而下,全是杰文斯悖论。


什么能打破循环?

三件事可能减缓杰文斯飞轮:

  1. Token 需求饱和。 每个可以由 AI Agent 完成的有用任务都已经在被 AI 完成。考虑到光编程就在一年内从 11% 增长到 50%,而大多数行业甚至还没有开始采用 Agentic 工作流,饱和还在数年之后。

  2. 硬件供给追上需求。 理论上可能,但 2026 年在 7 个正交轴上存在同时发生的供应约束(氦气、钨、PCB 材料、HBM 晶圆、检测设备、水、能源)。我们 另文详述了这一点。关于 HBM 良率经济学如何将 NVIDIA 和 AMD 连接到同一块三星晶圆上,请参阅我们的 HBM4 良率博弈 分析。

  3. 监管限制算力部署。 Sanders/AOC 的数据中心暂停令、100 多个地方暂停令,以及日益增长的公众反对(本周有 200 名抗议者聚集在 Anthropic 总部)表明这是最可能的约束因素。如果你不能建数据中心,你就不能部署更多 GPU,无论需求多大。

杰文斯悖论在煤炭、石油和电力领域的历史表明,效率驱动的需求增长会持续到资源被完全替代(对硅来说不太可能)或监管介入(可能性越来越大)。AI 行业的问题不是效率是否会导致需求破坏 — 不会。问题是物理基础设施能否以足够快的速度建设,以满足效率创造的需求。

投资启示

本文为分析而非投资建议。我们持有文中提到的部分标的头寸。请自行研究并据此决策。

如果你相信杰文斯悖论适用于 AI 推理 — 而 OpenRouter 的数据强烈暗示如此 — 那么:

  • 每一篇效率论文都利好硬件。 TurboQuant、Engram、MoE 架构、推测性解码、蒸馏 — 所有这些都降低了 token 的成本,增加了对 token 的需求,进而增加了对服务 token 的硅片的需求。

  • 内存定价权持续。 TurboQuant 抛售是一个礼物。服务器 DRAM 价格环比上涨 93-98% 且在加速。SK 海力士正在融资 140 亿美元用于扩产。市场在买入,而非卖出。

  • 真正的风险是供应约束,而非需求破坏。 半导体供应链已经在多重瓶颈叠加中挣扎。需求端是一个已解决的问题。问题是我们能否建设得足够快。

  • 你可能不知道的一点: 美光自己的数据显示,DDR5 目前比 HBM 更赚钱。如果 Engram 类架构将内存组合从 HBM 转向 DDR5,对内存厂商来说这不是利润率压缩 — 而是在更高出货量上的利润率扩张。“HBM 需求破坏”的叙事不仅在需求判断上错了,在利润率判断上也错了。

我们在 Token 海啸 分析中估算,全球每天服务 30-50 万亿个 token,产能预计将在年底前增长 10-20 倍。杰文斯机制解释了为什么这些产能会被填满,而不是闲置。

威廉·斯坦利·杰文斯在 1865 年就想明白了。AI 市场正在以每 GPU 小时 2.59 美元的代价重新学习同一课。

Confidence:
High
Medium
Low
1.
Anthropic made 1M token context generally available for Claude Opus 4.6 and Sonnet 4.6 at standard pricing ($5/$25 per million tokens), with Claude Code on Max/Team/Enterprise defaulting to 1M context automatically.
Source: Anthropicsurfaced Mar 2026
3de2016d
2.
TurboQuant on MLX achieves a 75% reduction in memory usage.
Source: @mweinbachsurfaced Mar 2026
93045e25
3.
A 10-step agent chain powered by GPT-Codex-5.3-Spark on Cerebras completes in under 3 seconds at 1200 tokens per second.
Source: @zephyr_z9surfaced Mar 2026
63e80063

获取信号,而非噪音

最新分析直达收件箱。无垃圾邮件,随时退订。