2026-03-13 1 min read

机器编写机器：AI内核超越十年人类专家经验

GPU内核DoubleAIWarpSpeed智能体AICUDA性能工程AI编程

如果世界上最好的GPU程序员不是人类呢？

这不再是一个思想实验。2026年3月，一家名为DoubleAI的初创公司将其AI系统WarpSpeed对准了NVIDIA的cuGraph库，要求它做得更好。cuGraph是地球上性能最关键的GPU代码库之一：由顶级CUDA工程师手工调优的图分析例程，经过十年的精心打磨。

WarpSpeed击败了其中每一个内核。

地球上最难的代码

要理解这件事的重要性，你需要了解GPU内核优化究竟是什么。

这样想：GPU有数千个微小的处理器，全部同时工作。编写一个”内核”——在这些处理器上运行的底层代码——就像编排一场一万人的快闪舞蹈。每个舞者必须精确知道站在哪里、何时移动、做什么动作。一步错误，整场表演就会崩溃。两个舞者同时伸手去拿同一个道具？死锁。整个系统冻结。

这不是那种你可以让ChatGPT”帮我写个函数”的编程。GPU内核涉及内存层次结构、缓存行对齐、warp分歧、寄存器压力，以及每一代芯片都不同的硬件特性。编写这些代码的人是计算领域最稀缺的专家。一位资深CUDA工程师的总薪酬可超过50万美元。全球能做好这件事的人可能只有几千人。

而WarpSpeed刚刚让他们全部显得慢了。

比十年专家快3.6倍

WarpSpeed vs NVIDIA cuGraph：按算法加速比

Weakly Connected Components17x

All-Pairs Cosine Similarity4x

Betweenness Centrality3.8x

Louvain Community Detection3.2x

PageRank2.4x

BFS / SSSP1.8x

WarpSpeed speedup vs NVIDIA cuGraph (expert-written)Avg: 3.6x

WarpSpeed不仅仅是匹配了人工编写的内核。它在三种GPU架构（A100、L4、A10G）上生成了576个专用内核——每一个都比原版运行得更快。平均加速比为3.6倍。超过一半超过2倍。近五分之一超过10倍。

最突出的：弱连通分量（Weakly Connected Components），一个基础图算法，加速达到17倍。WarpSpeed的方法？它消除了路径压缩中的原子操作，故意允许无害的数据竞争，同时将父数组固定在L2缓存中。这不是教科书上的优化——这是一种创造性的洞察，需要对算法和硬件都有深刻的理解。

576个内核。3种GPU架构。100%更快。100%正确。

为什么普通AI做不到

这里有一个关键点——而且很重要。DoubleAI并不是简单地把GPT扔向CUDA代码然后祈祷好运。他们试过了。其他人也试过了。行不通。

内核正确性：专业系统 vs 通用AI

WarpSpeed

Agent swarms + PAC verification

Claude Code

General-purpose LLM

Codex

General-purpose LLM

Correctness on 576 CUDA kernels across A100, L4, and A10G architectures

当Claude Code和Codex等通用模型被赋予相同的576个内核任务时，它们的正确率仅为56-59%。它们能生成可以编译并通过浅层测试套件的代码——但结果是错误的。微妙的数值错误、竞态条件、不正确的边界处理。这类bug不会让你的程序崩溃，但会悄悄地损坏你的结果。

WarpSpeed通过根本不同的方法实现了100%正确率：

智能体蜂群： 不是一个AI，而是一个协调的团队——Claude Opus加上一个专有的万亿参数推理模型——并行运行，同时探索数千条优化路径。
经验时间旅行： 当一种方法走入死胡同时，WarpSpeed回退到更早的决策点，同时保留从失败路径中学到的一切。就像一个国际象棋引擎记住了为什么某条线路不行。
PAC验证： 不依赖测试套件（会遗漏边界情况），WarpSpeed使用形式化方法——领域特定语言、SMT求解器和算法验证器——来数学证明正确性。

DoubleAI将此称为”人工专家智能”（AEI）——不是AGI，而是在特定高价值领域中可靠超越人类专家的AI。这是一个有用的区分。WarpSpeed不能给你写诗或规划晚宴。但在它的领域里，它是有史以来最好的。

更广阔的浪潮

WarpSpeed不是一个孤立的结果。它处于一波持续数月浪潮的顶峰。

AI编程模型 vs 人类基线

Claude Opus 4.5SWE-Bench Verified80.9%

Gemini 3.1 ProSWE-Bench Verified80.6%

GPT-5.4OSWorld-Verified75%Human baseline: 72.4%

DeepSeek V3.2SWE-Bench Verified70%

GPT-5.4SWE-Bench Pro57.7%

Higher = better. Dashed line = human expert baseline.

看看仅在过去一个季度发生了什么：

GPT-5.4在OSWorld-Verified上得分75.0%——超过了人类专家基线72.4%。这是第一个在自主桌面任务完成上击败人类的前沿模型。
Claude Opus 4.5在SWE-Bench Verified上达到80.9%。Gemini 3.1 Pro达到80.6%。这些模型能够以一年前不可想象的速度自主修复真实代码库中的真实bug。
Coinbase报告AI智能体现在编写了公司超过50%的代码。
使用GPT-5.3-Codex进行内核优化的从业者描述这个过程已经从”有帮助”变成了**“一次成功”**——你描述你想要什么，AI第一次就能产出一个可工作的、优化过的内核。

即使在实验室之外，这已经在实际中发生。AMD的开源FSR4代码库已经从社区贡献者那里获得了AI优化的内核pass——使用LLM生成的INT8和FP8优化pass，在消费级Strix Halo和W7900 GPU上产生了可测量的加速。

AI编程的演进

从自动补全到智能体蜂群

Autocomplete

Tab to accept suggestions

2023

Single Agent

AI writes code from prompts

2024

Parallel Agents

Multiple agents work simultaneously

2025

Agent Swarms

Coordinated swarms with verification

2026

Coinbase: >50% code written by AI

WarpSpeed: 576 kernels, 100% correct

Cursor: Tab → Agent → Swarm trajectory

Cursor的内部数据用四个阶段讲述了这个故事。2023年，AI编程意味着按Tab接受建议。到2024年，单个智能体可以从提示词编写函数。2025年，并行智能体同时在代码库的不同部分工作。现在，2026年，我们看到了协调的智能体蜂群——像WarpSpeed这样的系统，数十个AI智能体协作、互相验证工作，并收敛到任何单个智能体都找不到的解决方案。

这不仅仅是更快地编写代码。这是AI能用代码做什么的质的转变。Tab补全和WarpSpeed之间的区别，就像拼写检查和写一本小说之间的区别。

突破背后的基础设施

没有硬件和软件栈来运行，这一切都不可能实现。而这个栈正在变得大幅便宜：

NVIDIA Blackwell Ultra的智能体AI推理每百万token成本比上一代Hopper架构低35倍。这不是打字错误——三十五倍。
NVIDIA的软件团队在短短60天内通过对TRT-LLM和Dynamo的优化实现了2倍的推理性能提升。当你的优化管线本身快了2倍，你的智能体蜂群就能在相同时间内探索两倍的内核变体。
Replit Agent 4等平台正在将基于智能体的开发带给每一位开发者，而不仅仅是内核专家。

经济等式正变得不可抗拒。当运行AI智能体蜂群的成本下降35倍，而其输出质量超越人类专家时，问题不再是”我们应该为此使用AI吗？“而是”我们为什么还要手动做这件事？“

另一面的观点

让我们诚实地看待局限性。

多智能体编程仍然混乱。 运行8个并行智能体（4个Claude、4个Codex）在ML研究任务上的实验产生了”混乱的结果”——智能体互相踩踏、变更冲突、协调开销。WarpSpeed通过专门的编排解决了这个问题，但通用多智能体编程尚不可靠。

基础设施是瓶颈。 佐治亚理工学院和Intel的研究表明，CPU工具处理占智能体AI工作负载总延迟的50-90%。模型足够快——慢的是周围的基础设施（文件I/O、编译、测试执行）。如果90%的时间在等编译器，模型速度翻倍也没用。

WarpSpeed是狭窄的。 它在图分析内核上展示了超人类性能。它能推广到ML训练内核、物理模拟、信号处理吗？DoubleAI尚未展示这一点。其核心的专有万亿参数模型不公开——我们无法验证性能有多少来自模型本身，多少来自编排框架。

接下来会发生什么

最有趣的问题不是AI能否比人类编写更好的GPU内核。我们现在知道它可以。有趣的问题是这将解锁什么。

GPU软件库是NVIDIA最深的竞争护城河之一。cuDNN、cuBLAS、cuGraph、TensorRT——这些是开发者留在NVIDIA硬件上的原因。它们代表了世界顶级工程师数十年的优化。如果AI能在任何硬件目标上匹配或超越这种优化水平，护城河就开始被侵蚀。PEAK——一个来自学术研究者的AI系统——已经在NVIDIA和AMD GPU上实现了与供应商调优库相当的性能。Sakana AI的CUDA Engineer报告了比基线PyTorch快10-100倍的加速。

我们可能正在接近一个”编译一次，到处优化”的未来——AI接收你的算法，为任何GPU、任何加速器、任何芯片生产硬件特定的内核。不是明年。但轨迹是明确的。

机器正在学习编写机器。而且它每天都在变得更快。

分析由GIKE（通用迭代知识引擎）提供支持。本摘要引用了14条经过验证的声明，来源包括DoubleAI官方WarpSpeed研究、从业者报告、Anthropic、Google DeepMind和OpenAI的基准测试出版物、SemiAnalysis分析和Cursor使用数据。WarpSpeed性能数据来自DoubleAI在A100、L4和A10G架构上的已发布基准测试。SWE-Bench和OSWorld分数来自官方模型发布。本分析客观呈现研究发现，不构成推荐。相关声明ID：c2b29aac、3b123b2c、bd8e05e2、dc6d984c、7e549fc1、059ca5c7、030bc123、c0c48568、80e1c466、39e479cd、e5c15484、74137bc8。