Cursor CEO 描述了 AI 编程的三个时代。但他真正在说的是:当执行被完全外包,「理解问题」本身成了唯一的生产力。
三个时代的实质是思考与执行之比的倒转——每一代工具卸载更多执行,直到开发者的唯一工作变成定义问题本身。悖论在于:定义问题的能力,历来在执行中习得。
所有工具进化都是人力重分配。只是大多数人看到工具,看不到背后的人
开发者写代码时,大脑同时处理两类本质不同的工作:
传统编程中,开发者 80% 的时间被锁在前者——这些任务谈不上重要,但无法跳过。三个时代本质上是一条重分配曲线:
比例倒转意味着什么?它意味着生产力的定义变了。在旧世界,写代码快的人效率高。在新世界,定义问题准的人效率高。写代码的速度让位于定义问题的精度。
每个时代卸载了什么,保留了什么,代价又是什么
第三时代得以成立的关键:评审从 Code Review 变成了 Demo Review
Truell 提到云端 Agent 产出的是「logs, video recordings, and live previews rather than diffs」。这句话被轻描淡写地嵌在技术描述中,却是整篇最深刻的洞察——它意味着开发者的质量保证方式发生了根本转变:不再逐行读代码判断「写对了没」,而是观察运行结果判断「做到了没」。
评审一个 diff 意味着什么?你要在脑中重建整个问题空间——需求、架构、依赖、运行时行为——然后逐行映射变更对系统的影响。这是一次完整的上下文重建,代价是大量占用工作记忆——人类认知中容量最小、最容易过载的瓶颈。
Artifact 的杠杆在于:它将评审从「重建上下文 → 理解变更 → 判断正确性」压缩为「感知 → 判断」,把瓶颈从工作记忆转移到视觉感知——一个处理速度快数个数量级、且几乎没有容量限制的通道。
Truell 的叙事中被省略的风险
比例倒转不是免费的。它产生三个相互关联的悖论。
经典发现:自动化程度越高,人在系统出错时的干预能力越差。技能维持需要持续练习,没有例外。
Truell 的理想态:「agents write almost 100% of their code」。问题是:如果你不再写代码,你用什么来评审代码?
你需要写过大量糟糕的代码,才能一眼识别糟糕的代码。如果你从未写过,你的评审能力建立在什么之上?
第三时代的核心技能是问题分解。但优秀的分解需要深厚的实现经验——你必须知道什么可行、什么会让 Agent 陷入死胡同、哪些子任务之间有隐式耦合。
Truell 提倡「spin up multiple agents simultaneously instead of handholding one to completion」。从工程效率看无可争议。但每次任务切换都会在工作记忆中留下前一任务的残留——你永远不是 100% 投入当前任务。
Demo Review 缓解了这个问题(§3),但没有消除它。评估仍需要决策,决策仍是串行的。管理 10 个 Agent 感觉像并行,但你的决策管道是单线程的。
35% 的 PR 来自自主 Agent。但那 65% 在说什么?
文章庆祝 35% 的 PR 由自主 Agent 创建。但更有信息量的是反面:65% 为什么不能?
Klein 的自然主义决策框架提供了解释。他研究消防、急救、军事中的真实决策,发现这些高难度决策有共同特征:
关键信息缺失或矛盾,无法等到信息完备再行动。
环境在决策过程中持续改变,静态分析失效。
多个合法目标相互矛盾,需要在没有明确标准的情况下权衡。
错误代价大到不允许通过试错收敛。
那 65% 正是这类任务:跨系统重构、需求模糊的新功能、安全架构决策、性能诊断。它们需要情境感知——一种只能通过长期领域浸泡才能训练出来的直觉,再多计算力也替代不了。
Truell 讲的不只是技术迭代:当执行被完全外包,「理解问题」本身成了唯一的生产力。
深层张力在于:理解问题的能力,历来在执行中习得。第三时代的核心问题是:当人不再亲手做时,如何保持做出正确判断的能力?
而应对这个张力的第一步,是看清它的存在。工具塑造认知,认知定义能力边界。看清工具在卸载什么,比学会使用工具更重要。