← pinyu.ai
Cognitive Psychology × AI Development

The Cognitive Inversion

Cursor CEO 描述了 AI 编程的三个时代。但他真正在说的是:当执行被完全外包,「理解问题」本身成了唯一的生产力。

pinyu · 2026.02 Truell: The Third Era
Core Thesis

三个时代的实质是思考与执行之比的倒转——每一代工具卸载更多执行,直到开发者的唯一工作变成定义问题本身。悖论在于:定义问题的能力,历来在执行中习得

数据:Cursor 35% PR 来自自主 Agent;Agent 用户数已达 Tab 用户的 2 倍;Agent 使用量一年增长 15 倍。
01

比例的倒转

所有工具进化都是人力重分配。只是大多数人看到工具,看不到背后的人

开发者写代码时,大脑同时处理两类本质不同的工作:

执行性工作
记语法、敲键盘、调 bug、管理构建——高频、低层、可程序化
VS
判断性工作
分解问题、设定标准、权衡取舍、定义「完成」——低频、高层、需要经验

传统编程中,开发者 80% 的时间被锁在前者——这些任务谈不上重要,但无法跳过。三个时代本质上是一条重分配曲线:

~80%
传统编程
执行占比
~50%
同步 Agent
执行占比
~10%
云端 Agent
执行占比

比例倒转意味着什么?它意味着生产力的定义变了。在旧世界,写代码快的人效率高。在新世界,定义问题准的人效率高。写代码的速度让位于定义问题的精度。


02

三个时代

每个时代卸载了什么,保留了什么,代价又是什么

I
Tab 补全时代
卸载技能层
卸载了什么
与问题本身无关的心智消耗:记 API 签名、重复样板、语法细节。
保留了什么
核心判断完整保留。开发者仍决定写什么、怎么写、为什么写。角色没有质变。
减少噪音,不改变信号。开发者仍是操作员,只是工具变顺手了。
II
同步 Agent 时代
卸载规则层
卸载了什么
规则性决策——「遇到 X 就做 Y」的模式匹配。Agent 接管了大部分 if-then 推理链。
保留了什么
高层监督。每个 prompt-response 循环中,开发者是纠偏者。
从操作员变为监督者。但人仍被锁在同步循环中——工作记忆容量成为硬瓶颈。Truell 的原话:「real-time interaction means it is only practical to work with a few at a time.」
III
云端 Agent 时代
卸载知识层
卸载了什么
知识性决策的执行。Agent 在独立虚拟机中自主规划、试错、迭代,直到对输出有信心。
保留了什么
纯判断——定义问题边界、设定评审标准、评估产出质量。开发者变成了 Agent 的产品经理。
从监督者变为架构师。工作不再是「如何实现」,而是「值不值得实现」「怎么判断做对了」。而这之所以可行,是因为产出形态变了——从 diff 变成了可运行的 artifact,评审从 Code Review 转向了 Demo Review(→§3)。
模式识别
跃迁不是线性的。从 I 到 II,Tab 时代持续了近两年。从 II 到 III,可能不到一年。卸载是自加速的——每一层卸载为下一层创造条件。

03

从 Code Review 到 Demo Review

第三时代得以成立的关键:评审从 Code Review 变成了 Demo Review

Truell 提到云端 Agent 产出的是「logs, video recordings, and live previews rather than diffs」。这句话被轻描淡写地嵌在技术描述中,却是整篇最深刻的洞察——它意味着开发者的质量保证方式发生了根本转变:不再逐行读代码判断「写对了没」,而是观察运行结果判断「做到了没」。

评审一个 diff 意味着什么?你要在脑中重建整个问题空间——需求、架构、依赖、运行时行为——然后逐行映射变更对系统的影响。这是一次完整的上下文重建,代价是大量占用工作记忆——人类认知中容量最小、最容易过载的瓶颈。

Code Review
重建上下文 → 理解变更 → 模拟影响 → 判断
路径长,依赖工作记忆
VS
Demo Review
观看预览 → 判断
路径短,依赖感知系统

Artifact 的杠杆在于:它将评审从「重建上下文 → 理解变更 → 判断正确性」压缩为「感知 → 判断」,把瓶颈从工作记忆转移到视觉感知——一个处理速度快数个数量级、且几乎没有容量限制的通道。

关键推论
并行管理多个 Agent 之所以可行,是因为 Demo Review 将评估成本从深度思考转移到了直觉感知。看一个 3 秒的实时预览就知道「行不行」——比读 500 行 diff 快两个数量级,且几乎不消耗工作记忆。

04

三重悖论

Truell 的叙事中被省略的风险

比例倒转不是免费的。它产生三个相互关联的悖论。

悖论一:自动化悖论

经典发现:自动化程度越高,人在系统出错时的干预能力越差。技能维持需要持续练习,没有例外。

Truell 的理想态:「agents write almost 100% of their code」。问题是:如果你不再写代码,你用什么来评审代码?

你需要写过大量糟糕的代码,才能一眼识别糟糕的代码。如果你从未写过,你的评审能力建立在什么之上?

— 自动化悖论的编程特化形式

悖论二:分解能力的循环依赖

第三时代的核心技能是问题分解。但优秀的分解需要深厚的实现经验——你必须知道什么可行、什么会让 Agent 陷入死胡同、哪些子任务之间有隐式耦合。

  1. 新工作流要求开发者具备卓越的问题分解能力
  2. 问题分解能力依赖深厚的实现经验
  3. 新工作流减少了获取实现经验的机会
鸡生蛋问题
新工作流的前提依赖旧工作流的产物。当前这批开发者凭多年手写代码积累的经验来指挥 Agent——但下一代从未手写过代码的开发者,如何获得同等的判断力?这不是过渡阵痛——它是结构性的代际断层

悖论三:注意力残留与并行幻觉

Truell 提倡「spin up multiple agents simultaneously instead of handholding one to completion」。从工程效率看无可争议。但每次任务切换都会在工作记忆中留下前一任务的残留——你永远不是 100% 投入当前任务。

Demo Review 缓解了这个问题(§3),但没有消除它。评估仍需要决策,决策仍是串行的。管理 10 个 Agent 感觉像并行,但你的决策管道是单线程的。


05

65% 的边界

35% 的 PR 来自自主 Agent。但那 65% 在说什么?

文章庆祝 35% 的 PR 由自主 Agent 创建。但更有信息量的是反面:65% 为什么不能?

Klein 的自然主义决策框架提供了解释。他研究消防、急救、军事中的真实决策,发现这些高难度决策有共同特征:

NDM 特征 1

高不确定性

关键信息缺失或矛盾,无法等到信息完备再行动。

NDM 特征 2

动态变化

环境在决策过程中持续改变,静态分析失效。

NDM 特征 3

目标冲突

多个合法目标相互矛盾,需要在没有明确标准的情况下权衡。

NDM 特征 4

高赌注

错误代价大到不允许通过试错收敛。

那 65% 正是这类任务:跨系统重构、需求模糊的新功能、安全架构决策、性能诊断。它们需要情境感知——一种只能通过长期领域浸泡才能训练出来的直觉,再多计算力也替代不了。

边界的形状比面积更有信息量
35% 会继续增长,但速率会放缓——越接近边界,任务越符合上述特征。这条边界本质上是决策类型的边界,划分的是「可形式化的决策」「本质上需要情境嵌入的判断」
Takeaway

Truell 讲的不只是技术迭代:当执行被完全外包,「理解问题」本身成了唯一的生产力。

深层张力在于:理解问题的能力,历来在执行中习得。第三时代的核心问题是:当人不再亲手做时,如何保持做出正确判断的能力?

而应对这个张力的第一步,是看清它的存在。工具塑造认知,认知定义能力边界。看清工具在卸载什么,比学会使用工具更重要。

References

引用

认知心理学文献

Kahneman, D. Thinking, Fast and Slow, 2011.

Rasmussen, J. "Skills, Rules, and Knowledge", IEEE Trans. SMC, 1983.

Klein, G. Sources of Power: How People Make Decisions, 1998.

Parasuraman, R. & Riley, V. "Humans and Automation", Human Factors, 1997.

Leroy, S. "Why is it so hard to do my work?", OBHDP, 2009.

原始材料

Michael Truell, "The third era of AI software development", X/Twitter, February 26, 2026.

延伸阅读
Closing the Loop →
卸载的终极形态——反馈回路。当 Agentic LLM 闭合了感知-行动-调节的递归循环,AGI 的条件正在被满足。
The Profession, Refactored →
倒转的行业后果——正在贬值的技能与正在升值的能力。