Cognitive Psychology × AI Development

The Cognitive Inversion

Cursor CEO 描述了 AI 编程的三个时代。但他真正在说的是：当执行被完全外包，「理解问题」本身成了唯一的生产力。

pinyu · 2026.02 Truell: The Third Era

Core Thesis

三个时代的实质是思考与执行之比的倒转——每一代工具卸载更多执行，直到开发者的唯一工作变成定义问题本身。悖论在于：定义问题的能力，历来在执行中习得。

数据：Cursor 35% PR 来自自主 Agent；Agent 用户数已达 Tab 用户的 2 倍；Agent 使用量一年增长 15 倍。

比例的倒转

所有工具进化都是人力重分配。只是大多数人看到工具，看不到背后的人

开发者写代码时，大脑同时处理两类本质不同的工作：

执行性工作

记语法、敲键盘、调 bug、管理构建——高频、低层、可程序化

判断性工作

分解问题、设定标准、权衡取舍、定义「完成」——低频、高层、需要经验

传统编程中，开发者 80% 的时间被锁在前者——这些任务谈不上重要，但无法跳过。三个时代本质上是一条重分配曲线：

~80%

传统编程
执行占比

~50%

同步 Agent
执行占比

~10%

云端 Agent
执行占比

比例倒转意味着什么？它意味着生产力的定义变了。在旧世界，写代码快的人效率高。在新世界，定义问题准的人效率高。写代码的速度让位于定义问题的精度。

三个时代

每个时代卸载了什么，保留了什么，代价又是什么

Tab 补全时代

卸载技能层

卸载了什么

与问题本身无关的心智消耗：记 API 签名、重复样板、语法细节。

保留了什么

核心判断完整保留。开发者仍决定写什么、怎么写、为什么写。角色没有质变。

减少噪音，不改变信号。开发者仍是操作员，只是工具变顺手了。

同步 Agent 时代

卸载规则层

卸载了什么

规则性决策——「遇到 X 就做 Y」的模式匹配。Agent 接管了大部分 if-then 推理链。

保留了什么

高层监督。每个 prompt-response 循环中，开发者是纠偏者。

从操作员变为监督者。但人仍被锁在同步循环中——工作记忆容量成为硬瓶颈。Truell 的原话：「real-time interaction means it is only practical to work with a few at a time.」

III

云端 Agent 时代

卸载知识层

卸载了什么

知识性决策的执行。Agent 在独立虚拟机中自主规划、试错、迭代，直到对输出有信心。

保留了什么

纯判断——定义问题边界、设定评审标准、评估产出质量。开发者变成了 Agent 的产品经理。

从监督者变为架构师。工作不再是「如何实现」，而是「值不值得实现」和「怎么判断做对了」。而这之所以可行，是因为产出形态变了——从 diff 变成了可运行的 artifact，评审从 Code Review 转向了 Demo Review（→§3）。

模式识别

跃迁不是线性的。从 I 到 II，Tab 时代持续了近两年。从 II 到 III，可能不到一年。卸载是自加速的——每一层卸载为下一层创造条件。

从 Code Review 到 Demo Review

第三时代得以成立的关键：评审从 Code Review 变成了 Demo Review

Truell 提到云端 Agent 产出的是「logs, video recordings, and live previews rather than diffs」。这句话被轻描淡写地嵌在技术描述中，却是整篇最深刻的洞察——它意味着开发者的质量保证方式发生了根本转变：不再逐行读代码判断「写对了没」，而是观察运行结果判断「做到了没」。

评审一个 diff 意味着什么？你要在脑中重建整个问题空间——需求、架构、依赖、运行时行为——然后逐行映射变更对系统的影响。这是一次完整的上下文重建，代价是大量占用工作记忆——人类认知中容量最小、最容易过载的瓶颈。

Code Review

重建上下文 → 理解变更 → 模拟影响 → 判断
路径长，依赖工作记忆

Demo Review

观看预览 → 判断
路径短，依赖感知系统

Artifact 的杠杆在于：它将评审从「重建上下文 → 理解变更 → 判断正确性」压缩为「感知 → 判断」，把瓶颈从工作记忆转移到视觉感知——一个处理速度快数个数量级、且几乎没有容量限制的通道。

关键推论

并行管理多个 Agent 之所以可行，是因为 Demo Review 将评估成本从深度思考转移到了直觉感知。看一个 3 秒的实时预览就知道「行不行」——比读 500 行 diff 快两个数量级，且几乎不消耗工作记忆。

三重悖论

Truell 的叙事中被省略的风险

比例倒转不是免费的。它产生三个相互关联的悖论。

悖论一：自动化悖论

经典发现：自动化程度越高，人在系统出错时的干预能力越差。技能维持需要持续练习，没有例外。

Truell 的理想态：「agents write almost 100% of their code」。问题是：如果你不再写代码，你用什么来评审代码？

你需要写过大量糟糕的代码，才能一眼识别糟糕的代码。如果你从未写过，你的评审能力建立在什么之上？

— 自动化悖论的编程特化形式

悖论二：分解能力的循环依赖

第三时代的核心技能是问题分解。但优秀的分解需要深厚的实现经验——你必须知道什么可行、什么会让 Agent 陷入死胡同、哪些子任务之间有隐式耦合。

新工作流要求开发者具备卓越的问题分解能力
问题分解能力依赖深厚的实现经验
新工作流减少了获取实现经验的机会

鸡生蛋问题

新工作流的前提依赖旧工作流的产物。当前这批开发者凭多年手写代码积累的经验来指挥 Agent——但下一代从未手写过代码的开发者，如何获得同等的判断力？这不是过渡阵痛——它是结构性的代际断层。

悖论三：注意力残留与并行幻觉

Truell 提倡「spin up multiple agents simultaneously instead of handholding one to completion」。从工程效率看无可争议。但每次任务切换都会在工作记忆中留下前一任务的残留——你永远不是 100% 投入当前任务。

Demo Review 缓解了这个问题（§3），但没有消除它。评估仍需要决策，决策仍是串行的。管理 10 个 Agent 感觉像并行，但你的决策管道是单线程的。

65% 的边界

35% 的 PR 来自自主 Agent。但那 65% 在说什么？

文章庆祝 35% 的 PR 由自主 Agent 创建。但更有信息量的是反面：65% 为什么不能？

Klein 的自然主义决策框架提供了解释。他研究消防、急救、军事中的真实决策，发现这些高难度决策有共同特征：

NDM 特征 1

高不确定性

关键信息缺失或矛盾，无法等到信息完备再行动。

NDM 特征 2

动态变化

环境在决策过程中持续改变，静态分析失效。

NDM 特征 3

目标冲突

多个合法目标相互矛盾，需要在没有明确标准的情况下权衡。

NDM 特征 4

高赌注

错误代价大到不允许通过试错收敛。

那 65% 正是这类任务：跨系统重构、需求模糊的新功能、安全架构决策、性能诊断。它们需要情境感知——一种只能通过长期领域浸泡才能训练出来的直觉，再多计算力也替代不了。

边界的形状比面积更有信息量

35% 会继续增长，但速率会放缓——越接近边界，任务越符合上述特征。这条边界本质上是决策类型的边界，划分的是「可形式化的决策」与「本质上需要情境嵌入的判断」。

Takeaway

Truell 讲的不只是技术迭代：当执行被完全外包，「理解问题」本身成了唯一的生产力。

深层张力在于：理解问题的能力，历来在执行中习得。第三时代的核心问题是：当人不再亲手做时，如何保持做出正确判断的能力？

而应对这个张力的第一步，是看清它的存在。工具塑造认知，认知定义能力边界。看清工具在卸载什么，比学会使用工具更重要。

References

引用

认知心理学文献

Kahneman, D. Thinking, Fast and Slow, 2011.

Rasmussen, J. "Skills, Rules, and Knowledge", IEEE Trans. SMC, 1983.

Klein, G. Sources of Power: How People Make Decisions, 1998.

Parasuraman, R. & Riley, V. "Humans and Automation", Human Factors, 1997.

Leroy, S. "Why is it so hard to do my work?", OBHDP, 2009.

原始材料

Michael Truell, "The third era of AI software development", X/Twitter, February 26, 2026.