The Pragmatic Engineer · Article Deep Dive · 2026

The Profession, Refactored

Andrej Karpathy 10 月还在说 AI 编程是"slop"，12 月就说自己"从未如此落后"。DHH 夏天还拒绝让 AI 写代码，年底说这是互联网之后最让人兴奋的事。这两个月里发生了什么？

基于 Gergely Orosz 深度分析 · 2026.01 原文

Core Thesis

软件工程正经历一次不可逆的重构。触发它的是 2025 年 11—12 月三个模型跨过了一条看不见的能力线。最有说服力的证据来自人类行为学：行业里最有名的怀疑者，在两个月内集体改变了立场。

关键信号：Karpathy 10 月称 AI 编程是"slop"，12 月 26 日说"从未如此落后"。Boris Cherny 12 月一整月没有打开过 IDE，Opus 4.5 替他写了约 200 个 PR，每一行代码。Dario Amodei 3 月的"90% 预言"——当时包括 Gergely 在内的多数人持怀疑态度——12 月已被验证。

认知翻转：最审慎的怀疑者集体倒戈

速度本身就是信号

"AI 能写代码"早就不算新闻了。真正的新闻是：行业里辨识度最高、也最难被说服的那批人，几乎同时改变了立场。Gergely 用一连串具名的人物转变构建了一条证据链。

Karpathy 的两个月

Andrej Karpathy——OpenAI 联合创始人，以对 AI 工具的坦率批评著称。看看他在两个月里说了什么：

2025 年 10 月 · Dwarkesh Podcast
"It's slop." — "模型还没到位。整个行业在打肿脸充胖子，假装这很了不起，其实不是。我也不确定他们在搞什么，可能是在融资吧。目前自动补全是我的甜蜜点。"
2025 年 12 月 26 日
"I've never felt this much behind as a programmer." — "这个职业正在被剧烈地重构（dramatically refactored），程序员贡献的比特越来越稀疏。我感觉如果能正确地组合过去一年涌现的这些工具，自己可以强大 10 倍——而没能做到这一点，看起来越来越像是一个技能问题（skill issue）。"

从"slop"到"skill issue"，中间只有两个月。态度翻转的速度本身就说明问题——一个深思熟虑的人不会在两个月里慢慢改变主意，只会在某一天突然觉得自己落后了。

There's a new programmable layer of abstraction to master in addition to the usual layers involving agents, subagents, their prompts, contexts, memory, modes, permissions, tools, plugins, skills, hooks, MCP, LSP, slash commands, workflows, IDE integrations, and a need to build an all-encompassing mental model for strengths and pitfalls of fundamentally stochastic, fallible, unintelligible and changing entities suddenly intermingled with what used to be good old fashioned engineering.

— Andrej Karpathy, 2025.12.26

关键词 · Stochastic, Fallible, Unintelligible

注意这串形容词。传统工程建立在确定性、可验证、可理解的基础上。而你现在的合作伙伴是"随机的、会犯错的、不可理解的、还在不断变化的"——你仍然要拿它来做工程。

连锁反应

Karpathy 不是个例。文章记录了同一时期一批具名工程领袖的同向转变：

Just last summer, I spoke with Lex Fridman about not letting AI write any code directly, but it turns out part of this resistance was simply based on the models not being good enough at the time! I spent more time rewriting what it wrote, than if I'd done it from scratch. That has now flipped.

— David Heinemeier Hansson (DHH), Ruby on Rails 创建者

For more than 15 years, I thought I loved writing code, loved typing out code by hand, and loved the "cadence of typing"... Now, I'm not so sure. What I learned over the course of the year is that typing out code by hand now frustrates me.

— Thorsten Ball, Amp 工程师，15+ 年编程经验

Any time I have to type precise syntax by hand now feels like such a tedious chore. Surprisingly and thankfully, programming is still fun, probably more fun. My biggest problem now is coming up with enough worthwhile ideas to fully leverage the productivity boost.

— Adam Wathan, Tailwind CSS 创建者

Y'all have to throw away your priors. The cost of software production is trending towards zero.

— Malte Ubl, Vercel CTO，20 年工程经验

谁在说这些话

Gergely 自己注意到了一个潜在问题：Jaana Dogan（Google）、Malte Ubl（Vercel）、Thorsten Ball（Amp）都在 AI 工具相关的公司工作。所以他专门找了没有利益绑定的声音做交叉验证——DHH（37signals）、Adam Wathan（Tailwind CSS）、Karpathy（已离开 OpenAI 多年）。结论一致。

触发点：24 天，三个模型

为什么偏偏是 2025 年末

那么是什么触发了这次集体转变？答案指向一个极其紧凑的时间窗口——2025 年 11 到 12 月，三家公司在 24 天内先后发布了各自最强的编程模型：

11 月 17 日

Gemini 3

Google

11 月 24 日

Opus 4.5

Anthropic

12 月 11 日

GPT-5.2

OpenAI

三个独立团队几乎同时跨过同一条线——这本身就是信号。当底层能力（训练数据规模、算力、算法改进）到达某个阈值时，独立团队会同时涌现出相似水平的能力。典型的 simultaneous discovery。

It genuinely feels to me like GPT-5.2 and Opus 4.5 in November represent an inflection point — one of those moments when the models get incrementally better in a way that tips over an invisible capability line. Suddenly, a whole bunch of much harder coding problems open up.

— Simon Willison, 独立 LLM 研究者，以"不炒作"著称

Simon Willison 的措辞很精准——"incrementally better in a way that tips over an invisible capability line"。模型一直在变好，但在某个节点上，量变突然翻成了质变。

具体案例 · 1 小时 vs 1 年

Google 首席工程师 Jaana Dogan 的经历最具冲击力：她把一个分布式 agent 编排器的需求描述给 Claude Code，它在 1 小时内生成了 Google 花了一年才建出来的东西。不完美，但足以迭代。她的建议："如果你还在怀疑，去你最擅长的领域试试——在那里你有资格评判产出的质量。"

GPT 5 → 5.2 的跳跃

Peter Steinberger（PSPDFKit 创建者，~20 年工程经验）提供了一个微观视角。他建了一个自定义 CLI 工具叫"oracle"，专门在 AI agent 卡住时介入帮助：

GPT 5 / 5.1 时代

每天需要多次调用 oracle 来解卡。模型经常在复杂任务上转圈。

→

GPT-5.2 时代

每周只需几次。"It one-shots almost anything I throw at it."

从"每天多次卡住"到"几乎什么都能一次搞定"——这种日常使用中的体感变化，比任何基准测试都直接。

硬数据

散落在文章各处的关键数字，摆到一起看

~200

PR 数
Boris Cherny 12 月

打开 IDE 的次数
Boris Cherny 12 月

Jaana Dogan 复刻
Google 一年工作

90%

Amodei 预言
已被验证

Boris Cherny（Claude Code 创建者）给出了最具体的数字：

The last month was my first as an engineer when I didn't open an IDE at all. Opus 4.5 wrote around 200 PRs, every single line. Software engineering is radically changing, and the hardest part even for early adopters and practitioners like us is to continue to re-adjust our expectations. And this is *still* just the beginning.

— Boris Cherny, Claude Code 创始工程师

对 Boris 数据的可信度校准

Gergely 在文章中做了诚实的对冲：Claude Code 是闭源的，Cherny 的声明难以独立验证，且作为创建者他有动机展示最好的一面。

但 Gergely 补充了两个增信点：(1) 他与 Boris 有私人交流，信任他的诚实度；(2) Gergely 自己的体验与 Boris 一致——他现在也让 Claude Code 生成所有最终提交的代码，不满意时就继续 prompt 修改，而非手写。

还有一点：Gergely 以"测量派"著称，他的 newsletter 有 80 万+ 付费订阅者，靠的是准确和中立。他在文章中承认自己此前对 Amodei 的 90% 预言持怀疑态度——现在认为预言成真了。一个以怀疑立身的人公开修正自己，这本身就是信号。

作者本人的体验

Gergely 在文章开头用了一段不起眼的个人经历，但细看信息量不小：

用 LLM 处理中等规模任务（self-service group subscriptions、admin panel），提交了几百行生产代码
流程：prompt → 审查 → 确认测试通过 → prompt 微调 → 提交
用 Claude Code for Web 连接 GitHub，在手机上写生产代码——让 Claude 改代码 → 创建 PR → GitHub Actions 跑测试 → 手机上审查合并
技术栈：TypeScript, Node/Express, React, Postgres

细节

"在手机上写生产代码"听起来像 gimmick。Gergely 明确说了，这是低风险工作且有自动化测试覆盖。但这个行为标志着一条分界线：编程从"坐在电脑前写代码"的活动，变成了"在任何地方审查和指挥 AI 产出"的活动。输入设备从键盘变成了自然语言。

Dario Amodei 的"疯狂预言"

2025 年 3 月，Anthropic CEO Dario Amodei 说：

I think we will be there in three to six months, where AI is writing 90% of the code. And then, in 12 months, we may be in a world where AI is writing essentially all the code.

— Dario Amodei, 2025 年 3 月

当时多数人——包括 Gergely——把这当成 CEO 的惯性乐观。9 个月后回头看，它更像是提前泄露了剧本。

上下文

Gergely 做了重要的范围限定：最可能率先达到 90%+ AI 编写比例的是追求 PMF 的初创公司（代码可丢弃、不在乎技术债）和绿地项目（无需理解已有代码库）。大型遗留系统、安全关键领域、特殊技术栈——这些场景 AI 渗透会慢得多。全面覆盖不是今年的事，但方向不可逆。

正在贬值的能力

按扎心程度排列，越往下越难接受

Gergely 列出了一系列正在失去市场溢价的技能。以下按"反共识程度"重新排序——先从容易接受的开始：

已成共识

原型制作能力

Shaquille O'Neal 在 Replit 的广告中 vibe-coded 了一个应用。当 NBA 退役球星都能用自然语言搭原型时，"能快速搭 demo"不再是工程师的差异化能力。产品经理、设计师、业务人员都可以自己做原型了——工程师的差异化要往后挪——从"能做出来"移到"做出来之后怎么让它可靠地运行在生产环境中"。
已成共识

语言多面手

过去精通多种编程语言是明确的职业溢价——Go 团队偏好有 Go 经验的人，Rust 同理。但当 AI 可以在任何语言中立即产出还不错的代码时，"我精通五种语言"变得和"我打字速度 120 WPM"一样——不再是决定性优势。
趋势明显

前后端分工

Gergely 说他"很难想象初创公司还会分别招前端和后端开发者"。逻辑链：后端工程师现在可以 prompt 出还不错的前端代码，反之亦然 → AI 成了跨栈的桥梁 → 初创公司只需招"用 AI 能跨栈搞定事情的人"，不再按技术栈切分岗位。
趋势明显

执行明确定义的 Ticket

Cursor 团队已经在做的事：所有 Linear ticket 自动传给 Cursor，AI one-shot 出一个实现，开发者决定合并还是迭代。当"拿到需求 → 写代码"这个环节被自动化，在层级分明的组织里长期存在的"PM 写 ticket → 开发者执行"模式就触到了存在危机。
反直觉

重构

手动重构会比用自然语言描述"我要什么样的重构"然后让 AI 执行慢得多。传统 IDE 的重构功能（重命名、提取函数）已经在走这条路，AI 只是把它推到了极致。当然，大规模重构仍有 AI 搞砸的风险——这也是为什么验证能力变得比编写能力更重要。
最反直觉

阅读代码

Peter Steinberger（PSPDFKit 创建者，~20 年经验）直接说了：

These days, I don't read much code anymore. I watch the stream and sometimes look at key parts, but I gotta be honest, most code I don't read. I do know where components are and how things are structured, and how the overall system is designed; that's usually all that's needed.

— Peter Steinberger, ~20 年工程经验

注意他的替代策略：不读具体代码，但清楚组件在哪里、结构是什么、整体系统怎么设计。抽象层级上移了——从"这行代码做什么"到"这个系统的架构是什么"。

他还提到了一个微妙的转变：选技术栈的第一变量变了。

过去

选"我熟悉什么"——人的经验决定技术栈

→

现在

选"AI 擅长什么"——模型的能力分布决定技术栈。TypeScript 和 Go 成了首选，因为 agent 在这些语言上"写得最好"

但是

Gergely 给了一个重要的限定："阅读代码在扩展成熟软件或需要避免安全问题时仍然重要。如果上线的代码不工作并伤害了业务，你会想要同时测试和审查它的正确性。" 这里的边界条件很重要：Steinberger 做的是 greenfield 项目。低风险、新代码库、有测试覆盖——在这个上下文里不逐行读代码是合理的。换成遗留系统或安全关键场景，结论完全不同。

新的认知层：复杂度去哪了

写代码的复杂度下降了，但总复杂度并没有减少——它搬家了

Karpathy 12 月那段话里有一串令人窒息的名词清单。他其实在试图给一个全新的认知层画地图：

agents subagents prompts contexts memory modes permissions tools plugins skills hooks MCP LSP slash commands workflows IDE integrations

16 个概念，大部分一年前还不存在。它们构成了一个全新的可编程抽象层。老一层（编辑器 + 编译器 + 调试器）是确定性的，文档完善，30 年没怎么变过。新一层完全是另一种东西：

随机性（Stochastic）：同样的 prompt，不同运行可能得到不同结果。没有确定性保证。
易错性（Fallible）：AI 会犯错，而且犯错方式不可预测——不像编译器错误那样有规律可循。
不可解释性（Unintelligible）：你无法通过阅读源码来理解 AI 为什么做出某个决定。它是黑箱。
持续变化（Changing）：模型每几个月升级一次，行为特征随之改变。你的心智模型永远在追赶。

Clearly some powerful alien tool was handed around, except it comes with no manual and everyone has to figure out how to hold and operate it while the resulting magnitude 9 earthquake is rocking the profession.

— Andrej Karpathy

"Alien tool"——你拿到了一件从没见过的工具，形状诡异，还会自己变形。你得一边弄清楚怎么握住它，一边用它干活，一边脚下的地在震。

隐含判断

Karpathy 说"failure to claim the boost feels decidedly like a skill issue"——没拿到 10 倍提升？那是你的问题。他把"不想用 AI 工具"从个人偏好重新定义成了能力短板。从 Karpathy 这个量级的人口中说出来，这句话的杀伤力不小。

重新估值：升值的和不舒服的

文章付费部分的核心论点——从标题和导言摘要中提取

文章后半部分展开了硬币的另一面。Gergely 在导言中已给出了核心论点：

正在升值：软件工程师比以前更有价值

贬值中

"Coder"——把需求翻译成代码的人。
这正是 AI 最擅长取代的部分。

升值中

"Software Engineer"——做架构决策、理解系统边界、判断什么该建什么不该建的人。

Gergely 点名了三个升值方向：

Tech Lead 特质更受追捧——不只是写代码，而是做技术决策、设定方向、在模糊中找到清晰路径。当 AI 能写代码时，"决定写什么代码"才是稀缺能力。
"Product-minded"成为初创公司的基线——理解用户、理解业务、理解产品方向。当实现成本趋近于零时，"做对的东西"比"做东西"重要 10 倍。
"软件工程"vs"写代码"的差距拉大——系统设计、可靠性、安全性、可维护性——这些"工程"维度不会被 AI 自动解决，而且 AI 产出的海量代码会让这些问题更快地浮出水面。

不舒服的推论

更多代码 = 更多问题——AI 大幅降低了代码产出的成本，但没有降低代码维护和调试的成本。当代码量爆炸性增长时，弱工程实践（缺乏测试、缺乏审查、缺乏架构思考）会比以前更快地产生后果。
工作生活平衡可能恶化——如果你的竞争对手在用 AI 以 3 倍速度交付，而你还在手写代码，压力会传导到整个行业。速度优势一旦建立，就会成为新的基线预期。
PM 与 SE 的边界正在模糊——产品经理现在可以自己生成软件原型，减少对工程师的依赖；工程师借助 AI 可以更独立地做产品决策，减少对 PM 的需要。两个职业正在相互侵入对方的领地。

底层张力

Malte Ubl 说"软件生产成本趋近于零"。如果这话哪怕只对了一半，推论就很深远：当"做出来"变得几乎免费时，竞争就只发生在两个维度——判断力（做什么）和品味（做成什么样）。这两样 AI 暂时给不了。

Takeaway

Gergely 的文章提供了一样稀缺的东西：一个精确的时间戳。2025 年 11—12 月，行业里最冷静的那批人在 8 周内完成了从怀疑到拥抱的转变。Karpathy 的轨迹就是整个行业的缩影。他 10 月的位置，还是 12 月的位置——你现在站在哪里？