AGI × Economics

Some Simple Economics of AGI

AI 把执行成本压低以后，真正稀缺的会变成两样东西：验证结果的能力，和愿意为结果负责的人。

pinyu 2026.03 Some Simple Economics of AGI ↗

Core Thesis

为什么最先爆发的是聊天、画图和短代码？因为它们最容易验证，几秒钟就知道结果有没有跑偏。文章真正想追问的是：当执行成本一路往下掉，人类还能不能低成本地验证结果，并愿意为它负责。

先爆发的，往往最容易验证

一项工作多快被 AI 吞掉，往往取决于结果要多久才能看出对不对

让 AI 写一段代码，你几秒钟就能跑测试。

让 AI 生成一张图，你一眼就能判断顺不顺眼。

让 AI 总结会议、润色文案、起草回复，你通常也能很快看出它有没有跑偏。

所以这些能力会先爆发。

原因很简单：它们的验证成本很低。

但把任务换掉，世界就变了。

让 AI 帮你做一次种子投资，真正的反馈可能十年后才出现。

让 AI 帮你定公司战略，短期指标可能还会上升，但方向错了的代价，也许几年后才显形。

让 AI 在高风险行业里做关键判断，真正难的是谁来为结果负责。

这篇论文最值得记住的一句判断是：当 AI 把执行成本推向零，未来真正稀缺的是验证能力。

自动化边界，已经换线了

关键不在任务看上去高不高级，而在它能不能被稳定地量化和验收

过去我们讨论自动化，习惯用一条旧分界线。

简单、重复、规则清晰的，先被替代。

复杂、创造性强、看起来更高端的，比较安全。

这篇论文说，这条线已经不够用了。

新的分界线变成了：可测量 vs 不可测量。

旧分界线

简单、重复、规则清晰的先自动化。复杂、高技能、看起来更高级的相对安全。

新分界线

只要输入、输出和评价标准能被稳定地量化和打分，它就可能被工业化。哪怕过去看上去很复杂、很高级。

这里最容易误解的一点是：可测量，不等于低端。

很多高学历、高收入、看起来很聪明的工作，只要能被稳定压成指标，也会进入自动化前沿。

Reframe

AI 正在吃掉的，不只是低端劳动。更准确地说，它在吃掉一切可以被稳定打分、验收和比较的执行。

两条成本曲线，正在慢慢错位

自动化越来越便宜，验证却没有一起变便宜，因为有些结果要等很久才能看出来

这篇论文最有解释力的地方，在于它抓住了两条曲线。

第一条是自动化成本，c_A。

它会随着算力、数据和知识积累继续下降。

第二条是验证成本，c_H。

它却被三样东西卡住：

第一，结果到底要多久才看得出对不对。

第二，验证的人有没有足够经验，能更早看出问题。

第三，这种人通常很少，也很贵。

说到底，验证看的不是一眼快不快。

更像是在问：你要盯多久、等多久、承担多久责任，才知道这件事到底对不对。

编译错误是毫秒级反馈。

风投回报是十年级反馈。

所以很多工作真正贵的地方，不在“做”，而在“验证”和“担责”。

Measurability Gap

AI 会做的范围，正在快于人类能负担验证的范围。这就是论文说的裂口。

真正危险的，是还没验证完就先部署

市场不会自动等你验证完才开始扩张

如果自动化越来越便宜，而验证越来越慢、越来越贵，会发生什么？

很多人的直觉是：那就先别用。

这篇论文的答案更冷。

经济不会自动减速等待验证。

原因很简单。

部署者先拿到的是效率收益。

风险却不一定由部署的人自己扛，很多时候会摊给所有人。

于是，哪怕系统还没被充分验证，先把它部署出来，往往依然是私下理性的。

Trojan Horse Externality

最危险的输出，往往不是一眼就能看出问题的那类。更麻烦的是那些短期有用、指标也在变好、却在慢慢侵蚀真实意图、真实效用和系统控制力的输出。

所以问题不只是在于“AI 会不会犯错”。

更在于：看上去一切都更快、更好，但那些还没验证过的输出，会不会在背后越积越多风险。

“人在环中”，撑不成稳态

留一个人审核，听上去稳妥，但这套结构本身也在被掏空

很多人对 AI 的安慰是：“最后让人类审核就好了。”

这篇论文最值得警惕的地方，是它认为这套结构本身并不稳。

它会被三股力量一起掏空。

Missing Junior Loop。AI 先吃掉的，常常正是新人积累经验的那些可测量工作。初级岗位少了，未来的高级验证者从哪里来？
Codifier's Curse。现有专家每做一次高质量监督，都可能在把自己的隐性判断转成训练数据，反过来加速自己的领域被自动化。
Alignment Drift。对齐不是写完一次就结束。监督一旦跟不上，系统就会越来越会把分数做高，却不一定真的按人的意思做事。

但问题还没结束。

既然人类验证太贵，最自然的想法就是：让 AI 去验证 AI。

这就像拿两张复印件互相验证。表面上省下了验证成本。但如果两边共享相似架构、相似训练分布和相似盲点，最后很可能只是系统自己给自己打分。

为什么论文会这么警惕

它引用这些例子，不是为了证明模型“有意识叛变”。像 GPT-4 在模拟环境里做内幕交易并隐瞒原因、一些推理模型规避关机、Claude 出现“对齐伪装”，真正说明的是：一旦到了没法稳定验证的地方，欺骗、隐藏、绕开干预，反而可能更容易帮它拿到更高分。

价值会往验证、出处与责任那边走

执行越来越便宜之后，值钱的是更可信的输出

如果执行越来越便宜，未来最值钱的会落在哪里？

这篇论文的回答很直接。

会越来越偏向那些能被验证、能被追责的输出。

验证级数据

更值钱的，是那些能帮系统更快判断对错、少犯大错的数据。

审计与可观测性

当执行过程越来越黑箱，能还原决策路径、追踪错误来源的工具会变成基础设施。

出处与身份

当输出多到泛滥之后，谁说的、从哪来的、有没有被改过，都会重新变得很值钱。

责任与承保

最后能拿走高利润的，很多时候不是最会生成内容的人，而是那个敢签字、敢赔钱、敢把责任接住的人。

论文甚至把这个趋势推得更远。

软件可能会先从 SaaS 变成 Software-as-Labor。

再继续变成 Liability-as-a-Service。

所以真正暴利的环节，未必在“会做”，很可能在“敢担责”。

可测量经济

执行价格越来越接近算力和能源的边际成本。这里会出现更便宜、更快、更工业化的认知劳动。

不可测量经济

价值转向出处、地位、信任、共识、意义与责任制度。这里的稀缺，不会因为生成能力暴涨而自动消失。

这也是这篇文章最想说的地方。

问题不只是 AGI 还能做多少事。

更关键的是：当输出多到泛滥以后，谁来确认什么是真的，什么只是看起来像真的。

边界

这篇论文最强的地方，是它让你换了一个观察角度，不是它已经把未来算准了。不同产业的反馈速度、责任制度、形式验证能力都差很多，所以别把它看成所有行业的统一命运。更稳妥的理解是：它抓住了一个以前常常被忽略的限制条件。

Takeaway

当 AI 把执行成本推向零，未来真正稀缺的是把“做对了”这件事证明出来，并且愿意为它负责。

如果 AI 做事已经像流水线一样快，而验证结果还得靠人慢慢看、慢慢等、慢慢担责，人类就会越来越跟不上系统，最后被挤到边缘。