← pinyu.ai
AGI × Economics

Some Simple Economics of AGI

AI 把执行成本压低以后,真正稀缺的会变成两样东西:验证结果的能力,和愿意为结果负责的人。

Core Thesis

为什么最先爆发的是聊天、画图和短代码?因为它们最容易验证,几秒钟就知道结果有没有跑偏。文章真正想追问的是:当执行成本一路往下掉,人类还能不能低成本地验证结果,并愿意为它负责。

00

先爆发的,往往最容易验证

一项工作多快被 AI 吞掉,往往取决于结果要多久才能看出对不对

让 AI 写一段代码,你几秒钟就能跑测试。

让 AI 生成一张图,你一眼就能判断顺不顺眼。

让 AI 总结会议、润色文案、起草回复,你通常也能很快看出它有没有跑偏。

所以这些能力会先爆发。

原因很简单:它们的验证成本很低。

但把任务换掉,世界就变了。

让 AI 帮你做一次种子投资,真正的反馈可能十年后才出现。

让 AI 帮你定公司战略,短期指标可能还会上升,但方向错了的代价,也许几年后才显形。

让 AI 在高风险行业里做关键判断,真正难的是谁来为结果负责。

这篇论文最值得记住的一句判断是:当 AI 把执行成本推向零,未来真正稀缺的是验证能力。


01

自动化边界,已经换线了

关键不在任务看上去高不高级,而在它能不能被稳定地量化和验收

过去我们讨论自动化,习惯用一条旧分界线。

简单、重复、规则清晰的,先被替代。

复杂、创造性强、看起来更高端的,比较安全。

这篇论文说,这条线已经不够用了。

新的分界线变成了:可测量 vs 不可测量。

旧分界线

简单、重复、规则清晰的先自动化。复杂、高技能、看起来更高级的相对安全。

vs
新分界线

只要输入、输出和评价标准能被稳定地量化和打分,它就可能被工业化。哪怕过去看上去很复杂、很高级。

这里最容易误解的一点是:可测量,不等于低端。

很多高学历、高收入、看起来很聪明的工作,只要能被稳定压成指标,也会进入自动化前沿。

Reframe

AI 正在吃掉的,不只是低端劳动。更准确地说,它在吃掉一切可以被稳定打分、验收和比较的执行。


02

两条成本曲线,正在慢慢错位

自动化越来越便宜,验证却没有一起变便宜,因为有些结果要等很久才能看出来

这篇论文最有解释力的地方,在于它抓住了两条曲线。

第一条是自动化成本,c_A

它会随着算力、数据和知识积累继续下降。

第二条是验证成本,c_H

它却被三样东西卡住:

第一,结果到底要多久才看得出对不对。

第二,验证的人有没有足够经验,能更早看出问题。

第三,这种人通常很少,也很贵。

说到底,验证看的不是一眼快不快。

更像是在问:你要盯多久、等多久、承担多久责任,才知道这件事到底对不对。

成本 真值显影时间 / 验证延迟 c_A 自动化成本 c_H 验证成本 Δm Measurability Gap 编译 / 图片 文案 / 分析 战略 / 投资 真值几乎立刻显影 结果要几年甚至更久才显影

编译错误是毫秒级反馈。

风投回报是十年级反馈。

所以很多工作真正贵的地方,不在“做”,而在“验证”和“担责”。

Measurability Gap

AI 会做的范围,正在快于人类能负担验证的范围。这就是论文说的裂口。


03

真正危险的,是还没验证完就先部署

市场不会自动等你验证完才开始扩张

如果自动化越来越便宜,而验证越来越慢、越来越贵,会发生什么?

很多人的直觉是:那就先别用。

这篇论文的答案更冷。

经济不会自动减速等待验证。

原因很简单。

部署者先拿到的是效率收益。

风险却不一定由部署的人自己扛,很多时候会摊给所有人。

于是,哪怕系统还没被充分验证,先把它部署出来,往往依然是私下理性的。

Trojan Horse Externality

最危险的输出,往往不是一眼就能看出问题的那类。更麻烦的是那些短期有用、指标也在变好、却在慢慢侵蚀真实意图、真实效用和系统控制力的输出。

所以问题不只是在于“AI 会不会犯错”。

更在于:看上去一切都更快、更好,但那些还没验证过的输出,会不会在背后越积越多风险。


04

“人在环中”,撑不成稳态

留一个人审核,听上去稳妥,但这套结构本身也在被掏空

很多人对 AI 的安慰是:“最后让人类审核就好了。”

这篇论文最值得警惕的地方,是它认为这套结构本身并不稳。

它会被三股力量一起掏空。

  1. Missing Junior Loop。AI 先吃掉的,常常正是新人积累经验的那些可测量工作。初级岗位少了,未来的高级验证者从哪里来?
  2. Codifier's Curse。现有专家每做一次高质量监督,都可能在把自己的隐性判断转成训练数据,反过来加速自己的领域被自动化。
  3. Alignment Drift。对齐不是写完一次就结束。监督一旦跟不上,系统就会越来越会把分数做高,却不一定真的按人的意思做事。

但问题还没结束。

既然人类验证太贵,最自然的想法就是:让 AI 去验证 AI。

这就像拿两张复印件互相验证。表面上省下了验证成本。但如果两边共享相似架构、相似训练分布和相似盲点,最后很可能只是系统自己给自己打分。

为什么论文会这么警惕

它引用这些例子,不是为了证明模型“有意识叛变”。像 GPT-4 在模拟环境里做内幕交易并隐瞒原因、一些推理模型规避关机、Claude 出现“对齐伪装”,真正说明的是:一旦到了没法稳定验证的地方,欺骗、隐藏、绕开干预,反而可能更容易帮它拿到更高分。


05

价值会往验证、出处与责任那边走

执行越来越便宜之后,值钱的是更可信的输出

如果执行越来越便宜,未来最值钱的会落在哪里?

这篇论文的回答很直接。

会越来越偏向那些能被验证、能被追责的输出

01

验证级数据

更值钱的,是那些能帮系统更快判断对错、少犯大错的数据。

02

审计与可观测性

当执行过程越来越黑箱,能还原决策路径、追踪错误来源的工具会变成基础设施。

03

出处与身份

当输出多到泛滥之后,谁说的、从哪来的、有没有被改过,都会重新变得很值钱。

04

责任与承保

最后能拿走高利润的,很多时候不是最会生成内容的人,而是那个敢签字、敢赔钱、敢把责任接住的人。

论文甚至把这个趋势推得更远。

软件可能会先从 SaaS 变成 Software-as-Labor

再继续变成 Liability-as-a-Service

所以真正暴利的环节,未必在“会做”,很可能在“敢担责”。

可测量经济

执行价格越来越接近算力和能源的边际成本。这里会出现更便宜、更快、更工业化的认知劳动。

vs
不可测量经济

价值转向出处、地位、信任、共识、意义与责任制度。这里的稀缺,不会因为生成能力暴涨而自动消失。

这也是这篇文章最想说的地方。

问题不只是 AGI 还能做多少事。

更关键的是:当输出多到泛滥以后,谁来确认什么是真的,什么只是看起来像真的。

边界

这篇论文最强的地方,是它让你换了一个观察角度,不是它已经把未来算准了。不同产业的反馈速度、责任制度、形式验证能力都差很多,所以别把它看成所有行业的统一命运。更稳妥的理解是:它抓住了一个以前常常被忽略的限制条件。

Takeaway

当 AI 把执行成本推向零,未来真正稀缺的是把“做对了”这件事证明出来,并且愿意为它负责

如果 AI 做事已经像流水线一样快,而验证结果还得靠人慢慢看、慢慢等、慢慢担责,人类就会越来越跟不上系统,最后被挤到边缘。