← pinyu.ai
AI Architecture × Systems Thinking

Stilts, Not Weights

Fine-tuning 花几百万美元把智能烧进模型权重,然后下一个前沿模型发布,一切归零。有一种更好的架构选择:把智能放在模型之上,而非之内。7 个人的团队用这种方式超过了所有前沿模型。

Core Thesis

Fine-tuning 真正致命的地方在于它把你的全部价值紧耦合到一个每 3-6 个月就被淘汰的资产上。贵只是表面伤。
AI 应用的正确架构问题只有一个:智能应该住在你系统的哪一层?住在权重里,它会随模型过期;住在模型之上的推理系统里,它会随模型进步而自动增值。

实证:Poetiq 用 7 人团队、不到 $100K 的优化成本,在 ARC AGI V2 和 Humanity's Last Exam 上同时超过了 Gemini Deep Think 和 Claude Opus 4.6——且每次新模型发布,他们的系统自动变得更强。
01

Fine-Tuning 陷阱

标准剧本为什么注定是一场输掉的军备竞赛

标准剧本看起来无可挑剔:收集几万条高质量数据,在最好的模型上 fine-tune,部署上线。成本:数十万到数百万美元,周期:数周到数月。

问题出在下一步。

收集数据
花 $$$$ 微调
部署上线
新模型发布
全部作废 ↺

You fine-tuned on top of GPT 3.5 or whatever, and then GPT-4o4 comes out and just blows you out of the water. Are you going to do that again, or are you going to go out of business?

— Ian Fischer, Poetiq co-founder, ex-Google DeepMind

这不是假设性场景。前沿模型的迭代周期已经压缩到 3-6 个月。你的 fine-tuning 从完成那天起就在贬值——而你不知道保质期还剩多久。

致命结构
Fine-tuning 的本质是给租来的房子做精装修。房东(模型提供商)会定期拆掉整栋楼、建一栋更好的。你的精装修不能带走,也不能转移到新楼里。每次搬迁,从零开始。

更隐蔽的问题:fine-tuning 需要大规模高质量数据集。收集数据的人力成本、标注成本、清洗成本——这些沉没成本让团队产生"已经投入这么多,必须继续"的承诺升级心理。结果是越陷越深,与一个特定模型版本绑定得越来越紧。


02

耦合税:一个软件工程视角

底层变化越快,紧耦合的代价越高——而模型层的变化速度是人类工程史上最快的

软件工程有一条久经验证的原则:紧耦合的代价与依赖项的变化频率成正比。如果你的代码紧紧依赖一个稳定了十年的 API,耦合成本几乎为零。如果依赖一个每周都在改的内部接口,耦合成本会吞噬你。

Fine-tuning 是目前 AI 领域耦合最紧的架构选择。而它耦合的对象——前沿模型权重——恰好是技术史上变化最快的层。

Fine-Tuning = 继承
修改基类本身。基类一旦被替换,子类全部失效。投入与模型版本绑定。

OOP 类比:Inheritance
VS
Harness = 组合
在基类外部构建。基类升级时,外部系统自动受益。投入与问题绑定,与模型解耦。

OOP 类比:Composition

Gang of Four 在 1994 年就给出了答案:优先使用组合而非继承。30 年后,同样的原则在 AI 架构中以更极端的形式重现——因为"基类"的迭代速度快了一千倍。

The Bitter Lesson 的推论
Rich Sutton 2019 年的 Bitter Lesson:利用计算的通用方法总是击败编码人类知识的专用方法。Fine-tuning 本质上是一种知识编码——把特定领域的模式烧进权重。它违反了 Bitter Lesson。

Ian Fischer 的团队称自己"被接种了 Bitter Lesson 的疫苗"——因为他们从不修改模型权重。模型越强,他们的系统自动越强。这才是与 Bitter Lesson 对齐的架构。
03

三层架构:智能住在哪里?

定制 AI 的三个层级——每层有不同的持久性、可移植性和投入产出比

当你决定"让 AI 在我的特定场景上表现更好"时,你实际上在选择把智能注入系统的哪一层。

L1
模型权重 — Fine-tuning
直接修改模型参数。持久性最强(嵌入权重),但可移植性为零。模型版本一旦过期,全部投入归零。成本高,周期长,需要大量标注数据。
L2
推理系统 — Harness / Agentic System
在模型之上构建推理策略、工具链、验证机制。可移植:底层模型替换后,系统继续工作且自动受益于新模型能力。智能存在于代码和架构中,不在权重里。
L3
上下文 — Prompt Engineering / ICL
通过提示词和上下文示例引导模型行为。最轻量、最灵活,但能力天花板最低。自动化 prompt 优化(如 DSPy)在此层运作。
甜蜜点在 L2
L3(prompt engineering)人人都在做,但天花板有限。L1(fine-tuning)投入最重,风险最高。L2 是被严重低估的中间层——它把智能编码在可移植的推理策略中,而非不可移植的模型权重中。

在 Poetiq 的 DeepMind 时期论文中,手动优化 prompt 只让性能从 0% 提升到 5%。加入 L2 层的推理策略后,性能从 5% 跳到 95%。这是 19 倍的差距——不在同一个数量级。

Everybody's out there doing some amount of automated prompt optimization. That will get you some performance improvements, but it's very far from everything you can get if you actually think about reasoning strategies that are really going to be written in code rather than in just better prompts.

— Ian Fischer

关键区分:L2 层的推理策略是代码,跟"更好的提示词"完全不同。多步推理框架、验证循环、失败-回退机制、结果聚合策略——全部用编程语言写成。

平台层类比:为什么 L2 是最有价值的位置
在任何技术栈中,最有价值的位置是把应用层与基础设施层解耦的抽象层。操作系统之于硬件、虚拟机之于物理服务器、Kubernetes 之于容器——每一个成功的抽象层都遵循同一个模式:让上层应用不关心下层实现。

Harness 正是 AI 应用栈中的这个抽象层。它让你的领域智能不关心底下跑的是 GPT、Claude 还是 Gemini。而历史反复证明:占据抽象层的玩家,最终比占据应用层和基础设施层的玩家都更有价值。

04

用数据说话

7 人团队,不到 $100K,两次击败前沿实验室的最佳模型

ARC AGI V2

2024 年 12 月,Poetiq 走出隐身模式。Gemini 3 Deep Think 刚以 45% 的成绩霸占排行榜顶端。两天后,Poetiq 发布了结果。

54%
Poetiq 得分
(vs Gemini 的 45%)
$32
每道题成本
(vs Gemini 的 ~$70)
½
使用更便宜的
Gemini 3 Pro 作为底座

注意反直觉的部分:Poetiq 没有使用 Gemini 3 Deep Think(昂贵的推理模型),而是使用了更便宜的 Gemini 3 Pro——然后通过推理系统让它比 Deep Think 表现更好,且成本只有一半。

Humanity's Last Exam

2500 道由各领域专家编写的极难题目,旨在挑战博士级知识。AI 尚未通过。

Claude Opus 4.6
53.1%
Anthropic 最强模型
训练成本:数亿美元
VS
Poetiq
55%
7 人团队
优化成本:< $100K
高跷原理
Ian Fischer 用了一个精准的比喻:前沿模型是地面,Poetiq 是高跷(stilts)。无论地面升高多少,穿着高跷的人总是更高。而且高跷与地面完全解耦——换一块地面(换一个模型),高跷照样工作。

这两组数据展示了同一个结构性优势的两个维度:ARC AGI 证明 harness 能提升推理能力,Humanity's Last Exam 证明它能提升知识提取能力
05

递归自改进:Harness 自己造 Harness

真正的护城河在更高一层——能自动生成推理系统的元系统

如果 L2 层(推理系统)如此有价值,难道不能手动构建吗?当然可以。问题在于效率和天花板。

We have a recursively self-improving system which we call the Poetiq Meta System. The output of that system is systems that solve hard problems.

— Ian Fischer

区分两个层次:

Object Level

推理系统本身

代码、prompt、数据、工具链——组成一个解决特定问题的 agentic system。人可以手动构建。

Meta Level

生成推理系统的系统

Poetiq Meta System:自动搜索、评估、改进推理策略的递归优化器。更快、更便宜、且能发现人类不会想到的策略。

手动构建 harness 是 L2 层的第一步。但 Poetiq 在做的是让 L2 层的构建本身自动化——用 AI 来优化 AI 的推理架构。这是一个正反馈回路:元系统改进推理策略 → 推理策略产出更好的结果 → 更好的结果反馈给元系统 → 元系统进一步改进。

Meta System
生成推理策略
评估结果
改进策略
↻ 递归

错误的例子

对话中一个令人深思的细节:在 ARC AGI 优化过程中,元系统自动生成了一组 few-shot 示例,其中有一个是错的

团队没有修正它。

One of the examples is actually wrong, but we didn't change it. We're like, well, this is the thing that it output, we'll just leave it be. We don't want to go in and monkey around with things.

— Ian Fischer
深层启示
这打破了一个根深蒂固的假设:"正确的示例才能教出正确的行为"

元系统追求的是"统计意义上的最优输出",人类可解释性只是附带品。一个看起来"错误"的示例可能在注意力机制层面起到了某种正则化或对比学习的作用——人类理解不了为什么它有效,但它有效。

这暗示了一个更大的趋势:当优化者本身是 AI 时,"人类可理解性"已经不再是最优解的必要条件。我们正在进入一个人类无法完全审查优化结果的时代——结果可能完全正确,只是"对"的定义超出了人类直觉。
"了解你的数据"法则正在被改写
Ian Fischer 指出了一个机器学习范式的转变。传统 ML 的金科玉律是"你必须了解你的数据"。但在递归自改进系统中,这个责任被外包给了 AI 本身——AI 负责理解数据、找到失败模式、发现有效的推理策略。

"Historically in machine learning, the rule was you have to know your dataset really well. But now we're outsourcing that to the AI itself."

人的角色从"亲自理解数据"转向"设计能理解数据的系统"。这是一个更高阶的抽象——控制论意义上的从直接控制到间接控制的转变。

06

对 Builder 的启示

四条架构原则——如何让你的 AI 投资不因模型迭代而归零

原则 1

把价值放在可移植的层

你的领域知识、推理策略、验证逻辑——这些应该存在于模型之上的代码中,而非模型权重内。代码可以迁移到任何新模型;权重不行。

原则 2

为模型升级而设计

把"底层模型可替换"作为架构的硬性约束。如果你的系统在换模型时需要大量重写,说明你的耦合太紧。高跷应该能站在任何地面上。

原则 3

推理策略 > Prompt 优化

自动化 prompt 优化只是起点。真正的性能飞跃来自 L2 层——用代码实现的多步推理、验证回路、失败恢复。5% vs 95% 的差距在这里。

原则 4

拥抱模型进步,而非对抗

Fine-tuning 让你与模型进步对抗(新模型使旧微调失效)。Harness 让你与模型进步对齐(新模型让旧 harness 更强)。选择与最强大的趋势站在同一边。

何时 fine-tuning 仍然合理

公平起见:fine-tuning 在某些场景下仍然合理。

  1. 延迟极端敏感——harness 的多步推理增加延迟。如果你的场景需要亚秒级响应且每毫秒都算钱,fine-tuned 的小模型可能仍有优势。
  2. 部署环境受限——边缘设备、离线场景、安全敏感环境。此时 fine-tuned 小模型的部署灵活性是必需的。
  3. 模型层稳定——如果你使用的是开源模型且不追赶前沿,模型"过期"的压力减小。但即使如此,开源模型的迭代速度也在加快。
现实选择
对大多数在前沿模型上构建应用的团队来说,fine-tuning 应该是最后手段,而非默认选项。先穷尽 L3(prompt engineering)和 L2(推理系统)的空间,只有在这两层都无法满足需求时,才考虑 L1(fine-tuning)。而且要做好心理准备:这笔投入的保质期可能只有几个月。
Takeaway

AI 应用的竞争发生在模型之上——模型层是几家万亿美金公司的游戏,你赢不了。真正的战场在于谁能在模型之上构建最有效的推理系统

Fine-tuning 是旧范式的惯性延续:修改底层来适应上层。正确的架构方向恰好相反——保持底层可替换,在上层积累可移植的智能

Poetiq 的 7 人团队用不到 $100K 超越了数亿美元训练出的前沿模型。他们没有更多资源,他们站对了层

延伸阅读
Less Code, More Model →
同一个原则的产品实践。Claude Code 的团队把产品做薄、让模型能力直达用户——每次模型升级,删代码而非加代码。
Closing the Loop →
Poetiq 的递归自改进是控制论正反馈回路的具体实例。反馈回路一旦闭合,加速就是必然。