Fine-tuning 花几百万美元把智能烧进模型权重,然后下一个前沿模型发布,一切归零。有一种更好的架构选择:把智能放在模型之上,而非之内。7 个人的团队用这种方式超过了所有前沿模型。
Fine-tuning 真正致命的地方在于它把你的全部价值紧耦合到一个每 3-6 个月就被淘汰的资产上。贵只是表面伤。
AI 应用的正确架构问题只有一个:智能应该住在你系统的哪一层?住在权重里,它会随模型过期;住在模型之上的推理系统里,它会随模型进步而自动增值。
标准剧本为什么注定是一场输掉的军备竞赛
标准剧本看起来无可挑剔:收集几万条高质量数据,在最好的模型上 fine-tune,部署上线。成本:数十万到数百万美元,周期:数周到数月。
问题出在下一步。
You fine-tuned on top of GPT 3.5 or whatever, and then GPT-4o4 comes out and just blows you out of the water. Are you going to do that again, or are you going to go out of business?
这不是假设性场景。前沿模型的迭代周期已经压缩到 3-6 个月。你的 fine-tuning 从完成那天起就在贬值——而你不知道保质期还剩多久。
更隐蔽的问题:fine-tuning 需要大规模高质量数据集。收集数据的人力成本、标注成本、清洗成本——这些沉没成本让团队产生"已经投入这么多,必须继续"的承诺升级心理。结果是越陷越深,与一个特定模型版本绑定得越来越紧。
底层变化越快,紧耦合的代价越高——而模型层的变化速度是人类工程史上最快的
软件工程有一条久经验证的原则:紧耦合的代价与依赖项的变化频率成正比。如果你的代码紧紧依赖一个稳定了十年的 API,耦合成本几乎为零。如果依赖一个每周都在改的内部接口,耦合成本会吞噬你。
Fine-tuning 是目前 AI 领域耦合最紧的架构选择。而它耦合的对象——前沿模型权重——恰好是技术史上变化最快的层。
Gang of Four 在 1994 年就给出了答案:优先使用组合而非继承。30 年后,同样的原则在 AI 架构中以更极端的形式重现——因为"基类"的迭代速度快了一千倍。
定制 AI 的三个层级——每层有不同的持久性、可移植性和投入产出比
当你决定"让 AI 在我的特定场景上表现更好"时,你实际上在选择把智能注入系统的哪一层。
Everybody's out there doing some amount of automated prompt optimization. That will get you some performance improvements, but it's very far from everything you can get if you actually think about reasoning strategies that are really going to be written in code rather than in just better prompts.
关键区分:L2 层的推理策略是代码,跟"更好的提示词"完全不同。多步推理框架、验证循环、失败-回退机制、结果聚合策略——全部用编程语言写成。
7 人团队,不到 $100K,两次击败前沿实验室的最佳模型
2024 年 12 月,Poetiq 走出隐身模式。Gemini 3 Deep Think 刚以 45% 的成绩霸占排行榜顶端。两天后,Poetiq 发布了结果。
注意反直觉的部分:Poetiq 没有使用 Gemini 3 Deep Think(昂贵的推理模型),而是使用了更便宜的 Gemini 3 Pro——然后通过推理系统让它比 Deep Think 表现更好,且成本只有一半。
2500 道由各领域专家编写的极难题目,旨在挑战博士级知识。AI 尚未通过。
真正的护城河在更高一层——能自动生成推理系统的元系统
如果 L2 层(推理系统)如此有价值,难道不能手动构建吗?当然可以。问题在于效率和天花板。
We have a recursively self-improving system which we call the Poetiq Meta System. The output of that system is systems that solve hard problems.
区分两个层次:
代码、prompt、数据、工具链——组成一个解决特定问题的 agentic system。人可以手动构建。
Poetiq Meta System:自动搜索、评估、改进推理策略的递归优化器。更快、更便宜、且能发现人类不会想到的策略。
手动构建 harness 是 L2 层的第一步。但 Poetiq 在做的是让 L2 层的构建本身自动化——用 AI 来优化 AI 的推理架构。这是一个正反馈回路:元系统改进推理策略 → 推理策略产出更好的结果 → 更好的结果反馈给元系统 → 元系统进一步改进。
对话中一个令人深思的细节:在 ARC AGI 优化过程中,元系统自动生成了一组 few-shot 示例,其中有一个是错的。
团队没有修正它。
One of the examples is actually wrong, but we didn't change it. We're like, well, this is the thing that it output, we'll just leave it be. We don't want to go in and monkey around with things.
四条架构原则——如何让你的 AI 投资不因模型迭代而归零
你的领域知识、推理策略、验证逻辑——这些应该存在于模型之上的代码中,而非模型权重内。代码可以迁移到任何新模型;权重不行。
把"底层模型可替换"作为架构的硬性约束。如果你的系统在换模型时需要大量重写,说明你的耦合太紧。高跷应该能站在任何地面上。
自动化 prompt 优化只是起点。真正的性能飞跃来自 L2 层——用代码实现的多步推理、验证回路、失败恢复。5% vs 95% 的差距在这里。
Fine-tuning 让你与模型进步对抗(新模型使旧微调失效)。Harness 让你与模型进步对齐(新模型让旧 harness 更强)。选择与最强大的趋势站在同一边。
公平起见:fine-tuning 在某些场景下仍然合理。
AI 应用的竞争发生在模型之上——模型层是几家万亿美金公司的游戏,你赢不了。真正的战场在于谁能在模型之上构建最有效的推理系统。
Fine-tuning 是旧范式的惯性延续:修改底层来适应上层。正确的架构方向恰好相反——保持底层可替换,在上层积累可移植的智能。
Poetiq 的 7 人团队用不到 $100K 超越了数亿美元训练出的前沿模型。他们没有更多资源,他们站对了层。