← pinyu.ai
Inference-Time Compute

Mixture-of-Agents

一群 AI「合写」凭什么超过任何单个 AI?看得更广,胜过想得更深。

pinyu · 2026.03
Core Thesis

MoA 的核心杠杆:把开放式生成转化为在多样候选上做搜索与编辑。模型差异铺开覆盖率,强 aggregator 一锤定音。

Commitment Problem 单模型被锁死 Coverage via Diversity 多模型铺覆盖 Aggregation as Search 强模型做收敛
01

一个你已经懂的故事

从杂志社看懂 MoA 的核心逻辑

一家杂志社要做一期封面专题。有两种工作方式:

方式 A · 单枪匹马
让最好的记者独自完成。落笔第一句就锁定了叙事角度,后面只能沿这个方向展开。写到一半发现另一个角度更好?推翻重来代价太大,只好硬着头皮写下去。
VS
方式 B · MoA
派三个记者各自独立采访、各交一篇初稿。主编读完后,取张三的视角、李四的论据、王五的数据,重新写一篇终稿。
关键洞察
主编的工作比记者简单。从零写一篇好文章很难,但在三篇已有文章中鉴别、取舍、融合——这容易得多。

听起来像个比喻,但杂志社的困境恰好就是 Transformer 自回归生成的结构性困境。


02

承诺困境

模型够聪明——困住它的是那条单行道

LLM 逐 token 生成文本,像在岔路口不断做选择。第一个 token 选定后,后续生成就被约束在与之兼容的"轨道"上——论证角度、表述框架、信息取舍,全部被早期选择锁定。

这就是承诺困境(Commitment Problem):每一步 token 选择都在收窄后续空间,直到整条回答被锁死在 response space 的某个局部最优里。

Response Space 其他 mode 模型 A 的轨迹 模型 B 的轨迹 起点 最优解 另一个好解
每个模型从起点出发,被早期 token 选择锁死在各自的轨迹上。最优解可能就在旁边,但轨迹已无法拐弯。不同模型的轨迹覆盖不同区域——这就是 MoA 的原材料。
MoA 的两个精确动作
Proposers(记者们):在自然语言层面制造扰动,在 response space 的不同 mode 上打下锚点。

Aggregator(主编):看到多条已完成轨迹后再选择和融合——因为鉴别与合成的认知成本,远低于从零生成。

弱模型为什么能帮强模型

最反直觉的发现
换个角度看:弱模型的贡献恰恰来自它的"偏"——训练偏差把它推向了强模型自身 sampling 几乎到不了的 response space 区域。这本质上是一场覆盖率的胜利。

就像实习记者写的稿子可能粗糙,但他可能采访到了资深记者不屑于去的社区,带回了独特的一手素材。

为什么 LLM 天生就能做"主编"?

LLM 为什么天然擅长这件事?因为 pre-training 语料里遍布综述论文、编辑修改、辩论综合——"读完多份材料再写一份总结"本就是模型见过无数遍的模式。MoA 通过 prompt 接口激活了这种潜在的综合能力,将「生成候选」与「整合判断」拆成两个独立步骤。


03

三个思维透镜

同一个机制,三种理解方式

透镜一:陪审团 vs. 投票箱

传统 Ensemble(投票箱)MoA(陪审团)
机制每个模型投票,取多数先独立思考,再由 foreperson 撰写裁决书
输出选择已有答案之一生成新的综合答案
质量上限≤ 最好的单个答案可以超越所有单个答案

有效前提:(1) 视角足够多样,(2) foreperson 有整合能力。缺一就退化为普通投票。

透镜二:误差纠正码

每个 LLM 是一个带偏差的噪声信道。模型越多样 → 错误相关性越低 → aggregator 像解码器,从多份带噪观测中恢复更接近真值的信号。

这解释了"不同模型 > 同一模型多次采样"——同一信道的噪声高度相关。

暴露的弱点
当所有信道同方向系统性偏差时,解码器反而被误导。MoA 修正方差,但治不了系统性偏差。

透镜三:信息几何

把 response space 想象成一片地图。同一个模型采样多次,落点扎堆在同一片区域;换不同模型,落点才会散开到不同区域。Aggregator 在这些散开的落点之间做有语义理解的选择性插值——远超简单平均。

同模型 × 9 密集但局部 同一 mode, 看不到其他区域 异模型 × 3 + Aggregator 稀疏但覆盖广 A B C ★ Aggregator 多个 mode 的信息 汇聚成更优解

04

自然语言协议

优雅与代价共享同一个设计选择

MoA 做了一个不寻常的架构决定:用自然语言作为层间协议。这一刀切出三个优势:

一个设计选择,三重收益
Model-agnostic composability:任意模型可插拔,不需要统一的 embedding 空间或 API 格式。

零微调成本:纯 prompt 驱动,不需要训练适配层。

可解释的中间产物:每层输出人类可读——你可以直接审查 proposer 的初稿,看 aggregator 取了什么、丢了什么。

但同一个设计选择,也带来了它的固有局限。自然语言是一个有损的、带宽受限的信道——这正是下一节的主题。


05

失效边界

同一个设计选择的固有代价

三个固有代价

代价根因直觉
啰嗦遗漏好观点的感知成本 >> 多包含一个观点主编看了三篇稿子,本能地"都别浪费"
慢(TTFT)层间严格数据依赖记者不交稿,主编无法动笔——锁死在异步场景
丢信号自然语言无法传递 uncertainty 分布记者说"可能",主编不知道这是 60% 还是 99%

四个需要警惕的陷阱

  1. 评测幻觉:GPT-4 judge 偏好更长更结构化答案,MoA 天然产出此类输出——报告的提升中有多少是"投评委所好"?
  2. 共识放大偏差:MoA 修正方差,但治不了系统性偏差——所有 proposer 有相同认知盲区时,aggregator 以更高置信度输出错误答案。
  3. 因果链断裂:论文的 "collaborativeness" 缺少关键 ablation——是"参考让输出更好",还是"只是输入更长了"?
  4. 安全边界扩散:用户输入同时发送给多个模型/提供商,攻击面成倍扩大。
最危险的陷阱
共识放大偏差可能是 MoA 最容易被忽视的失效模式。多样性能降低方差,但当所有模型共享同一种训练数据偏差——比如 RLHF 塑造的相似价值观、相似的知识盲区——MoA 就会把错误打磨成共识:置信度更高,表述更统一,破绽更少。看起来更可靠,实际更危险。

06

实践原则

便宜发散,昂贵收敛

原则做法理由
便宜发散低成本小模型做 proposer,最强模型做 aggregator发散要量,收敛要质
动态触发高不确定性时才升级到 MoA简单问题单模型足够
薄层部署MoA-Lite(2 层)是可部署配置3 层边际递减,2 层性价比最优
硬性验证MoA 整合 + 编译器/单测/规则校验做 hard check软整合提升质量,硬验证保证正确性
Decision Flow
if uncertainty_low:
    single strong model → answer
else:
    small models → drafts
      → strong aggregator
        → (tests / rules)
          → final

07

全景

推理时算力的两条路线

MoA 属于 inference-time compute scaling 的关键分支——用推理阶段的算力换取更好的输出。这个方向有两条根本路线:

纵向 · 深度思考
o1 / o3
单模型内部 · 链式推理
"想得更深"
×
横向 · 多样视角
MoA
跨模型协作 · 多视角聚合
"看得更广"

两条路线长期很可能走向 converge。

三个正在萌芽的方向
Learned Routing:为每个问题挑最有互补性的 proposer 子集——少而准,胜过多而泛。

蒸馏数据工厂:MoA 产出反哺训练下一代单模型——多模型协作的智慧,压缩进单模型的权重。

两条路线融合:深度思考 × 多模型协作的混合架构——先广后深,或深浅交替。
Coda

MoA 揭示了一件事:在 LLM 时代,覆盖率(coverage)是一种被严重低估的能力来源。

聪明没变。视野变了。看到更多可能性,做有约束的选择——把"从零创作"降维成"搜索与编辑"。

延伸阅读
The Rot →
上下文越长,智能越短。8 篇前沿文献交汇于同一个被忽视的真相——以及同一套解法。
The Shape of Intelligence →
凸性、率失真理论、闭环反馈如何统一解释"智能"。MoA 中"覆盖率 → 搜索"的几何学根基。
The Markdown Org →
Multi-agent 协作不需要编排框架。一个 Markdown 定义一个 agent,一个文件夹定义一个团队。