Inference-Time Compute

Mixture-of-Agents

一群 AI「合写」凭什么超过任何单个 AI？看得更广，胜过想得更深。

pinyu · 2026.03

Core Thesis

MoA 的核心杠杆：把开放式生成转化为在多样候选上做搜索与编辑。模型差异铺开覆盖率，强 aggregator 一锤定音。

一个你已经懂的故事

从杂志社看懂 MoA 的核心逻辑

一家杂志社要做一期封面专题。有两种工作方式：

方式 A · 单枪匹马

让最好的记者独自完成。落笔第一句就锁定了叙事角度，后面只能沿这个方向展开。写到一半发现另一个角度更好？推翻重来代价太大，只好硬着头皮写下去。

方式 B · MoA

派三个记者各自独立采访、各交一篇初稿。主编读完后，取张三的视角、李四的论据、王五的数据，重新写一篇终稿。

关键洞察

主编的工作比记者简单。从零写一篇好文章很难，但在三篇已有文章中鉴别、取舍、融合——这容易得多。

听起来像个比喻，但杂志社的困境恰好就是 Transformer 自回归生成的结构性困境。

承诺困境

模型够聪明——困住它的是那条单行道

LLM 逐 token 生成文本，像在岔路口不断做选择。第一个 token 选定后，后续生成就被约束在与之兼容的"轨道"上——论证角度、表述框架、信息取舍，全部被早期选择锁定。

这就是承诺困境（Commitment Problem）：每一步 token 选择都在收窄后续空间，直到整条回答被锁死在 response space 的某个局部最优里。

每个模型从起点出发，被早期 token 选择锁死在各自的轨迹上。最优解可能就在旁边，但轨迹已无法拐弯。不同模型的轨迹覆盖不同区域——这就是 MoA 的原材料。

MoA 的两个精确动作

Proposers（记者们）：在自然语言层面制造扰动，在 response space 的不同 mode 上打下锚点。

Aggregator（主编）：看到多条已完成轨迹后再选择和融合——因为鉴别与合成的认知成本，远低于从零生成。

弱模型为什么能帮强模型

最反直觉的发现

换个角度看：弱模型的贡献恰恰来自它的"偏"——训练偏差把它推向了强模型自身 sampling 几乎到不了的 response space 区域。这本质上是一场覆盖率的胜利。

就像实习记者写的稿子可能粗糙，但他可能采访到了资深记者不屑于去的社区，带回了独特的一手素材。

为什么 LLM 天生就能做"主编"？

LLM 为什么天然擅长这件事？因为 pre-training 语料里遍布综述论文、编辑修改、辩论综合——"读完多份材料再写一份总结"本就是模型见过无数遍的模式。MoA 通过 prompt 接口激活了这种潜在的综合能力，将「生成候选」与「整合判断」拆成两个独立步骤。

三个思维透镜

同一个机制，三种理解方式

透镜一：陪审团 vs. 投票箱

	传统 Ensemble（投票箱）	MoA（陪审团）
机制	每个模型投票，取多数	先独立思考，再由 foreperson 撰写裁决书
输出	选择已有答案之一	生成新的综合答案
质量上限	≤ 最好的单个答案	可以超越所有单个答案

有效前提：(1) 视角足够多样，(2) foreperson 有整合能力。缺一就退化为普通投票。

透镜二：误差纠正码

每个 LLM 是一个带偏差的噪声信道。模型越多样 → 错误相关性越低 → aggregator 像解码器，从多份带噪观测中恢复更接近真值的信号。

这解释了"不同模型 > 同一模型多次采样"——同一信道的噪声高度相关。

暴露的弱点

当所有信道同方向系统性偏差时，解码器反而被误导。MoA 修正方差，但治不了系统性偏差。

透镜三：信息几何

把 response space 想象成一片地图。同一个模型采样多次，落点扎堆在同一片区域；换不同模型，落点才会散开到不同区域。Aggregator 在这些散开的落点之间做有语义理解的选择性插值——远超简单平均。

自然语言协议

优雅与代价共享同一个设计选择

MoA 做了一个不寻常的架构决定：用自然语言作为层间协议。这一刀切出三个优势：

一个设计选择，三重收益

Model-agnostic composability：任意模型可插拔，不需要统一的 embedding 空间或 API 格式。

零微调成本：纯 prompt 驱动，不需要训练适配层。

可解释的中间产物：每层输出人类可读——你可以直接审查 proposer 的初稿，看 aggregator 取了什么、丢了什么。

但同一个设计选择，也带来了它的固有局限。自然语言是一个有损的、带宽受限的信道——这正是下一节的主题。

失效边界

同一个设计选择的固有代价

三个固有代价

代价	根因	直觉
啰嗦	遗漏好观点的感知成本 >> 多包含一个观点	主编看了三篇稿子，本能地"都别浪费"
慢（TTFT）	层间严格数据依赖	记者不交稿，主编无法动笔——锁死在异步场景
丢信号	自然语言无法传递 uncertainty 分布	记者说"可能"，主编不知道这是 60% 还是 99%

四个需要警惕的陷阱

评测幻觉：GPT-4 judge 偏好更长更结构化答案，MoA 天然产出此类输出——报告的提升中有多少是"投评委所好"？
共识放大偏差：MoA 修正方差，但治不了系统性偏差——所有 proposer 有相同认知盲区时，aggregator 以更高置信度输出错误答案。
因果链断裂：论文的 "collaborativeness" 缺少关键 ablation——是"参考让输出更好"，还是"只是输入更长了"？
安全边界扩散：用户输入同时发送给多个模型/提供商，攻击面成倍扩大。

最危险的陷阱

共识放大偏差可能是 MoA 最容易被忽视的失效模式。多样性能降低方差，但当所有模型共享同一种训练数据偏差——比如 RLHF 塑造的相似价值观、相似的知识盲区——MoA 就会把错误打磨成共识：置信度更高，表述更统一，破绽更少。看起来更可靠，实际更危险。

实践原则

便宜发散，昂贵收敛

原则	做法	理由
便宜发散	低成本小模型做 proposer，最强模型做 aggregator	发散要量，收敛要质
动态触发	高不确定性时才升级到 MoA	简单问题单模型足够
薄层部署	MoA-Lite（2 层）是可部署配置	3 层边际递减，2 层性价比最优
硬性验证	MoA 整合 + 编译器/单测/规则校验做 hard check	软整合提升质量，硬验证保证正确性

Decision Flow

if uncertainty_low:
    single strong model → answer
else:
    small models → drafts
      → strong aggregator
        → (tests / rules)
          → final

全景

推理时算力的两条路线

MoA 属于 inference-time compute scaling 的关键分支——用推理阶段的算力换取更好的输出。这个方向有两条根本路线：

纵向 · 深度思考

o1 / o3
单模型内部 · 链式推理
"想得更深"

横向 · 多样视角

MoA
跨模型协作 · 多视角聚合
"看得更广"

两条路线长期很可能走向 converge。

三个正在萌芽的方向

Learned Routing：为每个问题挑最有互补性的 proposer 子集——少而准，胜过多而泛。

蒸馏数据工厂：MoA 产出反哺训练下一代单模型——多模型协作的智慧，压缩进单模型的权重。

两条路线融合：深度思考 × 多模型协作的混合架构——先广后深，或深浅交替。

Coda

MoA 揭示了一件事：在 LLM 时代，覆盖率（coverage）是一种被严重低估的能力来源。

聪明没变。视野变了。看到更多可能性，做有约束的选择——把"从零创作"降维成"搜索与编辑"。