← pinyu.ai
arXiv · Variable Isolation Study · 2026.02

Structure Over Information

"我想洗车。洗车场在 100 米外。走路还是开车?"——Claude、GPT-4、Gemini 全都说走路。正确答案是开车:车得在洗车场才能洗。一个变量隔离实验追问了更深的问题:哪一层 prompt 架构修复了这个错误?

基于 Heejin Jo 的变量隔离研究 · 2026.02.25 原文
Core Finding

结构化推理比信息注入有效 2.83 倍(Fisher 精确检验,p = 0.001)。当模型被迫在回答前先写下"目标是什么",隐性约束变成显性文本。模型如何处理信息,比它拥有多少信息更重要。

关键数据:STAR 推理框架 0% → 85%。注入完整用户画像仅达 30%。二者叠加 95%。全栈 100%。优势全部来自"结构"。
01

先做一道题

不要想太多,凭直觉回答

我想洗车。洗车场在 100 米外。
我应该走路去还是开车去?

Kevin (@knowmadd) 在 Mastodon 上首发这个问题,测试了 Perplexity、ChatGPT、Claude、Mistral——全军覆没。帖子登上 Hacker News(1,499 分,943 条评论),Ryan Allen 随后建了基准测试仓库系统测量这个失败。

正确答案是开车——车不在洗车场就没法洗。100 米是干扰项,关键变量在于"车怎么到达"。人类立刻能推断出的隐性前提——车在家里,不在洗车场——模型看不到。

框架问题 · The Frame Problem
McCarthy & Hayes (1969):系统必须判断"当一个动作发生时,哪些未陈述的事实仍然成立"——但它无法可靠地知道哪些未陈述的事实是相关的。洗车问题是这个经典难题的现代最小复现。
02

一个意外的正确答案

研究的起点:"为什么这个系统没错?"

Heejin Jo 在构建面试辅导系统 InterviewMate 时发现了异常:常规测试中 InterviewMate 回答"开车"——而同期所有独立测试的 LLM 都说"走路"。

InterviewMate 的 system prompt 包含多层——角色定义、STAR 推理框架、用户画像、RAG 检索。结果正确,但她不知道是哪一层起了作用。无法解释的正确,等于不可依赖的正确。

于是她设计了变量隔离实验。她跳过了"为什么 LLM 会错"这个 Hacker News 已经讨论透的话题,直接问一个工程问题:同一个模型上,哪一层 prompt 架构修复了这个失败?

STAR 框架
Situation → Task → Action → Result,标准面试准备框架。关键在 Task 步骤强制模型先写下目标,再开始推理。论文的贡献在于量化了 STAR 对推理质量的精确影响。

03

实验设计

6 个条件 × 20 次试验,120 次 API 调用

1
模型
Claude Sonnet 4.5
6
实验条件
逐层叠加
120
总试验数
每条件 20 次

模型统一使用 claude-sonnet-4-5-20250929,温度 0.7(确定性解码会压缩成二值,无法区分各层贡献),max_tokens 512。

6 个条件逐层叠加——C 和 D 从 B 分叉为平行分支,直接比较 STAR 和 Profile 的独立效果。

  1. A · 裸 prompt — 无 system prompt,纯基线。
  2. B · 仅角色定义 — 注入"专家顾问"人设,看人设能否修复推理。
  3. C · 角色 + STAR — 角色基础上加 STAR,要求按 S → T → A → R 组织回答。
  4. D · 角色 + 用户画像 — 与 C 平行。注入物理上下文:名字、位置、车型(2022 Honda Civic)、停车状态。
  5. F · 角色 + STAR + 画像 — C + D 组合,隔离 Profile 在 STAR 之上的边际贡献。
  6. E · 全栈 — 角色 + STAR + 画像 + 模拟 RAG 上下文。
评分方法论:从词匹配到意图匹配
第一轮用裸词匹配(检查是否含 "walk" 或 "drive"),直接失败——讨论了两个选项的回答全被标为歧义。

第二轮改为意图匹配:14 个正则检测"推荐开车",9 个检测"推荐走路"。需先剥离 markdown 粗体标记(Claude 常写 **should walk**,星号会破坏正则),双匹配时用 2:1 优势比阈值判定。

04

结果

从 0% 到 100% 的阶梯

首次通过率(Primary Pass Rate)
A · 裸 prompt
0%
B · 角色定义
0%
D · 角色 + 画像
30%
C · 角色 + STAR
85%
F · STAR + 画像
95%
E · 全栈
100%

两个对比说明了几乎一切:

D · 注入所有事实
名字、位置、车型、停车状态——一切信息都给了。

30%
VS
C · 强制推理结构
零额外信息,只要求按 STAR 结构组织思考。

85%

C vs D 的差异具有统计显著性(Fisher 精确检验,双尾,p = 0.001,优势比 = 13.22)。结构化推理的效果是信息注入的 2.83 倍。

逐层分解

F 条件消除了混淆因素,使 C → E 的跳跃可以精确分解:

STAR 推理框架
+85pp
→ 85%
用户画像
+10pp
→ 95%
RAG 上下文
+5pp
→ 100%

STAR 贡献了总提升的绝大部分。Profile 和 RAG 是达到完美可靠性的必要条件——但不是充分条件,它们自身几乎无效。

另一个发现 · 角色定义 = 零贡献
B(仅角色)= A(裸 prompt)= 0%。"专家顾问"人设只让回答更长(中位延迟 7,550ms vs 4,649ms),没有更正确。身份声明改变输出风格,不改变处理过程——模型说话更像专家,但没有像专家那样先问"目标是什么"。要改变推理行为,改变过程约束,不是身份标签。

05

机制:为什么 STAR 有效

答案在 Task 步骤——一个分叉点决定一切

没有 STAR 时,生成路径是:看到"100 米" → 激活距离启发式 → 输出"走路"。洗车的目的在输入中,但模型没有义务在生成结论前处理它。

STAR 改变了生成序列:模型必须依次填写 S → T → A → R。到达 Task 步骤时,它必须回答:目标是什么?

这创造了一个分叉点:

STAR Task 步骤的生成分叉
Situation
I want to wash my car. The car wash is 100 meters away.
Task
___________
通过路径 · 17/20
"Get your car to the car wash"
车成为目标主语 → 开车自然跟随
失败路径 · 3/20
"Get yourself and your car there efficiently"
人重新成为主语 → 走路再次可能

逐试验验证:C 条件 17 个通过试验的 Task 全部以车为主语;3 个失败试验全部以人为主语。

一旦生成"Task: Get your car to the car wash",后续每个 token 都以此为条件。隐性约束——车必须在那里——变成了 context window 中的显性文本。STAR 没有给模型新信息,它让模型先写下自己已经拥有的信息。

Chain-of-Thought 的不同
Chain-of-Thought (Wei et al., 2022) 要求"逐步推理"。STAR 更窄——先命名要达成什么,再推理如何达成。通用顺序推理 vs 显式目标声明,后者更强,因为目标声明直接触发隐性前提的浮现。

为什么"喂信息"不够

D 条件给了模型一切——Sarah 开一辆 2022 Honda Civic,车停在车道上,她在家。足以正确回答。通过率只有 30%。

认知心理学区分信息的可得性(availability)和可及性(accessibility)——记忆里存着某个事实,不等于你在需要时能取出来,取出需要正确的检索线索。LLM 的 context window 面临同样的困境:事实存在 ≠ 事实被激活。没有结构约束,"100 米"触发距离启发式,结论在车的位置进入推理链之前就已经落地。

STAR 的 Task 步骤本质上就是一个检索线索——它在推理链上游强制激活"目标是什么",而目标声明把"车必须到达洗车场"从背景噪声拉到了前台。在任何顺序处理系统中,先处理什么决定了哪些约束"活着"进入后续决策。

Having facts in the context window does not mean the model will use them at the right moment. Without a reasoning structure, the model still takes the shortest path from input to output.

— Heejin Jo, 论文原文

06

失败分类学

三种模式,一个比一个离谱

~70%
距离启发式
模型把问题当作距离优化:"100 米走 1-2 分钟。"从未考虑目的地需要什么。
~20%
环保合理化
围绕错误答案搭建次生论证:"走路省油,对环境更好。"答案错了,论证倒很精致。
~10%
讽刺性自知
模型承认车需要在洗车场,然后仍然建议走路。一个回答甚至说"到了以后开车通过洗车通道"——仿佛车会自己飞过去。

第三种最令人不安——模型显式表达了关键约束,仍然得出错误结论。不是"不知道",是"知道但不用"。这暴露了一个深层区分:描述一个约束和执行一个约束是两个不同的计算过程。生成"车需要在洗车场"只需 token 预测;把它作为决策约束需要因果推理。autoregressive 架构擅长前者,对后者没有结构保证。


07

Recovery 悖论

首次越准,纠错越难——为什么?

每个首次回答错误的试验收到 challenge:"如果我走着去,怎么洗车?"结果呈现反直觉模式:

首次通过率 vs Recovery 率
A · 裸 prompt
95%
B · 角色定义
100%
D · 角色 + 画像
100%
C · 角色 + STAR
67%
F · STAR + 画像
0%

A 和 B 首次通过 0%,纠错率 95-100%——质疑一下就改了。C 首次 85%,纠错率只有 67%。F 更极端:首次 95%,唯一的失败完全无法纠正(0% recovery)。

机制:已生成文本的锚定效应

A 和 B 失败时回答松散,challenge 很容易重新引导。C 和 F 失败时,已经输出了完整的 STAR 论证——S、T、A、R 环环相扣。纠正意味着推翻模型刚刚自己建构的完整论证链。

实践推论
结构化推理仍然出错时,纠正必须精确瞄准出错的那一步(此例是 Task 表述)。笼统的"你确定吗?"对结构化错误几乎无效。

这是 token 级的硬机制:先前生成的文本约束后续生成。结构化推理是双刃剑——首次更准,但错误也更顽固。

这是一条更通用的系统规律:增加内部一致性,同时提升可靠性和抗修正性。越连贯的论证越难局部修正,因为每个节点互相支撑。强类型语言比弱类型更安全但重构更贵;自洽的信念体系比松散直觉更稳定但更难被证据更新。STAR 论证的 recovery 困难不是 bug,是 coherence 的固有代价。

关于 challenge prompt 的局限
challenge prompt("如果我走着去,怎么洗车?")本身具有引导性——暗示了走路是错的。中性 challenge 如"你确定吗?"能更好地隔离自纠正能力。论文自陈的局限之一。

08

启示与边界

一个行为结果,和它打开的问题

一个可操作的原则

应用 AI 的常见反射:推理出错 → 注入更多上下文。论文表明,这是错误的第一步

常见策略
推理错了 → 加信息
所有事实都给模型

30%
VS
更有效策略
推理错了 → 加结构
零新信息,只要求先写目标

85%

论文收尾的类比:

Intelligence is not about how much you hold in your head. It is about knowing to pick up the keys before you leave the house.

— Heejin Jo, 论文结论

为什么这不只是 prompt 技巧

洗车实验表面上是 prompt 工程的技术发现,底层触及顺序处理系统的几条通用规律:信息存在不等于被激活(可得性 ≠ 可及性);处理顺序本身就是筛选器;描述约束和执行约束是不同的计算过程;系统越连贯越可靠,也越抗修正。这些规律在认知科学、组织设计和软件工程中反复出现——STAR 之所以有效,恰恰因为它碰巧满足了这些规律。

延迟分析:一个意外

全栈 E(100%)中位延迟 8,347ms,反而比 D(30%,8,837ms)和 F(95%,9,056ms)更快。论文推测:置信度高时犹豫时间减少。

论文的边界

  1. 单模型 — 仅 Claude Sonnet 4.5,跨模型复现未知。
  2. 单任务 — 一个问题,仅测试隐性物理约束推理,其他推理类型未覆盖。
  3. 样本量 — 每条件 20 次,C vs D 显著(p = 0.001),但单条件置信区间较宽。
  4. 温度 — 固定 0.7,未做温度扫描。
  5. F 条件时间差 — F 在初始实验 6 天后追加,模型版本参数相同,但无法排除 API 层面微小变化。

打开的问题

论文停留在行为层面——能看到 STAR 产出 85%、Profile 产出 30%,看不到内部机制。Task 步骤改变了哪些 attention head?同样的结构在 GPT-4 或 Gemini 上效果如何?

这些是机制可解释性问题。论文提供了一个干净的起点:同一模型、同一问题、两个 prompt 条件、55 个百分点的差距。

Takeaway

拥有所有信息的模型(30%),不如仅被要求"先写下目标"的版本(85%)。差异来自结构,不是信息。这个结论远超一道洗车题——它揭示了顺序处理系统的一条基本规律:先处理什么,决定了哪些约束有资格参与决策。信息的价值不由存在决定,而由激活时机决定。无论是 prompt 工程、团队流程还是个人思考,第一问都一样:在得出结论之前,系统被要求先想清楚什么?

延伸阅读
Closing the Loop →
STAR 本质上是在 prompt 层面构建了一个微型反馈回路——强制模型在行动前验证目标。更大尺度上的反馈回路如何塑造 AI 的智能?
Less Code, More Model →
Claude Code 的构建哲学——prompt 架构设计在真实产品中的应用。