01 论文概览
核心贡献速览:
Title 的双关: "LLMs Improving LLMs" — 用 LLM (Claude Code) 来发现更好的 LLM test-time 推理策略。这不仅仅是一篇 TTS 论文,也是一篇"LLM-driven algorithm discovery"的方法论论文。
02 研究脉络
问题背景: Test-time scaling 已被证明有效,但现有 TTS 策略都是手写的——研究人员凭直觉假设何时分支、剪枝、停止、探测,然后手动调阈值。
关键洞察:作者将多种现有 TTS 算法投影到一个 width-depth 控制空间,发现它们都是这个空间里的特殊路径:
- SC@64 [Wang 2022]:固定全预算,无自适应
- ASC [Aggarwal 2023]:先在宽度上采样直到置信度达标
- ESC [Li 2024]:chunk-based 并行+滑动窗口检测收敛
- ST-BoN [Wang 2025]:先宽后剪到一条再深挖
- Parallel-Probe [Zheng 2026]:从宽开始逐步剪枝
相关流派:
- AutoML → Agentic Discovery: 从传统 AutoML 到 FunSearch [Romero 2024]、EoH [Liu 2024]、Meta-Harness [Lee 2026] — 用 LLM 迭代提出和改进代码算法
- 高效并行推理: Dynamic Self-Consistency、Self-Truncation、DeepPrune、Slim-SC — 在生成过程中干预,丢弃无望分支
- 高效顺序推理: 基于置信度/熵/内部状态的 early-exit 策略
AutoTTS 的独特位置: 是第一个将 TTS 策略设计形式化为控制空间搜索问题的工作。关键差异是把离线 replay MDP 引入,让搜索成本可控。
03 核心方法:AutoTTS 框架总览
形式化:width-depth TTS 作为控制器综合
将 TTS 建模为马尔可夫决策过程:
- 状态 st = (问题, 分支数, 活跃分支集, 各分支深度, 已生成内容, 已揭示的 probe 信号)
- 动作 A(st) = {BRANCH, CONTINUE(i), PROBE(i), PRUNE(i), ANSWER}
- 目标:最大化 E[ 1{ŷ=y} − γ·C(τ) ] — 准确率和计算成本的权衡
控制器 π(·|s, β) 是一个代码定义的策略,加上一个超参数 β 控制计算预算。
搜索在代码空间中进行:Claude Code 作为 explorer LLM,每轮读取历史记录后直接编辑控制器代码。
04 离线 Replay 环境
问题: 在线评估候选控制器需要反复调用 LLM 生成推理轨迹,在搜索阶段成本不可接受。
方案: 将所有 LLM 调用移到发现过程之前:
- 离线数据收集: 对每个问题,预收集 N=128 条独立推理轨迹,每条按固定长度 Δ=500 tokens 分段
- Replay 评估: 每个候选控制器在预收集数据上"回放"决策——BRANCH 从预存轨迹中读取,PROBE 直接检索预存 probe 信号,无需任何 LLM 调用
- 确定性 + 廉价: 一次 β 扫描只需在预存矩阵上顺序执行,多次评估不需要额外 LLM token
05 Beta 参数化
问题: Agent 倾向提出包含大量超参数的控制器(最多 10 个),5 轮发现根本不足以搜索高维空间,导致 Agent 收敛到极端解——比如过于激进的剪枝阈值,在搜索集上省了很多 token 但完全不泛化。
方案: 要求每个控制器只暴露 一个标量参数 β,内部所有超参由 β 通过单调函数映射得到。β 越大 → 计算预算越大。
06 执行轨迹反馈
问题: 只有标量 acc/token 反馈时,Agent 无法诊断控制器为什么失败——是剪枝太早?分支不够?还是 stop 条件太严?
方案: 每轮评估时,不仅记录 accuracy 和 cost,还记录完整的决策轨迹:
- 何时分支、何时剪枝、何时停止
- 每个分支的深度和最终内容
- EMA 置信度随时间的变化曲线
这些轨迹信息以文本形式存入历史,供下一轮的 Claude Code 分析失败模式。
07 主实验结果
实验设置: 搜索集 = AIME24,Qwen3 四个模型 (0.6B/1.7B/4B/8B)。5 轮发现。最终控制器在 held-out 的 AIME25 和 HMMT25 上评估。对比 SC@64、ASC、ESC、Parallel-Probe。
| Base Model | Method | Type | AIME25 Acc. ↑ |
AIME25 Tokens ↓ |
HMMT25 Acc. ↑ |
HMMT25 Tokens ↓ |
|---|---|---|---|---|---|---|
| Qwen3-1.7B | SC@64 | Handcrafted | 44.7 | 1168.3K | 60.1 | 1128.2K |
| ASC | Handcrafted | 45.7 | 388.9K | 60.2 | 333.1K | |
| ESC | Handcrafted | 46.5 | 990.2K | 60.1 | 891.8K | |
| Parallel-Probe | Handcrafted | 44.1 | 872.3K | 60.4 | 839.2K | |
| AutoTTS (β=0.5) | Discovered | 45.8 | 365.0K | 59.8 | 348.7K | |
| Qwen3-4B | SC@64 | Handcrafted | 80.4 | 910.8K | 76.7 | 1124.4K |
| ASC | Handcrafted | 80.4 | 226.0K | 76.7 | 406.2K | |
| ESC | Handcrafted | 80.4 | 459.4K | 76.7 | 793.1K | |
| Parallel-Probe | Handcrafted | 81.5 | 730.8K | 76.9 | 846.7K | |
| AutoTTS (β=1.0) | Discovered | 85.8 | 467.4K | 75.8 | 361.2K |
缩放曲线优势
论文给出每个模型×数据集的 acc-token 曲线(图 3)。在所有 four settings 上,AutoTTS 的 Pareto 前沿完全包络了所有手工基线——即对于任意 token 预算,AutoTTS 的准确率不低于(通常高于)手工策略。
08 缩放曲线分析
图 3 展示了 acc-token 的完整 scaling curves。横轴 log scale,纵轴 accuracy。四条线对应四种控制器在不同 budget 下的表现。
核心观察:
- 在小模型 (0.6B) 上,AutoTTS 曲线与手工基线差距不大 —— 小模型的推理轨迹本身噪声大,策略影响有限
- 在 1.7B-8B 上,AutoTTS 曲线 在上方走:同 token 预算时准确率更高,同准确率时 token 更少
- AutoTTS 不是在固定准确率上省钱,而是同时推高了最高可达准确率——说明其分支策略找到了手工设计没有想到的计算分配方式
09 泛化能力验证
| 场景 | Method | Type | Acc. ↑ | Tokens ↓ |
|---|---|---|---|---|
| DeepSeek-R1-Distill -Llama-8B × HMMT25 |
SC@64 | Handcrafted | 26.7 | 985.7K |
| ASC | Handcrafted | 26.5 | 582.7K | |
| AutoTTS (β=1) | Discovered | 27.2 | 533.9K | |
| AutoTTS (β=0.5) | Discovered | 26.3 | 279.0K | |
| Qwen3-1.7B × GPQA-Diamond | SC@64 | Handcrafted | 41.3 | 510.0K |
| ASC | Handcrafted | 41.0 | 186.3K | |
| AutoTTS (β=1) | Discovered | 41.6 | 270.1K | |
| AutoTTS (β=0.5) | Discovered | 41.6 | 151.0K |
10 消融实验
| Method | AIME24 Acc | AIME24 Tokens | Held-out Acc | Held-out Tokens | Search Cost $ |
|---|---|---|---|---|---|
| Ours (完整) | 64.0 | 703.1K | 53.1 | 575.5K | 39.9 |
| w/o Beta Param. | 60.7 | 81.2K | 49.0 | 93.3K | 46.4 |
| w/o Exec. Traces | 56.7 | 823.7K | 51.6 | 824.3K | 30.9 |
⚠️ 无 Beta 参数化
控制器过度挖掘搜索集(token 从 575K 暴减到 93K),但泛化特征差——held-out 准确率从 53.1 降到 49.0,搜索成本反而更高(46.4 → 更多轮调参)。
⚠️ 无执行轨迹
准确率最低(56.7/51.6),token 消耗最高(824K)。Agent 只能看到标量 acc/cost,无法诊断失败模式,提出更差且更贵的策略。
11 发现成本分析
成本构成: 主要来自 Claude Code 在 5 轮循环中的 token 消耗(提出/编辑代码 + 读取历史记录)。控制器评估本身是零成本的——因为所有推理轨迹已经预存在 replay 矩阵里。
12 发现策略解析
论文附录 D 给出了 AutoTTS 发现的控制器代码。它包含四个非直觉的机制:
-
🧠 趋势停止 (Trend-based Stopping via EMA Momentum)
不是简单看当前置信度是否超过阈值,而是维护置信度的 EMA 及其动量(delta)。只有当 (a) 置信度高于门槛 且 (b) EMA 动量非负(即置信度还在上升或至少不下降)时才停止。这防止了在震荡阶段的误停。
-
🔗 耦合的宽度-深度控制
宽度扩展和深度延伸共享同一个置信度信号——EMA 趋势弱时扩宽(分支更多路径),趋势强时加深(深入已有路径)。这不同于手工设计中将宽度和深度作为独立策略的做法。
-
🎯 对齐感知深度分配
不是所有分支都被均等对待——系统追踪每个分支的最新答案与当前"池子赢家"是否一致。不一致的分支会被优先 probe 和加速完成,因为它们可能提供不同的、有价值的信号。
-
🛡️ 保守分支放弃
分支不是被"剪枝"(prune,完全丢弃),而是被"放弃"(abandon)——放弃的分支不再拓宽但已有的内容仍保留参与最终投票。这保留了可能的信息,比硬剪枝更鲁棒。
13 批判性分析
🔴 搜索空间有限
论文只探索了 width-depth 空间。很多 TTS 方法(tree search、verifier-guided refinement)涉及更丰富的结构。Beta 参数化虽然防止了过拟合,但也限制了策略的复杂度上限(所有超参是 β 的单调函数)。
🔴 评估指标风险
所有实验都在数学推理 benchmark 上(AIME24/25, HMMT25)。虽然 GPQA 泛化测试显示跨任务能力,但数学推理的 probe 信号(中途答案)质量天然高于开放域任务。在更长文本、更开放的任务中,intermediate probe 未必有意义。
⚠️ 发现过程的泛化边界
搜索集 AIME24 + Qwen3 模型族。虽然跨到 Llama/DeepSeek 有迁移,但如果目标模型的推理模式与搜索集差异太大(如长链推理 vs 分步验证),最优策略可能不同。AutoTTS 框架本身可以重新跑,但"发现一次用所有"的假设需要检验。
⚠️ 未探索的搜索策略
5 轮发现 + Claude Code 是固定配置。论文没有讨论不同搜索策略(更多轮数、不同 agent 模型、不同的历史聚合方式)对发现效果的影响。5 轮足够吗?更多轮会过拟合还是更好?
📋 小模型效果有限
在 Qwen3-0.6B 上,AutoTTS 与手工基线差距很小。小模型的推理轨迹本身质量有限,任何 TTS 策略都难以大幅提升。暗示 AutoTTS 的价值随模型能力增长而增长。
📋 Probes 的定义
Probe 信号的可靠性假设是另一个未充分讨论的方面——如果 probe 信号(中间答案)本身噪声大或与最终答案不相关,整个策略框架的基础会受到挑战。
14 启发与意义
对 TTS 研究者的启示
- 范式转换: 论文最核心的贡献不是发现了某个 TTS 策略更好,而是论证了"设计环境比设计策略更值得投入"。这是一种 meta-science 的视角——让 AI 自己去做算法发现
- 可复制性: $39.9 的成本意味着任何实验室(甚至个人)都可以复制或扩展这个流程。只依赖 LLM API 调用,不需要大量 GPU
- 离线 Replay 是 enabler: 这是让算法发现可负担的关键思路。预收集一次数据,反复评估不同策略
对 Auto-Research / Agentic Discovery 的启示
- 这篇论文和 Meta-Harness、FunSearch 等构成了一个清晰的趋势:LLM Agent 正在从"帮我写代码"演化到"帮我做算法发现"
- 关键设计模式:offline replay + 细粒度反馈 + 搜索空间约束——这三者的组合让 agentic discovery 从昂贵玩具变成实用工具
- 对 Hermes 这类 Agent 框架的启发:如果你的 agent 也能访问这种"离线评估环境",它同样可以在许多 ML 系统优化任务中做自动发现(调参、策略搜索、pipeline 优化)
延伸阅读
- 前置必读: Meta-Harness [Lee 2026] — 同一组理念(agentic discovery with execution traces)应用于模型 harness 优化
- 直接对比: FunSearch [Romero 2024] — 用 LLM 在函数空间搜索数学算法,首次展现 agentic discovery 的可行性
- TTS 基线: Parallel-Probe [Zheng 2026] — AutoTTS 的数据收集和 baseline 来源
- Scaling laws: Snell 2024 "Scaling LLM Test-Time Compute Optimally" — TTS 的理论基础