01 论文概览

一句话定位:AutoTTS 提出用 LLM Agent 自动发现 test-time scaling 策略,代替人类手写分支/剪枝/停止策略。核心创新不是发现了一个更好的策略,而是设计了一个发现策略的环境——研究者从"设计策略"转向"设计环境"。

核心贡献速览:

🎮
环境驱动范式
从手写 TTS 策略转向构建发现环境,由 LLM Agent 自动搜索策略。人类定义 state/action/feedback/objective,Agent 迭代优化。
♻️
离线 Replay 环境
预先收集所有推理轨迹和 probe 信号,候选策略评估无需重复调用 LLM,使 $39.9 的搜索成本成为可能。
📏
Beta 参数化
每个控制器只暴露一个标量参数 β,自动衍生所有内部超参,防止对搜索集的过拟合。
🔍
执行轨迹反馈
不仅给 Agent 标量 acc/cost 信号,还提供完整的决策执行轨迹,帮助诊断失败模式。

Title 的双关: "LLMs Improving LLMs" — 用 LLM (Claude Code) 来发现更好的 LLM test-time 推理策略。这不仅仅是一篇 TTS 论文,也是一篇"LLM-driven algorithm discovery"的方法论论文。

02 研究脉络

问题背景: Test-time scaling 已被证明有效,但现有 TTS 策略都是手写的——研究人员凭直觉假设何时分支、剪枝、停止、探测,然后手动调阈值。

关键洞察:作者将多种现有 TTS 算法投影到一个 width-depth 控制空间,发现它们都是这个空间里的特殊路径:

  • SC@64 [Wang 2022]:固定全预算,无自适应
  • ASC [Aggarwal 2023]:先在宽度上采样直到置信度达标
  • ESC [Li 2024]:chunk-based 并行+滑动窗口检测收敛
  • ST-BoN [Wang 2025]:先宽后剪到一条再深挖
  • Parallel-Probe [Zheng 2026]:从宽开始逐步剪枝
核心差距: 这些方法都是手工设计的特例——研究者设计具体的分支/剪枝/停止规则。AutoTTS 提出不应该设计具体策略,而应该设计策略可以被发现的"环境"。这本质上是从"设计算法"到"设计 meta-algorithm"的范式转换。

相关流派:

  • AutoML → Agentic Discovery: 从传统 AutoML 到 FunSearch [Romero 2024]、EoH [Liu 2024]、Meta-Harness [Lee 2026] — 用 LLM 迭代提出和改进代码算法
  • 高效并行推理: Dynamic Self-Consistency、Self-Truncation、DeepPrune、Slim-SC — 在生成过程中干预,丢弃无望分支
  • 高效顺序推理: 基于置信度/熵/内部状态的 early-exit 策略

AutoTTS 的独特位置: 是第一个将 TTS 策略设计形式化为控制空间搜索问题的工作。关键差异是把离线 replay MDP 引入,让搜索成本可控。

03 核心方法:AutoTTS 框架总览

Step 1
构建环境
Step 2
Agent 提出控制器
Step 3
离线 Replay 评估
Step 4
反馈 → 历史
Next Round
Agent 改进...

形式化:width-depth TTS 作为控制器综合

将 TTS 建模为马尔可夫决策过程:

  • 状态 st = (问题, 分支数, 活跃分支集, 各分支深度, 已生成内容, 已揭示的 probe 信号)
  • 动作 A(st) = {BRANCH, CONTINUE(i), PROBE(i), PRUNE(i), ANSWER}
  • 目标:最大化 E[ 1{ŷ=y} − γ·C(τ) ] — 准确率和计算成本的权衡

控制器 π(·|s, β) 是一个代码定义的策略,加上一个超参数 β 控制计算预算。

搜索在代码空间中进行:Claude Code 作为 explorer LLM,每轮读取历史记录后直接编辑控制器代码。

04 离线 Replay 环境

问题: 在线评估候选控制器需要反复调用 LLM 生成推理轨迹,在搜索阶段成本不可接受。

方案: 将所有 LLM 调用移到发现过程之前:

  1. 离线数据收集: 对每个问题,预收集 N=128 条独立推理轨迹,每条按固定长度 Δ=500 tokens 分段
  2. Replay 评估: 每个候选控制器在预收集数据上"回放"决策——BRANCH 从预存轨迹中读取,PROBE 直接检索预存 probe 信号,无需任何 LLM 调用
  3. 确定性 + 廉价: 一次 β 扫描只需在预存矩阵上顺序执行,多次评估不需要额外 LLM token
设计哲学: 这是"一次性准备,无限次评估"的模式。预收集的 128 条轨迹可以支持无数种不同控制器的评估。整个搜索流程只消耗 1 次数据收集的 LLM 调用 + 5 轮 agent 调用的 token 成本。

05 Beta 参数化

问题: Agent 倾向提出包含大量超参数的控制器(最多 10 个),5 轮发现根本不足以搜索高维空间,导致 Agent 收敛到极端解——比如过于激进的剪枝阈值,在搜索集上省了很多 token 但完全不泛化。

方案: 要求每个控制器只暴露 一个标量参数 β,内部所有超参由 β 通过单调函数映射得到。β 越大 → 计算预算越大。

效果: 搜索空间从 10 维降到 1 维,一个 β 扫描就能遍历整个策略族。消融实验显示,去掉 beta 参数化后,控制器 token 成本从 575K 暴跌到 93K(对搜索集过拟合),而 held-out 准确率也从 53.1 降到 49.0。

06 执行轨迹反馈

问题: 只有标量 acc/token 反馈时,Agent 无法诊断控制器为什么失败——是剪枝太早?分支不够?还是 stop 条件太严?

方案: 每轮评估时,不仅记录 accuracy 和 cost,还记录完整的决策轨迹:

  • 何时分支、何时剪枝、何时停止
  • 每个分支的深度和最终内容
  • EMA 置信度随时间的变化曲线

这些轨迹信息以文本形式存入历史,供下一轮的 Claude Code 分析失败模式。

🔬 消融验证
直接证据 去掉执行轨迹反馈后,控制器性能大幅下降,token 消耗反而增加。说明 标量反馈不足,细粒度决策轨迹对有效发现至关重要。

07 主实验结果

实验设置: 搜索集 = AIME24,Qwen3 四个模型 (0.6B/1.7B/4B/8B)。5 轮发现。最终控制器在 held-out 的 AIME25 和 HMMT25 上评估。对比 SC@64、ASC、ESC、Parallel-Probe。

Base Model Method Type AIME25
Acc. ↑
AIME25
Tokens ↓
HMMT25
Acc. ↑
HMMT25
Tokens ↓
Qwen3-1.7B SC@64 Handcrafted 44.7 1168.3K 60.1 1128.2K
ASC Handcrafted 45.7 388.9K 60.2 333.1K
ESC Handcrafted 46.5 990.2K 60.1 891.8K
Parallel-Probe Handcrafted 44.1 872.3K 60.4 839.2K
AutoTTS (β=0.5) Discovered 45.8 365.0K 59.8 348.7K
Qwen3-4B SC@64 Handcrafted 80.4 910.8K 76.7 1124.4K
ASC Handcrafted 80.4 226.0K 76.7 406.2K
ESC Handcrafted 80.4 459.4K 76.7 793.1K
Parallel-Probe Handcrafted 81.5 730.8K 76.9 846.7K
AutoTTS (β=1.0) Discovered 85.8 467.4K 75.8 361.2K
关键发现: 在 Qwen3-4B + AIME25 上,AutoTTS 以 467K token 达到 85.8% 准确率,远超 SC@64 的 80.4%/910K。注意 SC@64 用 2× 的 token 还低了 5 个点——AutoTTS 找到的不是简单的"省 token",而是更好的选择性分配策略。

缩放曲线优势

论文给出每个模型×数据集的 acc-token 曲线(图 3)。在所有 four settings 上,AutoTTS 的 Pareto 前沿完全包络了所有手工基线——即对于任意 token 预算,AutoTTS 的准确率不低于(通常高于)手工策略。

08 缩放曲线分析

图 3 展示了 acc-token 的完整 scaling curves。横轴 log scale,纵轴 accuracy。四条线对应四种控制器在不同 budget 下的表现。

核心观察:

  • 在小模型 (0.6B) 上,AutoTTS 曲线与手工基线差距不大 —— 小模型的推理轨迹本身噪声大,策略影响有限
  • 在 1.7B-8B 上,AutoTTS 曲线 在上方走:同 token 预算时准确率更高,同准确率时 token 更少
  • AutoTTS 不是在固定准确率上省钱,而是同时推高了最高可达准确率——说明其分支策略找到了手工设计没有想到的计算分配方式

09 泛化能力验证

场景 Method Type Acc. ↑ Tokens ↓
DeepSeek-R1-Distill
-Llama-8B × HMMT25
SC@64 Handcrafted 26.7 985.7K
ASC Handcrafted 26.5 582.7K
AutoTTS (β=1) Discovered 27.2 533.9K
AutoTTS (β=0.5) Discovered 26.3 279.0K
Qwen3-1.7B × GPQA-Diamond SC@64 Handcrafted 41.3 510.0K
ASC Handcrafted 41.0 186.3K
AutoTTS (β=1) Discovered 41.6 270.1K
AutoTTS (β=0.5) Discovered 41.6 151.0K
🟢 跨模型家族泛化
DeepSeek-R1-Distill-Llama-8B 是基于 Llama 架构的蒸馏模型,与搜索时用的 Qwen3 完全不同。AutoTTS 不仅保持竞争力,而且在 β=1 时是所有方法中准确率最高(27.2%),token 也更少。
🟢 跨任务泛化
GPQA-Diamond 不是数学推理,而是领域知识多选题。AutoTTS 在 β=0.5 时以 151K token 达到 41.6%,比 SC@64 的 510K/41.3% token 减少 70% 的同时准确率还略高。

10 消融实验

Method AIME24 Acc AIME24 Tokens Held-out Acc Held-out Tokens Search Cost $
Ours (完整) 64.0 703.1K 53.1 575.5K 39.9
w/o Beta Param. 60.7 81.2K 49.0 93.3K 46.4
w/o Exec. Traces 56.7 823.7K 51.6 824.3K 30.9

⚠️ 无 Beta 参数化

控制器过度挖掘搜索集(token 从 575K 暴减到 93K),但泛化特征差——held-out 准确率从 53.1 降到 49.0,搜索成本反而更高(46.4 → 更多轮调参)。

⚠️ 无执行轨迹

准确率最低(56.7/51.6),token 消耗最高(824K)。Agent 只能看到标量 acc/cost,无法诊断失败模式,提出更差且更贵的策略。

11 发现成本分析

$39.9
TTS 策略发现总成本
≈ 2 杯咖啡的价格
160 min
5 轮发现总耗时
所有控制器评估通过离线 replay 完成,无需额外 LLM 调用

成本构成: 主要来自 Claude Code 在 5 轮循环中的 token 消耗(提出/编辑代码 + 读取历史记录)。控制器评估本身是零成本的——因为所有推理轨迹已经预存在 replay 矩阵里。

对比意义: 手工设计一个 TTS 策略需要研究人员数周甚至数月的猜想-实现-测试周期。AutoTTS 用 $39.9 和 160 分钟自动发现了在多个维度上超越手工设计的策略。即使这个发现没有突破性改进(4B 模型上 ~5% 绝对提升),其可扩展性和可复用性很强——同一个环境框架可以用于搜索不同模型、不同任务的最优 TTS 策略。

12 发现策略解析

论文附录 D 给出了 AutoTTS 发现的控制器代码。它包含四个非直觉的机制:

  • 🧠 趋势停止 (Trend-based Stopping via EMA Momentum)
    不是简单看当前置信度是否超过阈值,而是维护置信度的 EMA 及其动量(delta)。只有当 (a) 置信度高于门槛 (b) EMA 动量非负(即置信度还在上升或至少不下降)时才停止。这防止了在震荡阶段的误停。
  • 🔗 耦合的宽度-深度控制
    宽度扩展和深度延伸共享同一个置信度信号——EMA 趋势弱时扩宽(分支更多路径),趋势强时加深(深入已有路径)。这不同于手工设计中将宽度和深度作为独立策略的做法。
  • 🎯 对齐感知深度分配
    不是所有分支都被均等对待——系统追踪每个分支的最新答案与当前"池子赢家"是否一致。不一致的分支会被优先 probe 和加速完成,因为它们可能提供不同的、有价值的信号。
  • 🛡️ 保守分支放弃
    分支不是被"剪枝"(prune,完全丢弃),而是被"放弃"(abandon)——放弃的分支不再拓宽但已有的内容仍保留参与最终投票。这保留了可能的信息,比硬剪枝更鲁棒。
🔵 非直觉联合设计
基于证据的推断 这些机制的联合设计复杂度已经超出了人工直觉容易达到的水平。特别值得一提的是"放弃而非剪枝"和"EMA 动量停止"都是对常见 TTS 直觉的微妙修正——人不容易想到但实验验证有效的变体。

13 批判性分析

🔴 搜索空间有限

论文只探索了 width-depth 空间。很多 TTS 方法(tree search、verifier-guided refinement)涉及更丰富的结构。Beta 参数化虽然防止了过拟合,但也限制了策略的复杂度上限(所有超参是 β 的单调函数)。

🔴 评估指标风险

所有实验都在数学推理 benchmark 上(AIME24/25, HMMT25)。虽然 GPQA 泛化测试显示跨任务能力,但数学推理的 probe 信号(中途答案)质量天然高于开放域任务。在更长文本、更开放的任务中,intermediate probe 未必有意义。

⚠️ 发现过程的泛化边界

搜索集 AIME24 + Qwen3 模型族。虽然跨到 Llama/DeepSeek 有迁移,但如果目标模型的推理模式与搜索集差异太大(如长链推理 vs 分步验证),最优策略可能不同。AutoTTS 框架本身可以重新跑,但"发现一次用所有"的假设需要检验。

⚠️ 未探索的搜索策略

5 轮发现 + Claude Code 是固定配置。论文没有讨论不同搜索策略(更多轮数、不同 agent 模型、不同的历史聚合方式)对发现效果的影响。5 轮足够吗?更多轮会过拟合还是更好?

📋 小模型效果有限

在 Qwen3-0.6B 上,AutoTTS 与手工基线差距很小。小模型的推理轨迹本身质量有限,任何 TTS 策略都难以大幅提升。暗示 AutoTTS 的价值随模型能力增长而增长。

📋 Probes 的定义

Probe 信号的可靠性假设是另一个未充分讨论的方面——如果 probe 信号(中间答案)本身噪声大或与最终答案不相关,整个策略框架的基础会受到挑战。

14 启发与意义

对 TTS 研究者的启示

  • 范式转换: 论文最核心的贡献不是发现了某个 TTS 策略更好,而是论证了"设计环境比设计策略更值得投入"。这是一种 meta-science 的视角——让 AI 自己去做算法发现
  • 可复制性: $39.9 的成本意味着任何实验室(甚至个人)都可以复制或扩展这个流程。只依赖 LLM API 调用,不需要大量 GPU
  • 离线 Replay 是 enabler: 这是让算法发现可负担的关键思路。预收集一次数据,反复评估不同策略

对 Auto-Research / Agentic Discovery 的启示

  • 这篇论文和 Meta-Harness、FunSearch 等构成了一个清晰的趋势:LLM Agent 正在从"帮我写代码"演化到"帮我做算法发现"
  • 关键设计模式:offline replay + 细粒度反馈 + 搜索空间约束——这三者的组合让 agentic discovery 从昂贵玩具变成实用工具
  • 对 Hermes 这类 Agent 框架的启发:如果你的 agent 也能访问这种"离线评估环境",它同样可以在许多 ML 系统优化任务中做自动发现(调参、策略搜索、pipeline 优化)

延伸阅读

  • 前置必读: Meta-Harness [Lee 2026] — 同一组理念(agentic discovery with execution traces)应用于模型 harness 优化
  • 直接对比: FunSearch [Romero 2024] — 用 LLM 在函数空间搜索数学算法,首次展现 agentic discovery 的可行性
  • TTS 基线: Parallel-Probe [Zheng 2026] — AutoTTS 的数据收集和 baseline 来源
  • Scaling laws: Snell 2024 "Scaling LLM Test-Time Compute Optimally" — TTS 的理论基础
一句话总结: AutoTTS 不只是一个更好的 TTS 策略发现器,它是一个元范式的证明——在正确设计的环境下,LLM Agent 可以自动发现超越人类直觉的算法策略,且成本低到可以被视为常规实验流程的一部分。