AutoTTS: LLMs Improving LLMs — Agentic Discovery for Test-Time Scaling

01 论文概览

一句话定位：AutoTTS 提出用 LLM Agent 自动发现 test-time scaling 策略，代替人类手写分支/剪枝/停止策略。核心创新不是发现了一个更好的策略，而是设计了一个发现策略的环境——研究者从"设计策略"转向"设计环境"。

核心贡献速览：

🎮

环境驱动范式

从手写 TTS 策略转向构建发现环境，由 LLM Agent 自动搜索策略。人类定义 state/action/feedback/objective，Agent 迭代优化。

♻️

离线 Replay 环境

预先收集所有推理轨迹和 probe 信号，候选策略评估无需重复调用 LLM，使 $39.9 的搜索成本成为可能。

📏

Beta 参数化

每个控制器只暴露一个标量参数 β，自动衍生所有内部超参，防止对搜索集的过拟合。

🔍

执行轨迹反馈

不仅给 Agent 标量 acc/cost 信号，还提供完整的决策执行轨迹，帮助诊断失败模式。

Title 的双关： "LLMs Improving LLMs" — 用 LLM (Claude Code) 来发现更好的 LLM test-time 推理策略。这不仅仅是一篇 TTS 论文，也是一篇"LLM-driven algorithm discovery"的方法论论文。

02 研究脉络

问题背景： Test-time scaling 已被证明有效，但现有 TTS 策略都是手写的——研究人员凭直觉假设何时分支、剪枝、停止、探测，然后手动调阈值。

关键洞察：作者将多种现有 TTS 算法投影到一个 width-depth 控制空间，发现它们都是这个空间里的特殊路径：

SC@64 [Wang 2022]：固定全预算，无自适应
ASC [Aggarwal 2023]：先在宽度上采样直到置信度达标
ESC [Li 2024]：chunk-based 并行+滑动窗口检测收敛
ST-BoN [Wang 2025]：先宽后剪到一条再深挖
Parallel-Probe [Zheng 2026]：从宽开始逐步剪枝

核心差距： 这些方法都是手工设计的特例——研究者设计具体的分支/剪枝/停止规则。AutoTTS 提出不应该设计具体策略，而应该设计策略可以被发现的"环境"。这本质上是从"设计算法"到"设计 meta-algorithm"的范式转换。

相关流派：

AutoML → Agentic Discovery： 从传统 AutoML 到 FunSearch [Romero 2024]、EoH [Liu 2024]、Meta-Harness [Lee 2026] — 用 LLM 迭代提出和改进代码算法
高效并行推理： Dynamic Self-Consistency、Self-Truncation、DeepPrune、Slim-SC — 在生成过程中干预，丢弃无望分支
高效顺序推理： 基于置信度/熵/内部状态的 early-exit 策略

AutoTTS 的独特位置： 是第一个将 TTS 策略设计形式化为控制空间搜索问题的工作。关键差异是把离线 replay MDP 引入，让搜索成本可控。

03 核心方法：AutoTTS 框架总览

Step 1

构建环境

→

Step 2

Agent 提出控制器

→

Step 3

离线 Replay 评估

→

Step 4

反馈 → 历史

→

Next Round

Agent 改进...

形式化：width-depth TTS 作为控制器综合

将 TTS 建模为马尔可夫决策过程：

状态 s_t = (问题, 分支数, 活跃分支集, 各分支深度, 已生成内容, 已揭示的 probe 信号)
动作 A(s_t) = {BRANCH, CONTINUE(i), PROBE(i), PRUNE(i), ANSWER}
目标：最大化 E[ 1{ŷ=y} − γ·C(τ) ] — 准确率和计算成本的权衡

控制器 π(·|s, β) 是一个代码定义的策略，加上一个超参数 β 控制计算预算。

搜索在代码空间中进行：Claude Code 作为 explorer LLM，每轮读取历史记录后直接编辑控制器代码。

04 离线 Replay 环境

问题： 在线评估候选控制器需要反复调用 LLM 生成推理轨迹，在搜索阶段成本不可接受。

方案： 将所有 LLM 调用移到发现过程之前：

离线数据收集： 对每个问题，预收集 N=128 条独立推理轨迹，每条按固定长度 Δ=500 tokens 分段
Replay 评估： 每个候选控制器在预收集数据上"回放"决策——BRANCH 从预存轨迹中读取，PROBE 直接检索预存 probe 信号，无需任何 LLM 调用
确定性 + 廉价： 一次 β 扫描只需在预存矩阵上顺序执行，多次评估不需要额外 LLM token

设计哲学： 这是"一次性准备，无限次评估"的模式。预收集的 128 条轨迹可以支持无数种不同控制器的评估。整个搜索流程只消耗 1 次数据收集的 LLM 调用 + 5 轮 agent 调用的 token 成本。

05 Beta 参数化

问题： Agent 倾向提出包含大量超参数的控制器（最多 10 个），5 轮发现根本不足以搜索高维空间，导致 Agent 收敛到极端解——比如过于激进的剪枝阈值，在搜索集上省了很多 token 但完全不泛化。

方案： 要求每个控制器只暴露 一个标量参数 β，内部所有超参由 β 通过单调函数映射得到。β 越大 → 计算预算越大。

效果： 搜索空间从 10 维降到 1 维，一个 β 扫描就能遍历整个策略族。消融实验显示，去掉 beta 参数化后，控制器 token 成本从 575K 暴跌到 93K（对搜索集过拟合），而 held-out 准确率也从 53.1 降到 49.0。

06 执行轨迹反馈

问题： 只有标量 acc/token 反馈时，Agent 无法诊断控制器为什么失败——是剪枝太早？分支不够？还是 stop 条件太严？

方案： 每轮评估时，不仅记录 accuracy 和 cost，还记录完整的决策轨迹：

何时分支、何时剪枝、何时停止
每个分支的深度和最终内容
EMA 置信度随时间的变化曲线

这些轨迹信息以文本形式存入历史，供下一轮的 Claude Code 分析失败模式。

🔬 消融验证

直接证据去掉执行轨迹反馈后，控制器性能大幅下降，token 消耗反而增加。说明 标量反馈不足，细粒度决策轨迹对有效发现至关重要。

07 主实验结果

实验设置： 搜索集 = AIME24，Qwen3 四个模型 (0.6B/1.7B/4B/8B)。5 轮发现。最终控制器在 held-out 的 AIME25 和 HMMT25 上评估。对比 SC@64、ASC、ESC、Parallel-Probe。

Base Model	Method	Type	AIME25 Acc. ↑	AIME25 Tokens ↓	HMMT25 Acc. ↑	HMMT25 Tokens ↓
Qwen3-1.7B	SC@64	Handcrafted	44.7	1168.3K	60.1	1128.2K
	ASC	Handcrafted	45.7	388.9K	60.2	333.1K
	ESC	Handcrafted	46.5	990.2K	60.1	891.8K
	Parallel-Probe	Handcrafted	44.1	872.3K	60.4	839.2K
	AutoTTS (β=0.5)	Discovered	45.8	365.0K	59.8	348.7K
Qwen3-4B	SC@64	Handcrafted	80.4	910.8K	76.7	1124.4K
	ASC	Handcrafted	80.4	226.0K	76.7	406.2K
	ESC	Handcrafted	80.4	459.4K	76.7	793.1K
	Parallel-Probe	Handcrafted	81.5	730.8K	76.9	846.7K
	AutoTTS (β=1.0)	Discovered	85.8	467.4K	75.8	361.2K

关键发现： 在 Qwen3-4B + AIME25 上，AutoTTS 以 467K token 达到 85.8% 准确率，远超 SC@64 的 80.4%/910K。注意 SC@64 用 2× 的 token 还低了 5 个点——AutoTTS 找到的不是简单的"省 token"，而是更好的选择性分配策略。

缩放曲线优势

论文给出每个模型×数据集的 acc-token 曲线（图 3）。在所有 four settings 上，AutoTTS 的 Pareto 前沿完全包络了所有手工基线——即对于任意 token 预算，AutoTTS 的准确率不低于（通常高于）手工策略。

08 缩放曲线分析

图 3 展示了 acc-token 的完整 scaling curves。横轴 log scale，纵轴 accuracy。四条线对应四种控制器在不同 budget 下的表现。

核心观察：

在小模型 (0.6B) 上，AutoTTS 曲线与手工基线差距不大 —— 小模型的推理轨迹本身噪声大，策略影响有限
在 1.7B-8B 上，AutoTTS 曲线 在上方走：同 token 预算时准确率更高，同准确率时 token 更少
AutoTTS 不是在固定准确率上省钱，而是同时推高了最高可达准确率——说明其分支策略找到了手工设计没有想到的计算分配方式

09 泛化能力验证

场景	Method	Type	Acc. ↑	Tokens ↓
DeepSeek-R1-Distill -Llama-8B × HMMT25	SC@64	Handcrafted	26.7	985.7K
	ASC	Handcrafted	26.5	582.7K
	AutoTTS (β=1)	Discovered	27.2	533.9K
	AutoTTS (β=0.5)	Discovered	26.3	279.0K
Qwen3-1.7B × GPQA-Diamond	SC@64	Handcrafted	41.3	510.0K
	ASC	Handcrafted	41.0	186.3K
	AutoTTS (β=1)	Discovered	41.6	270.1K
	AutoTTS (β=0.5)	Discovered	41.6	151.0K

🟢 跨模型家族泛化

DeepSeek-R1-Distill-Llama-8B 是基于 Llama 架构的蒸馏模型，与搜索时用的 Qwen3 完全不同。AutoTTS 不仅保持竞争力，而且在 β=1 时是所有方法中准确率最高（27.2%），token 也更少。

🟢 跨任务泛化

GPQA-Diamond 不是数学推理，而是领域知识多选题。AutoTTS 在 β=0.5 时以 151K token 达到 41.6%，比 SC@64 的 510K/41.3% token 减少 70% 的同时准确率还略高。

10 消融实验

Method	AIME24 Acc	AIME24 Tokens	Held-out Acc	Held-out Tokens	Search Cost $
Ours (完整)	64.0	703.1K	53.1	575.5K	39.9
w/o Beta Param.	60.7	81.2K	49.0	93.3K	46.4
w/o Exec. Traces	56.7	823.7K	51.6	824.3K	30.9

⚠️ 无 Beta 参数化

控制器过度挖掘搜索集（token 从 575K 暴减到 93K），但泛化特征差——held-out 准确率从 53.1 降到 49.0，搜索成本反而更高（46.4 → 更多轮调参）。

⚠️ 无执行轨迹

准确率最低（56.7/51.6），token 消耗最高（824K）。Agent 只能看到标量 acc/cost，无法诊断失败模式，提出更差且更贵的策略。

11 发现成本分析

$39.9

TTS 策略发现总成本

≈ 2 杯咖啡的价格

160 min

5 轮发现总耗时

所有控制器评估通过离线 replay 完成，无需额外 LLM 调用

成本构成： 主要来自 Claude Code 在 5 轮循环中的 token 消耗（提出/编辑代码 + 读取历史记录）。控制器评估本身是零成本的——因为所有推理轨迹已经预存在 replay 矩阵里。

对比意义： 手工设计一个 TTS 策略需要研究人员数周甚至数月的猜想-实现-测试周期。AutoTTS 用 $39.9 和 160 分钟自动发现了在多个维度上超越手工设计的策略。即使这个发现没有突破性改进（4B 模型上 ~5% 绝对提升），其可扩展性和可复用性很强——同一个环境框架可以用于搜索不同模型、不同任务的最优 TTS 策略。

12 发现策略解析

论文附录 D 给出了 AutoTTS 发现的控制器代码。它包含四个非直觉的机制：

🧠 趋势停止 (Trend-based Stopping via EMA Momentum)
不是简单看当前置信度是否超过阈值，而是维护置信度的 EMA 及其动量（delta）。只有当 (a) 置信度高于门槛且 (b) EMA 动量非负（即置信度还在上升或至少不下降）时才停止。这防止了在震荡阶段的误停。
🔗 耦合的宽度-深度控制
宽度扩展和深度延伸共享同一个置信度信号——EMA 趋势弱时扩宽（分支更多路径），趋势强时加深（深入已有路径）。这不同于手工设计中将宽度和深度作为独立策略的做法。
🎯 对齐感知深度分配
不是所有分支都被均等对待——系统追踪每个分支的最新答案与当前"池子赢家"是否一致。不一致的分支会被优先 probe 和加速完成，因为它们可能提供不同的、有价值的信号。
🛡️ 保守分支放弃
分支不是被"剪枝"（prune，完全丢弃），而是被"放弃"（abandon）——放弃的分支不再拓宽但已有的内容仍保留参与最终投票。这保留了可能的信息，比硬剪枝更鲁棒。

🔵 非直觉联合设计

基于证据的推断这些机制的联合设计复杂度已经超出了人工直觉容易达到的水平。特别值得一提的是"放弃而非剪枝"和"EMA 动量停止"都是对常见 TTS 直觉的微妙修正——人不容易想到但实验验证有效的变体。

13 批判性分析

🔴 搜索空间有限

论文只探索了 width-depth 空间。很多 TTS 方法（tree search、verifier-guided refinement）涉及更丰富的结构。Beta 参数化虽然防止了过拟合，但也限制了策略的复杂度上限（所有超参是 β 的单调函数）。

🔴 评估指标风险

所有实验都在数学推理 benchmark 上（AIME24/25, HMMT25）。虽然 GPQA 泛化测试显示跨任务能力，但数学推理的 probe 信号（中途答案）质量天然高于开放域任务。在更长文本、更开放的任务中，intermediate probe 未必有意义。

⚠️ 发现过程的泛化边界

搜索集 AIME24 + Qwen3 模型族。虽然跨到 Llama/DeepSeek 有迁移，但如果目标模型的推理模式与搜索集差异太大（如长链推理 vs 分步验证），最优策略可能不同。AutoTTS 框架本身可以重新跑，但"发现一次用所有"的假设需要检验。

⚠️ 未探索的搜索策略

5 轮发现 + Claude Code 是固定配置。论文没有讨论不同搜索策略（更多轮数、不同 agent 模型、不同的历史聚合方式）对发现效果的影响。5 轮足够吗？更多轮会过拟合还是更好？

📋 小模型效果有限

在 Qwen3-0.6B 上，AutoTTS 与手工基线差距很小。小模型的推理轨迹本身质量有限，任何 TTS 策略都难以大幅提升。暗示 AutoTTS 的价值随模型能力增长而增长。

📋 Probes 的定义

Probe 信号的可靠性假设是另一个未充分讨论的方面——如果 probe 信号（中间答案）本身噪声大或与最终答案不相关，整个策略框架的基础会受到挑战。

14 启发与意义

对 TTS 研究者的启示

范式转换： 论文最核心的贡献不是发现了某个 TTS 策略更好，而是论证了"设计环境比设计策略更值得投入"。这是一种 meta-science 的视角——让 AI 自己去做算法发现
可复制性： $39.9 的成本意味着任何实验室（甚至个人）都可以复制或扩展这个流程。只依赖 LLM API 调用，不需要大量 GPU
离线 Replay 是 enabler： 这是让算法发现可负担的关键思路。预收集一次数据，反复评估不同策略

对 Auto-Research / Agentic Discovery 的启示

这篇论文和 Meta-Harness、FunSearch 等构成了一个清晰的趋势：LLM Agent 正在从"帮我写代码"演化到"帮我做算法发现"
关键设计模式：offline replay + 细粒度反馈 + 搜索空间约束——这三者的组合让 agentic discovery 从昂贵玩具变成实用工具
对 Hermes 这类 Agent 框架的启发：如果你的 agent 也能访问这种"离线评估环境"，它同样可以在许多 ML 系统优化任务中做自动发现（调参、策略搜索、pipeline 优化）

延伸阅读

前置必读： Meta-Harness [Lee 2026] — 同一组理念（agentic discovery with execution traces）应用于模型 harness 优化
直接对比： FunSearch [Romero 2024] — 用 LLM 在函数空间搜索数学算法，首次展现 agentic discovery 的可行性
TTS 基线： Parallel-Probe [Zheng 2026] — AutoTTS 的数据收集和 baseline 来源
Scaling laws： Snell 2024 "Scaling LLM Test-Time Compute Optimally" — TTS 的理论基础

一句话总结： AutoTTS 不只是一个更好的 TTS 策略发现器，它是一个元范式的证明——在正确设计的环境下，LLM Agent 可以自动发现超越人类直觉的算法策略，且成本低到可以被视为常规实验流程的一部分。

LLMs Improving LLMs:Agentic Discovery for Test-Time Scaling