01 论文概览
作者团队: Mingda Zhang (CUHK-SZ)、Tiesunlong Shen (NUS)、Haoran Luo & Wenjin Liu & Erik Cambria (NTU)、Zikai Xiao (ZJU)、Xiaoying Tang (CUHK-SZ)。涉及中国三所高校 + 新加坡两所高校。
02 三大痛点
论文精准定位了现有 Agent RL 编排的三个问题:
🔥 策略崩溃
REINFORCE 族目标把所有概率质量集中到单条最高奖励路径,多样性被吃光。当工具升级或环境微变,单一策略极易崩塌。
🌫️ 信度分配模糊
只有最终奖励,长链条下无法判断哪步决策是关键。GRPO 等方法的组内优势估计也无法避免高方差。
🦯 技能演化盲目
现有动态技能库更新靠人工触发规则或 LLM-as-judge 直接提示,缺乏从训练信号中推导出的数理量化反馈。
这三点与你之前在 AutoTTS 和日常工作中看到的痛点高度一致——奖励信号稀疏、多样性损失、人工设计成本高。SkillFlow 的方法比 AutoTTS 更底层(GFlowNets MDP),但二者在"用更好的反馈信号指导 Agent 行为"这一点上殊途同归。
03 核心方法
整体架构
环境设计
SkillFlow 采用 Supervisor-Executor 范式:
- Supervisor πθ:可训练的 LLM(Qwen3.5-9B LoRA 微调),负责生成推理、选择动作类型(skill/act/accept)和参数
- 动态技能库 S:与策略共同演化,由技能创建者 Ψ 管理
- 冻结执行器 Mexec:不可训练的 LLM 或模拟器,执行原子操作
- 状态 Ht:对话历史严格递增(DAG 结构),Ht = Ht-1 ⊕ (推理, 动作, 执行反馈)
前向策略与后向策略
- 前向策略 PF:πθ(at | rt, Ht-1) — 基于当前历史决定下一步动作
- 后向策略 Pφ:Pφ(at | Ht-1 ⊕ otexec) — 知道执行结果后逆向评估刚才的选择
关键区别:前向看不到执行反馈,后向看得见——这个信息不对称是信度分配的核心。
04 TTB 损失:替代 GRPO 的流匹配目标
TTB残差 = (log Z + Σ log P前向 - β log R̃ - Σ log P后向) / T
这个损失做的两件事:
1. 保持多样性:让采样概率与奖励成正比而非集中到一条路径
2. 零成本信度分配:前向/后向概率比值 = 步骤重要性 I(t),不花额外推理成本
步骤重要性 I(t):
- I(t) = πθ(at | rt, Ht-1) / Pφ(at | Ht-1 ⊕ otexec)
- |log I(t)| 大 = 知道结果后概率变化大 = 该决策对结果影响大
- 这个指标直接用于下游技能演化——定位关键决策缺口
与 GRPO 的对比:
| 维度 | GRPO | TTB (SkillFlow) |
|---|---|---|
| 收敛行为 | 压到单条最优路径 | 与奖励成正比的分布 |
| 信度分配 | 组内优势估计(高方差) | 前向/后向信息不对称比值(低方差) |
| 推理成本 | N/A | 零额外成本(后向仅训练时用) |
| 多样性 | 模式塌陷 | 天然保持多条有效路径 |
05 流驱动的递归技能演化
SkillFlow 从流训练信号中回答技能演化的三个核心问题:
| 问题 | 信号来源 | 判定逻辑 |
|---|---|---|
| 何时演化? | TTB 残差地板 ∆̅*(k) | 当前技能库下 TTB 损失饱和不再下降 → 触发新阶段 |
| 演化什么? | 技能边际流 F̂(s) + 集中对数流份额 | 持续负份额 → 剪枝;高流量+高Jensen gap → 精炼;高流量+低Jensen gap → 保留 |
| 在哪改进? | 步骤重要性 I(t) | 高 |log I(t)| 的步骤 = 关键决策缺口 → 调用技能创建者生成新技能 |
06 实验结果
主实验:14 个基准全面碾压
| Benchmark | Metric | SFT | GRPO | AFlow | Agent+RL | SkillFlow | Δ ↑ |
|---|---|---|---|---|---|---|---|
| HotpotQA | Ans F1 | 52.9 | 73.3 | 56.0 | 58.4 | 90.6 | +31.3 |
| TriviaQA | Ans F1 | 65.0 | 84.0 | 67.4 | 69.2 | 92.1 | +18.3 |
| AIME 2026 | Acc/Pass | 45.1 | 64.4 | 42.2 | 45.2 | 83.2 | +38.1 |
| WebShop | SR | 32.0 | 68.0 | 35.2 | 36.7 | 93.8 | +61.7 |
| SWE-bench | Resolved | 17.2 | 38.3 | 16.4 | 18.8 | 41.4 | +7.0 |
| ALFWorld | SR | 48.3 | 61.2 | 40.5 | 50.8 | 80.5 | +29.9 |
消融实验关键发现
⚠ 无 TTB(换 GRPO)
数学推理和交互决策成绩大幅滑坡。验证了传统策略梯度方法无法避免模式塌陷,TTB 在维护多样性上起决定性作用。
⚠ 无后向评估
长链条决策(Mind2Web)效果急剧变差。后视机制提供的细粒度单步信度打分别不可替代。
⚠ 无流演化信号
任意卸载演化判断逻辑都会损害最终表现。TTB 残差 + 步骤重要性的演化决策链条完整且必要。
真实演化案例
SkillFlow 自主总结出了人类未显式定义的高阶策略:
- Skill A:"宁可选择部分匹配直接购买,也决不要反复退回搜索"
- Skill B:"只要手持目标物品且台灯开启即判定成功,无需将两者置于同处"
这些策略极大节省了动作开销,展示了 Agent 在流信号引导下自主涌现的决策智慧。
07 分析解读
为什么 GFlowNets 适合 Agent 编排?
GFlowNets 的核心优势——轨迹采样与奖励成正比——天然契合 Agent 编排场景:
- Agent 执行任务往往有多条路径都能成功(不同工具、不同顺序),不需要只选一条
- 维护策略多样性意味着当一条路径因环境变化失效时,Agent 有备用方案
- 这对你正在做的 auto-research 也适用:搜索超参或策略时,保留多条有效路径比一条最优路径更鲁棒
零成本信度分配的价值
现有的 Agent RL 方案(GRPO、DAPO、VAPO)都需要额外的过程奖励模型(PRM)或蒙特卡洛采样来做信度分配。SkillFlow 的 TTB 在训练时就已经把前向和后向策略对齐了,I(t) = 前向概率 / 后向概率 可以直接当信度信号用,不需要额外模型或额外推理。这对推理成本敏感的部署场景是一个显著优势。
08 批判性分析
🔴 奖励信号假设
GFlowNets 要求严格正奖励(R̃ = R + εmin > 0)。这意味不成功的轨迹也需要被赋予正流量。在复杂任务中,零奖励轨迹和正奖励轨迹的流量分配比例敏感,可能需要仔细调参。
🔴 技能创建依赖外部 LLM
技能创建者 Ψ 虽然被流信号触发,但生成新技能的实际动作仍然依赖外部 LLM 的能力。如果基座 LLM 本身无法提炼出有效的新技能战术,流信号再好也无用。
⚠ 计算成本
TTB 训练需要同时运行前向策略和后向策略(虽然后向只在训练时用)。相比 GRPO 的组内采样,额外的后向网络 LoRA 前馈会增加训练计算量。不过零推理成本是补偿。
⚠ DAG 限制
GFlowNets 要求底图是 DAG。论文论证了状态更新规则 Ht = Ht-1 ⊕ ... 保证了严格递增(acyclicity),但在某些需要回退/重试的任务中,这个假设可能站不住脚。
📋 实验差异
SkillFlow 的对比基线中,AgentFlow/FlowSteer/SkillRL 的具体实现和超参数来自不同论文,可能存在隐式的比较不公平——尤其是技能演化频率、训练轮数等参数。
📋 代码未完全开放
论文发布时代码放到了 anonymous.4open.science,不是长期仓库。SkillFlow 的实现涉及多个组件(前向/后向 LoRA、技能创建者、CGF 诊断器),复现门槛较高。
09 与 AutoTTS 对比:两种 Agent 优化范式
巧合的是,今天看了两篇论文,一个用 离线搜索,一个用 在线演化,正好构成 Agent 优化的两条路径:
🔍 AutoTTS
- 核心方法:预收集推理轨迹 → 离线 replay 评估 → Agent 迭代搜索
- 优化对象:TTS 分支/剪枝/停止策略
- 搜索空间:1 维 β 参数化
- 反馈:执行轨迹(诊断失败模式)
- 成本:$39.9 + 160 min(一次性)
- 目标:找到可复用的 TTS 策略
🌊 SkillFlow
- 核心方法:GFlowNets 流匹配 → TTB 损失 → 流信号驱动演化
- 优化对象:Agent 编排策略 + 技能库
- 搜索空间:连续流网络(无显式降维)
- 反馈:TTB 残差 + 步骤重要性 + 技能边际流
- 成本:训练开销(需 GPU),但推理零额外成本
- 目标:策略持续自演化的技能库
AutoTTS 适合 找到最优的推理策略(一次性、离线、$39.9)→ 然后用它部署。
SkillFlow 适合 Agent 在运行中持续进化(在线、需训练、但零推理成本)。
如果你在做 auto-research 的 Harness 系统,AutoTTS 的 replay 环境思路可以直接用在你的 benchmark 上评估策略;而 SkillFlow 的信号分配思路可以用在你的 Agent 做多步决策时的 credit assignment 上。