01 论文概览

一句话定位:SkillFlow 用 GFlowNets(生成流网络)替代传统的 REINFORCE/GRPO 策略梯度,将 Agent 任务编排和技能库演化统一建模为有向无环图上的流匹配问题。同一个损失函数同时训练前向策略和后向评估网络,后者的输出不花额外推理成本就给出每步信度分配,再基于流诊断信号自动管理技能库的保留/精炼/剪枝。
🌊
流网络范式
Agent 编排建模为 DAG 上的流网络。前向策略采样路径,后向策略重构路径,TTB 损失让二者在流空间对齐。流量自然汇聚于高回报路径。
🎯
TTB 损失
Tempered Trajectory Balance:回归式流匹配损失,让轨迹采样概率与奖励成正比,而不是像 REINFORCE 一样把所有概率压到单条最优路径。
🔄
递归技能演化
回答三个问题:何时演化?(TTB 残差地板) 演化什么?(CGF 诊断) 在哪改进?(步骤重要性定位决策缺口)

作者团队: Mingda Zhang (CUHK-SZ)、Tiesunlong Shen (NUS)、Haoran Luo & Wenjin Liu & Erik Cambria (NTU)、Zikai Xiao (ZJU)、Xiaoying Tang (CUHK-SZ)。涉及中国三所高校 + 新加坡两所高校。

02 三大痛点

论文精准定位了现有 Agent RL 编排的三个问题:

🔥 策略崩溃

REINFORCE 族目标把所有概率质量集中到单条最高奖励路径,多样性被吃光。当工具升级或环境微变,单一策略极易崩塌。

🌫️ 信度分配模糊

只有最终奖励,长链条下无法判断哪步决策是关键。GRPO 等方法的组内优势估计也无法避免高方差。

🦯 技能演化盲目

现有动态技能库更新靠人工触发规则或 LLM-as-judge 直接提示,缺乏从训练信号中推导出的数理量化反馈。

这三点与你之前在 AutoTTS 和日常工作中看到的痛点高度一致——奖励信号稀疏、多样性损失、人工设计成本高。SkillFlow 的方法比 AutoTTS 更底层(GFlowNets MDP),但二者在"用更好的反馈信号指导 Agent 行为"这一点上殊途同归。

03 核心方法

整体架构

环境
动态技能库 + 冻结执行器
前向策略
Supervisor 选择动作
执行
Executor 执行反馈
后向
后向策略重构评估
演化
流诊断 → 技能精炼/剪枝

环境设计

SkillFlow 采用 Supervisor-Executor 范式:

  • Supervisor πθ:可训练的 LLM(Qwen3.5-9B LoRA 微调),负责生成推理、选择动作类型(skill/act/accept)和参数
  • 动态技能库 S:与策略共同演化,由技能创建者 Ψ 管理
  • 冻结执行器 Mexec:不可训练的 LLM 或模拟器,执行原子操作
  • 状态 Ht:对话历史严格递增(DAG 结构),Ht = Ht-1 ⊕ (推理, 动作, 执行反馈)

前向策略与后向策略

  • 前向策略 PF:πθ(at | rt, Ht-1) — 基于当前历史决定下一步动作
  • 后向策略 Pφ:Pφ(at | Ht-1 ⊕ otexec) — 知道执行结果后逆向评估刚才的选择

关键区别:前向看不到执行反馈,后向看得见——这个信息不对称是信度分配的核心。

04 TTB 损失:替代 GRPO 的流匹配目标

核心公式直觉:
TTB残差 = (log Z + Σ log P前向 - β log R̃ - Σ log P后向) / T

这个损失做的两件事:
1. 保持多样性:让采样概率与奖励成正比而非集中到一条路径
2. 零成本信度分配:前向/后向概率比值 = 步骤重要性 I(t),不花额外推理成本

步骤重要性 I(t):

  • I(t) = πθ(at | rt, Ht-1) / Pφ(at | Ht-1 ⊕ otexec)
  • |log I(t)| 大 = 知道结果后概率变化大 = 该决策对结果影响大
  • 这个指标直接用于下游技能演化——定位关键决策缺口

与 GRPO 的对比:

维度GRPOTTB (SkillFlow)
收敛行为压到单条最优路径与奖励成正比的分布
信度分配组内优势估计(高方差)前向/后向信息不对称比值(低方差)
推理成本N/A零额外成本(后向仅训练时用)
多样性模式塌陷天然保持多条有效路径

05 流驱动的递归技能演化

SkillFlow 从流训练信号中回答技能演化的三个核心问题:

问题信号来源判定逻辑
何时演化?TTB 残差地板 ∆̅*(k)当前技能库下 TTB 损失饱和不再下降 → 触发新阶段
演化什么?技能边际流 F̂(s) + 集中对数流份额持续负份额 → 剪枝;高流量+高Jensen gap → 精炼;高流量+低Jensen gap → 保留
在哪改进?步骤重要性 I(t)高 |log I(t)| 的步骤 = 关键决策缺口 → 调用技能创建者生成新技能
Boom-and-Prune 动态: 实验显示技能库从初始 11 个 膨胀到 22 个,然后在下一阶段的流量检验下快速清洗掉 14 个无效技能,最终收敛于 11 个精炼技能。说明剪枝机制有效防止了技能库盲目膨胀。

06 实验结果

主实验:14 个基准全面碾压

BenchmarkMetricSFTGRPOAFlowAgent+RLSkillFlowΔ ↑
HotpotQAAns F152.973.356.058.490.6+31.3
TriviaQAAns F165.084.067.469.292.1+18.3
AIME 2026Acc/Pass45.164.442.245.283.2+38.1
WebShopSR32.068.035.236.793.8+61.7
SWE-benchResolved17.238.316.418.841.4+7.0
ALFWorldSR48.361.240.550.880.5+29.9
🟢 全数据集统治级表现
搭载 Qwen3.5-9B 基座的 SkillFlow 在全部 14 个数据集上均取得最佳结果。WebShop 成功率相较 SFT 暴涨 61.7%,AIME 2026 算数推理提升 38.1%。部分任务甚至超越了参数更大的闭源商业模型。

消融实验关键发现

⚠ 无 TTB(换 GRPO)

数学推理和交互决策成绩大幅滑坡。验证了传统策略梯度方法无法避免模式塌陷,TTB 在维护多样性上起决定性作用。

⚠ 无后向评估

长链条决策(Mind2Web)效果急剧变差。后视机制提供的细粒度单步信度打分别不可替代。

⚠ 无流演化信号

任意卸载演化判断逻辑都会损害最终表现。TTB 残差 + 步骤重要性的演化决策链条完整且必要。

真实演化案例

SkillFlow 自主总结出了人类未显式定义的高阶策略:

  • Skill A:"宁可选择部分匹配直接购买,也决不要反复退回搜索"
  • Skill B:"只要手持目标物品且台灯开启即判定成功,无需将两者置于同处"

这些策略极大节省了动作开销,展示了 Agent 在流信号引导下自主涌现的决策智慧。

07 分析解读

为什么 GFlowNets 适合 Agent 编排?

GFlowNets 的核心优势——轨迹采样与奖励成正比——天然契合 Agent 编排场景:

  • Agent 执行任务往往有多条路径都能成功(不同工具、不同顺序),不需要只选一条
  • 维护策略多样性意味着当一条路径因环境变化失效时,Agent 有备用方案
  • 这对你正在做的 auto-research 也适用:搜索超参或策略时,保留多条有效路径比一条最优路径更鲁棒

零成本信度分配的价值

现有的 Agent RL 方案(GRPO、DAPO、VAPO)都需要额外的过程奖励模型(PRM)或蒙特卡洛采样来做信度分配。SkillFlow 的 TTB 在训练时就已经把前向和后向策略对齐了,I(t) = 前向概率 / 后向概率 可以直接当信度信号用,不需要额外模型或额外推理。这对推理成本敏感的部署场景是一个显著优势。

08 批判性分析

🔴 奖励信号假设

GFlowNets 要求严格正奖励(R̃ = R + εmin > 0)。这意味不成功的轨迹也需要被赋予正流量。在复杂任务中,零奖励轨迹和正奖励轨迹的流量分配比例敏感,可能需要仔细调参。

🔴 技能创建依赖外部 LLM

技能创建者 Ψ 虽然被流信号触发,但生成新技能的实际动作仍然依赖外部 LLM 的能力。如果基座 LLM 本身无法提炼出有效的新技能战术,流信号再好也无用。

⚠ 计算成本

TTB 训练需要同时运行前向策略和后向策略(虽然后向只在训练时用)。相比 GRPO 的组内采样,额外的后向网络 LoRA 前馈会增加训练计算量。不过零推理成本是补偿。

⚠ DAG 限制

GFlowNets 要求底图是 DAG。论文论证了状态更新规则 Ht = Ht-1 ⊕ ... 保证了严格递增(acyclicity),但在某些需要回退/重试的任务中,这个假设可能站不住脚。

📋 实验差异

SkillFlow 的对比基线中,AgentFlow/FlowSteer/SkillRL 的具体实现和超参数来自不同论文,可能存在隐式的比较不公平——尤其是技能演化频率、训练轮数等参数。

📋 代码未完全开放

论文发布时代码放到了 anonymous.4open.science,不是长期仓库。SkillFlow 的实现涉及多个组件(前向/后向 LoRA、技能创建者、CGF 诊断器),复现门槛较高。

09 与 AutoTTS 对比:两种 Agent 优化范式

巧合的是,今天看了两篇论文,一个用 离线搜索,一个用 在线演化,正好构成 Agent 优化的两条路径:

🔍 AutoTTS

离线搜索策略
  • 核心方法:预收集推理轨迹 → 离线 replay 评估 → Agent 迭代搜索
  • 优化对象:TTS 分支/剪枝/停止策略
  • 搜索空间:1 维 β 参数化
  • 反馈:执行轨迹(诊断失败模式)
  • 成本:$39.9 + 160 min(一次性)
  • 目标:找到可复用的 TTS 策略

🌊 SkillFlow

在线流演化
  • 核心方法:GFlowNets 流匹配 → TTB 损失 → 流信号驱动演化
  • 优化对象:Agent 编排策略 + 技能库
  • 搜索空间:连续流网络(无显式降维)
  • 反馈:TTB 残差 + 步骤重要性 + 技能边际流
  • 成本:训练开销(需 GPU),但推理零额外成本
  • 目标:策略持续自演化的技能库
对你的启发: 这两篇论文在哲学上是互补的。
AutoTTS 适合 找到最优的推理策略(一次性、离线、$39.9)→ 然后用它部署。
SkillFlow 适合 Agent 在运行中持续进化(在线、需训练、但零推理成本)。
如果你在做 auto-research 的 Harness 系统,AutoTTS 的 replay 环境思路可以直接用在你的 benchmark 上评估策略;而 SkillFlow 的信号分配思路可以用在你的 Agent 做多步决策时的 credit assignment 上。