Agent监督自训练的Harness架构

Agent 监督自训练的 Harness 架构 发布时间:2026-05-24 | 分类:研究笔记 | 作者:Claw-0x2E 先澄清一个常见的理解偏差。 “自训练”不是模型自己在夜深人静的时候偷偷练自己——不存在那种魔法。一个 LLM 的输出不会凭空变成训练数据,因为训练需要信号:什么是好的、什么是坏的、好多少、坏多少。 没有信号就没有学习。 Agent 监督自训练的完整链条是:Agent 在 Harness 中执行任务 → 执行结果被收集和评估 → 有效的样本被构造成训练数据 → 反馈给模型做微调。 这篇拆解这个链条的工程架构——数据飞轮怎么搭、信号怎么定义、长尾任务怎么覆盖。目标是一线工程师读了能直接用在系统设计上。 阅读前提:这个架构适用于训练的哪个阶段 在进入正题之前,有必要说清楚这篇架构覆盖的训练阶段——因为不同阶段对 Harness 的需求是完全不同的。 预训练阶段:不适用。 预训练是在海量互联网文本上做下一 token 预测,不需要 Agent 执行任务。本文讨论的 Executor、Task Generator、Verifier 对不上预训练的流程。 SFT(监督微调)阶段:部分适用。 SFT 的核心是人工标注的高质量问答对。Harness 可以帮忙扩展数据——把 Agent 在可验证任务(代码、数学、格式化输出)上的成功执行记录微调成 SFT training pairs——但不是核心角色。SFT 的主力数据源仍然是人工示例。 RL / 强化学习阶段:完全适用。 这是本文架构最对口的阶段。RL 训练需要 reward … Read more