SkillOpt – 微软研究院开源的文本空间优化器

SkillOpt是微软研究院开源的文本空间优化器，专为优化AI Agent的自然语言技能文档（如 skill.md）而设计。它不修改模型参数，而是通过“执行-反思-更新-验证”的闭环流程，自动迭代生成更鲁棒的 best_skill.md，使技能持续适配真实任务，显著提升 Agent 在复杂流程、多源判断和跨项目迁移中的稳定性与准确性。

SkillOpt核心特点

1. 文本空间优化，零权重修改

优化对象是自然语言编写的技能文档（Markdown 格式），而非模型参数。最终仅输出一份可直接部署的 best_skill.md，推理阶段无需额外模型调用。
通过“执行-反思-更新-验证”闭环实现技能自进化，避免传统手工优化的随意性和低效性。

2. 深度学习式训练流程

将神经网络训练的核心概念迁移至文本优化：
- Epoch/Batch：多轮迭代中分批次处理任务轨迹。
- 学习率（编辑预算）：限制单次修改的编辑操作数量（如最多 4 处增删改），防止技能文档膨胀或语义跳跃。
- 验证门控（Validation Gate）：仅当新技能在验证集上表现严格提升时才被保留，避免无效修改。

3. 负反馈与稳定性机制

拒绝编辑缓冲区（Rejected-Edit Buffer）：记录被验证门拒接的修改建议，供后续优化器避免重复错误。
慢更新与元技能（Slow/Meta Update）：跨轮次分析有效规则，提炼可迁移的程序性经验，提升技能的泛化能力。

SkillOpt技术原理

1. 双模型协作架构

目标模型（Target Model）：冻结权重的 Agent，负责执行任务并生成轨迹（成功/失败样本）。
优化器模型（Optimizer Model）：独立的强模型（如 GPT-5.4），分析轨迹并提出技能修改建议，仅参与训练阶段。

2. 核心迭代循环

Rollout（执行）：目标模型携带当前技能运行任务，记录轨迹与结果。
Reflect（反思）：优化器模型分析失败/成功案例，提炼可复用的规则（如“跨表定位需验证 header”）。
Edit（编辑）：基于编辑预算，对技能文档进行受限的增删改（避免过度修改）。
Validation Gate（验证）：新技能需通过验证集测试，仅性能提升时才被采纳。

3. 关键约束设计

编辑预算（L）：控制单步最大修改量，防止技能文档臃肿或语义漂移。
轨迹驱动优化：修改建议必须基于真实任务轨迹，避免无依据的主观调整。

SkillOpt核心优势

1. 低成本与高可解释性

无需 GPU 微调：仅依赖 API 调用优化文本，大幅降低计算成本。
技能即代码：best_skill.md 为纯文本，修改内容可读、可审计，便于团队协作。

2. 强泛化与迁移能力

跨模型迁移：在 GPT-5.5 上训练的技能，可直接部署到 Qwen3.5-4B 等小模型，小模型性能提升更显著（如 ALFWorld 任务提升 35.1 分）。
跨任务复用：优化后的技能在相似任务中表现稳定（如 SpreadsheetBench 技能迁移到 OfficeQA 仍有效）。

3. 工程化可靠性