EdgeBench是由字节跳动Seed团队推出的一个前沿AI基准测试框架,旨在研究智能体(Agent)如何从真实世界环境中学习。它通过一系列长达 12 小时以上的可执行任务,首次揭示了智能体环境学习的“对数S形”扩展定律,并发现 AI 从环境中学习的速度大约每三个月翻一番。

EdgeBench核心特点
EdgeBench 的设计核心在于模拟真实、复杂且需要长期探索的任务环境,其主要特点包括:
- 超长时域的真实任务
- 每个任务都设计为持续运行 12 小时以上,部分任务甚至超过 72 小时。这种长时域设计确保了智能体有足够的时间与环境交互,积累经验并实现能力的复合增长,而非简单的单次尝试。
- 高度仿真的任务环境
- 所有任务的执行环境、反馈信号和评判标准都高度模拟真实世界的实践。一个高分不仅仅代表任务完成,更反映了智能体在复杂环境中真正学到了什么。
- 六大领域,从零构建
- 包含 134 个覆盖六大领域的任务,大部分是从零开始专门构建的,以确保评测的新颖性和挑战性。这些领域包括:
- 科学与机器学习 (29%):如引力波探测、地下水污染建模。
- 系统与软件工程 (27%):如 RISC-V CPU 设计、正则引擎修复。
- 组合优化 (14%):如车辆路径规划、SAT/SMT 求解。
- 专业知识工作 (14%):如跨境合规审计、品牌年度规划。
- 形式化数学与定理证明 (10%):如费马大定理(正则情形)、球面外翻。
- 互动游戏与模拟器 (6%):如 NetHack、Dungeon Crawl。
- 包含 134 个覆盖六大领域的任务,大部分是从零开始专门构建的,以确保评测的新颖性和挑战性。这些领域包括:
- 专家级任务质量
- 每个任务都经过领域专家的审查和迭代。在有记录的任务中,专家投入的平均工时高达 57.2 小时,最高可达 320 小时,确保了任务的专业性和深度。
EdgeBench技术原理
EdgeBench 的核心技术贡献在于发现并解释了智能体在长时域任务中的学习规律。
- 环境学习循环
智能体在任务中遵循一个持续的“尝试-观察-吸收-改进”循环:- 尝试 (Attempt):在实时环境中测试一个候选方案。
- 观察 (Observe):从环境中接收新的信息和反馈(如实验错误、测试失败、分数变化)。
- 吸收 (Absorb):分析环境反馈和交互历史。
- 改进 (Improve):将经验转化为更好的计划、策略或产出物。
- 对数S形学习定律 (The Log-Sigmoid Law)
- 现象发现:通过对海量(38,000小时)学习曲线的分析,EdgeBench 发现,尽管单个任务的学习过程充满波动,但当对大量任务的平均表现进行观察时,智能体的学习曲线会收敛成一个非常精确的对数S形函数:
S(t) = S_max / (1 + (t_mid / t)^β)
其中S(t)是在时间t的得分,S_max是最高分,t_mid是达到一半最高分所需的时间,β是学习速度。该定律的拟合优度R²高达 0.998。 - 理论解释:该定律的产生源于一个“前沿扩展”模型。
- 知识图谱:将一个任务视为由许多小的“知识单元”组成的图。
- 前沿解锁:学习过程就像解锁这些单元。解锁一个新单元会使其相邻的单元更容易被解锁。因此,学习是以“前沿”的形式,从已知区域向未知区域扩展。
- 速度公式:学习的速度与“已解锁单元的比例(x)”和“未解锁单元的比例(1-x)”的乘积成正比,即
dx/d(ln t) = βx(1-x)。这个微分方程的解正是对数S形函数。 - 对数时间:由于任务的难度呈指数级增长,因此学习的“有效时间”是对数时间
ln(t),而非线性时间t。
- 现象发现:通过对海量(38,000小时)学习曲线的分析,EdgeBench 发现,尽管单个任务的学习过程充满波动,但当对大量任务的平均表现进行观察时,智能体的学习曲线会收敛成一个非常精确的对数S形函数:
- 学习速度定律
通过对 2025 年 9 月至 2026 年 5 月期间发布的模型进行评估,EdgeBench 发现,AI 从环境中学习的速度(以2小时内的性能提升为衡量标准)大约 每三个月翻一番。
EdgeBench主要功能
EdgeBench 作为一个基准测试框架,主要提供以下功能:
- 衡量真实环境学习能力
- 作为首个专门为此设计的基准,它能够量化评估 AI 智能体在接近真实世界的复杂、长时域任务中的学习和适应能力。
- 揭示学习动态与瓶颈
- 通过记录智能体在 12 小时内的每一次尝试和得分变化,EdgeBench 可以详细展示智能体的学习路径。例如,在一个引力波信号重建任务中,可以清晰地看到智能体如何从“解析原始数据”到“发现信号特征”,再到“建立物理模型”的逐步演进过程,以及在哪些环节遇到了瓶颈。
- 提供模型能力排行榜
- 基于 134 个任务的综合表现,EdgeBench 提供了一个权威的模型能力排行榜,直观展示不同模型(如 Claude Opus 4.8, GPT-5.5 等)在长时域环境学习任务上的性能差异。
- 推动 AI 研究范式转变
- EdgeBench 强调了“环境学习”的重要性。许多现实世界所需的知识(如私有数据、内部工具、最新发现)并未包含在模型的训练数据中。因此,智能体能否通过与环境交互来学习,是 AI 能否在现实世界中规模化应用的关键。EdgeBench 为研究这一核心能力提供了标准化的工具和理论框架。
EdgeBench项目地址
- 项目官网:https://edge-bench.org/
- GitHub仓库:https://github.com/ByteDance-Seed/EdgeBench
- HuggingFace模型库:https://huggingface.co/datasets/ByteDance-Seed/EdgeBench
- 技术论文:https://edge-bench.org/paper.pdf
EdgeBench同类产品对比
表格
| 对比维度 | EdgeBench | AgentBench |
|---|---|---|
| 核心定位 | AI 智能体环境学习能力专用评测框架,聚焦长周期任务中的持续学习成长能力 | 综合性 LLM 智能体评测基准,全面评估多封闭环境下的自主决策与执行能力 |
| 评测核心目标 | 量化智能体随环境交互的学习速率、成长天花板与内在学习规律,完整追踪能力变化全过程 | 衡量智能体在不同场景下的单次任务完成水平与综合执行能力,输出静态能力对标结果 |
| 任务设计逻辑 | 高复杂度真实业务任务,配备独立可执行工作空间,采用 “快速探索 + 慢反馈校验” 的双层反馈模式 | 标准化封闭环境任务,每个场景设定明确目标与边界,智能体按流程完成既定目标 |
| 单任务交互时长 | 单任务支持至少 12 小时连续交互,部分场景可延伸至 72 小时,匹配人类专家真实工作耗时 | 单任务为多轮短时交互,通常在数十步内完成闭环,以分钟级任务为主 |
| 任务覆盖领域 | 科学发现、软件工程、组合优化、专业知识工作、形式化数学、交互游戏六大高价值专业领域 | 操作系统、数据库、知识图谱、网页浏览、网络购物、家居操作等 8 类通用交互场景 |
| 核心评测维度 | 最终任务完成度、学习速率、成长天花板、试错效率、学习曲线拟合度 | 任务成功率、步骤合理性、工具调用准确率、环境适配能力、推理决策正确性 |
| 技术核心原理 | 基于对数 S 型缩放定律,将学习过程建模为潜在任务图的边界扩张过程,追踪连续性能变化 | 基于标准化沙箱环境与统一评估接口,以最终结果与标准答案的匹配度为核心评分依据 |
| 评测输出形式 | 输出连续学习成长曲线、多维度性能指标与缩放定律验证分析结果 | 输出各环境任务得分、综合成功率排名与分项能力雷达图 |
| 自定义扩展能力 | 支持自定义垂直领域评测任务接入,可深度适配行业专属学习能力评测需求 | 支持新增环境与任务集扩展,以标准化环境接入为主,扩展门槛相对更高 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



