autoresearch – Andrej Karpathy开源的AI自主研究框架

autoresearch是Andrej Karpathy开源的AI自主研究框架,核心目标是让AI智能体完全替代人类执行模型训练实验的循环优化过程。其设计极为精简,通过固定5分钟实验时长、单一评估指标(val_bpb)和Git自动化流程,实现 “人类写Markdown指令,AI自主改代码跑实验” 的范式转变。

人类研究员只需在program.md中定义研究方向,AI即可通宵完成数百轮实验,自动筛选有效改进。该项目发布两天内获9.5k+ GitHub星标,并衍生出多智能体协作生态。

autoresearch - Andrej Karpathy开源的AI自主研究框架

autoresearch核心设计与工作原理

1. 极简架构三要素

  • program.md:人类唯一需修改的文件,用自然语言编写研究指令(如”尝试调整注意力层结构”),AI据此生成实验策略。
  • train.py:AI唯一可编辑的代码文件,包含模型架构、优化器及训练循环,所有修改仅限于此
  • prepare.py:固定数据准备与评估逻辑,人类与AI均不可修改,确保实验环境一致性。

2. 自主实验循环机制

  • 5分钟严格时长限制:无论GPU性能或模型改动,每轮训练强制控制在5分钟墙钟时间,保证结果可比性。
  • 单一评估指标:仅依赖 val_bpb(验证集每字节比特数) 作为决策依据,数值越低代表效果越好,避免多指标冲突导致的决策模糊
  • 自动化Git工作流
    1. AI修改train.py后提交实验代码;
    2. 训练5分钟并记录val_bpb
    3. 若指标下降则保留提交,否则git reset回滚;
    4. 结果自动写入results.tsv全程无需人工干预

autoresearch核心突破与特点

1. 效率革命

  • 通宵实验规模:按5分钟/轮计算,8小时可完成约96轮实验,远超人类手动迭代能力。
  • 有效改进筛选:在Karpathy初始测试中,AI两天内完成276次实验,仅保留29项有效改进(占比10.5%),将模型训练效率提升约11%

2. 去中心化协作扩展

  • autoresearch@home:社区受SETI@home启发开发的分布式版本,支持多智能体异步协作,避免单一研究路径局限。
  • 角色自发分化:80+智能体4天内完成2333次实验后,自动形成实验员、统计员、元分析员等分工,例如:
    • 某智能体专注验证他人结论(188次/天);
    • 另一组生成5895条假设但不执行实验

3. 关键发现验证

  • 批量大小与训练步数:将batch_size减半(2^19→2^18)但加倍训练步数,val_bpb改善0.007,证明”更多step优于更大batch”。
  • 架构优化瓶颈:群体智能发现最优配置为12层/512维度,加深网络(如16层)反而因步数减少导致性能下降。
  • 噪声干扰警示:随机种子方差约0.002 val_bpb,许多声称的”改进”实为统计噪声,推动智能体自发要求多种子验证

局限性与社区反馈

1. 当前能力边界

  • 擅长执行而非创新:AI在超参数调优与架构微调上表现优异,但缺乏提出突破性研究方向的能力,仍需人类定义program.md
  • 任务理解参差不齐:Karpathy自述其行为像”聪明的博士与十岁小孩的混合体“,可能连续成功20次实验后,在简单问题上陷入死循环

2. 研究者实证评价

  • 普林斯顿学者刘壮测试后指出:AI自主研究尚未达到可靠替代人类的程度。例如:
    • 实验设计常流于表面,无法全面验证假设
    • 易忽略任务上下文(如忘记GPU分区限制);
    • 过度依赖局部最优,缺乏长期探索策略

行业影响与后续发展

1. 科研范式转变

  • 从”人做实验”到”人设计做实验的AI”:研究员角色转向定义问题、约束条件及方向性指导,重复性调参工作被自动化
  • 预训练民主化:单GPU即可运行的轻量设计,使中小团队能参与模型优化竞争,降低AI研发门槛

2. Karpathy的最新动向

  • 2026年5月20日,Karpathy宣布加入Anthropic,专注于预训练团队,目标是”用Claude自身加速预训练研究“。
  • 其核心任务正是将autoresearch理念延伸至大模型基础训练环节,探索AI辅助预训练的规模化路径
© 版权声明

相关文章

暂无评论

none
暂无评论...