autoresearch – Andrej Karpathy开源的AI自主研究框架

AI最新项目2个月前发布文明旁观者

165 00

autoresearch是Andrej Karpathy开源的AI自主研究框架，核心目标是让AI智能体完全替代人类执行模型训练实验的循环优化过程。其设计极为精简，通过固定5分钟实验时长、单一评估指标(val_bpb)和Git自动化流程，实现 “人类写Markdown指令，AI自主改代码跑实验” 的范式转变。

人类研究员只需在program.md中定义研究方向，AI即可通宵完成数百轮实验，自动筛选有效改进。该项目发布两天内获9.5k+ GitHub星标，并衍生出多智能体协作生态。

autoresearch - Andrej Karpathy开源的AI自主研究框架

autoresearch核心设计与工作原理

1. 极简架构三要素

program.md：人类唯一需修改的文件，用自然语言编写研究指令（如”尝试调整注意力层结构”），AI据此生成实验策略。
train.py：AI唯一可编辑的代码文件，包含模型架构、优化器及训练循环，所有修改仅限于此。
prepare.py：固定数据准备与评估逻辑，人类与AI均不可修改，确保实验环境一致性。

2. 自主实验循环机制

5分钟严格时长限制：无论GPU性能或模型改动，每轮训练强制控制在5分钟墙钟时间，保证结果可比性。
单一评估指标：仅依赖 val_bpb（验证集每字节比特数） 作为决策依据，数值越低代表效果越好，避免多指标冲突导致的决策模糊。
自动化Git工作流：
1. AI修改train.py后提交实验代码；
2. 训练5分钟并记录val_bpb；
3. 若指标下降则保留提交，否则git reset回滚；
4. 结果自动写入results.tsv，全程无需人工干预。

autoresearch核心突破与特点

1. 效率革命

通宵实验规模：按5分钟/轮计算，8小时可完成约96轮实验，远超人类手动迭代能力。
有效改进筛选：在Karpathy初始测试中，AI两天内完成276次实验，仅保留29项有效改进（占比10.5%），将模型训练效率提升约11%。

2. 去中心化协作扩展

autoresearch@home：社区受SETI@home启发开发的分布式版本，支持多智能体异步协作，避免单一研究路径局限。
角色自发分化：80+智能体4天内完成2333次实验后，自动形成实验员、统计员、元分析员等分工，例如：
- 某智能体专注验证他人结论（188次/天）；
- 另一组生成5895条假设但不执行实验。

3. 关键发现验证

批量大小与训练步数：将batch_size减半（2^19→2^18）但加倍训练步数，val_bpb改善0.007，证明”更多step优于更大batch”。
架构优化瓶颈：群体智能发现最优配置为12层/512维度，加深网络（如16层）反而因步数减少导致性能下降。
噪声干扰警示：随机种子方差约0.002 val_bpb，许多声称的”改进”实为统计噪声，推动智能体自发要求多种子验证。

局限性与社区反馈

1. 当前能力边界

擅长执行而非创新：AI在超参数调优与架构微调上表现优异，但缺乏提出突破性研究方向的能力，仍需人类定义program.md。
任务理解参差不齐：Karpathy自述其行为像”聪明的博士与十岁小孩的混合体“，可能连续成功20次实验后，在简单问题上陷入死循环。

2. 研究者实证评价

普林斯顿学者刘壮测试后指出：AI自主研究尚未达到可靠替代人类的程度。例如：
- 实验设计常流于表面，无法全面验证假设；
- 易忽略任务上下文（如忘记GPU分区限制）；
- 过度依赖局部最优，缺乏长期探索策略。

行业影响与后续发展

1. 科研范式转变

从”人做实验”到”人设计做实验的AI”：研究员角色转向定义问题、约束条件及方向性指导，重复性调参工作被自动化。
预训练民主化：单GPU即可运行的轻量设计，使中小团队能参与模型优化竞争，降低AI研发门槛。

2. Karpathy的最新动向

2026年5月20日，Karpathy宣布加入Anthropic，专注于预训练团队，目标是”用Claude自身加速预训练研究“。
其核心任务正是将autoresearch理念延伸至大模型基础训练环节，探索AI辅助预训练的规模化路径。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

0.0/ 10

0 人评价

点击⭐️进行评分

相关文章

Qwen3-ForcedAligner-0.6B – 千问推出的非自回归强制对齐模型

Qwen3-ForcedAligner-0.6B – 千问推出的非自回归强制对齐模型

1个月前

0910

MiniCPM-Desk-Pet – 开源AI桌面宠物应用

MiniCPM-Desk-Pet – 开源AI桌面宠物应用

1个月前

0800

SenseNova 6.7 Flash-Lite – 新一代轻量化多模态智能体模型

SenseNova 6.7 Flash-Lite – 新一代轻量化多模态智能体模型

2个月前

0880

Higgs Avatar v1 – 面向语音智能体的实时数字人基础模型

2个月前

01180

暂无评论

none

暂无评论...