# Towards End-to-End Automation of AI Research

## 背景速查

### 核心里程碑

| 时间 | 工作 | 贡献 | 局限 |
|------|------|------|------|
| 2010s | **AutoML 1.0** (HPO/NAS) | 自动化模型选择、超参搜索、架构搜索 | 只解决单一环节，不懂"为什么" |
| 2023 | **MLAgentBench** (U. Chicago) | 标准化评测框架：Agent 读代码→跑实验→写报告 | 任务局限在 6 个 benchmark，评分偏粗糙 |
| 2024 | **The AI Scientist** (Sakana AI) | **首个闭环**：idea gen → 写代码 → 跑实验 → 写论文 → 审稿 | novelty 不够深，局限在 diffusion/transformer 变体 |
| 2024 | **ResearchAgent** (KAIST) | 读论文图谱 → 组合式 idea 生成 | 不做实验，只产 idea |
| 2025 | **AI Scientist v2 / Open Scholar** | 自改进循环 + 开源框架 | 仍在早期 |

### 核心框架：AI 研究的自动化闭环

```
┌──────────┐   ┌────────────┐   ┌──────────┐   ┌────────────┐   ┌──────────┐   ┌──────────┐
│ Idea     │ → │ Experiment │ → │ Execute  │ → │ Analyze    │ → │ Write    │ → │ Review   │
│ Gen      │   │ Design     │   │ (GPU)    │   │ Interpret  │   │ Paper    │   │          │
└──────────┘   └────────────┘   └──────────┘   └────────────┘   └──────────┘   └──────────┘
     ↑                                                                               │
     └────────────────────────── 迭代（open-ended loop）─────────────────────────────┘
```

- **AutoML 1.0 vs 2.0**：1.0 是"参数级"自动化（搜最优超参），2.0 是"工作流级"自动化（管整个研究 process）
- **LLM 改变了什么**：过去自动化靠规则/贝叶斯/进化算法，现在 LLM 能做**生成式 idea 探索 + 代码生成 + 中英文论文写作**
- **The AI Scientist 的关键设计**：template-guided idea gen → code execution sandbox → LaTeX paper → LLM-as-Reviewer
- **当前上限**：生成的 idea 被训练数据分布限制，真·novelty 不足；自动化跑出来的实验可能有隐性 bug；缺"为什么"的深度推理

### 与你的场景的关联

- 你已经在做 **Auto Research / Agent 做 CTR 超参调优** → 这正是端到端自动化 AI 研究的子集（HPO → 效果分析 → 报告生成）
- **离线超参搜索 + 双周会汇报** → 可以设计 Agent pipeline：搜参 → 自动分析 bad case → 生成结构化对比表报告
- **费曼学习系统** 的选题（Auto-Research, Hermes框架）可以往这个方向拓展

---

## 等你来写

请用 ≤300 字白话解释你的理解。不需要虚构"讲给不懂的朋友听"的场景——直接把你脑子里对"端到端自动化 AI 研究"的理解写出来就好。

> （空——等待你的初稿）

---

## 预备追问

写完后，我会先看你的理解，然后比如问这些方向来帮你检验真懂：

1. **The AI Scientist 跟传统 AutoML（NAS/HPO）最本质的区别是什么？** 不只是"更自动化了"这种模糊答案——想想它们各自在决策链上的位置不同在哪。

2. **你怎么理解"end-to-end"在这篇话题里的含义？** 从输入到输出的边界在哪？哪些环节还是人不能省的？

3. **你说"LLM 能做 research"——那它产出的是一个"实验结果"还是一个"科学发现"？** 这两个的区别在哪？实验跑通了不代表懂为什么。

4. **结合你的 CTR 效率分场景：如果你要搭建一个自动化研究 Agent，哪一步你最想先自动化？** 让你自己想象一下它的输入输出是什么。

5. **"完全自动化 AI 研究"会遇到一个 self-referential 的问题：如果 Agent 自动研究怎么改进 Agent 本身……** 这个循环怎么收敛？有终止条件吗？

---

*选题时间：2026-05-21 | 资料提供者：小八 | 下一次费曼提醒：24h 后*
