Karpathy 是前特斯拉 AI 负责人、OpenAI 创始成员。这篇年度回顾总结了他眼中 2025 年 LLM 领域最重要的6大范式转变。
他的核心判断是:我们不是在"培养动物",而是在"召唤幽灵"。 LLM的智能呈现出锯齿状——同时是天才博学者和被小学生骗题的糊涂蛋。
1. RLVR:从人类反馈到可验证奖励
2025年最重要的技术范式转变。
以前训练LLM是三阶段:预训练 → 监督微调 → RLHF(人类反馈)。
2025年加了第四步:RLVR(可验证奖励强化学习)。
什么是"可验证环境"?就是有标准答案的地方——数学题、代码运行、逻辑谜题。在这些环境里,LLM不需要人类告诉它"什么是好的推理过程",它自己会摸索出来。
结果就是:LLM学会了"推理"——分解问题、中间计算、来回试探。OpenAI的o1/o3、DeepSeek R1就是这样训练出来的。
2. 幽灵vs动物:锯齿状智能
Karpathy用了一个绝妙的比喻:
我们不是在"培养动物",而是在"召唤幽灵"。
动物的智能是为了"部落在丛林中生存"而优化的。 LLM的智能是为了"模仿人类文本、在数学题中得分、在LM Arena获得点赞"而优化的。
优化目标完全不同,所以产生的"智能形态"也完全不同:
- 同时是天才博学者(在可验证领域)
- 同时是糊涂小学生(随时可能被越狱骗走你的数据)
这就是"锯齿智能"——不是均匀的、可预测的能力曲线,而是高高低低的锯齿。
Karpathy也因此对Benchmark失去信任:可验证环境天然适合RLVR,"训练测试集"已成为新艺术。
3. Cursor:LLM应用新层级
Cursor的崛起揭示了"LLM应用"的新层级,人们开始谈论"Cursor for X":
- 上下文工程 — 自动收集和组织相关信息
- 多LLM调用编排 — 复杂的DAG调用链,平衡性能和成本
- 垂直GUI — 为特定领域定制的界面
- 自主性滑块 — 让用户控制AI的自主程度
Karpathy认为:LLM实验室会培养"通用大学生",但LLM应用会把他们组织、微调成"特定领域的专业人士"。
4. Claude Code:住在你电脑上的幽灵
Claude Code是第一个真正令人信服的LLM Agent演示——不是一个网站,而是一个住在你电脑上的小幽灵。
Karpathy说OpenAI搞错了方向:他们把Agent放在云端容器里。而Anthropic把Claude Code做成本地CLI工具是正确的——因为Agent需要你的环境、数据、配置、低延迟交互。
关键不是"AI运算在哪里执行",而是它能访问你已经存在的电脑、安装、上下文、数据、密钥和配置。
5. Vibe Coding:代码变得免费
Karpathy自己造的词。意思是:用英语描述你想要什么,AI帮你写代码,你甚至不用看代码就能得到一个能用的程序。
他自己用这种方式:
- 用Rust写了一个BPE分词器(他并不精通Rust)
- 写了很多"用完就扔"的临时程序
- 甚至为了找一个bug专门vibe code了一整个app
代码变得免费、短暂、可丢弃。
这是LLM"权力下放"的又一个例子:普通人从LLM获益远超专业人士、企业和政府。
6. Nano Banana:LLM GUI的雏形
现在和LLM"聊天"就像1980年代用命令行。文字是计算机喜欢的格式,但不是人类喜欢的格式。
人类喜欢图像、信息图、动画、Web应用。
Google的Gemini Nano Banana是LLM GUI的雏形——LLM不只是说话,而是用视觉方式和你交流。这不只是关于图像生成本身,而是文本生成、图像生成和世界知识的联合能力。
Karpathy的总体判断
"LLM同时比我预期的聪明得多,也比我预期的蠢得多。"
"我们还没实现LLM潜力的10%,即使是现有能力。"
"进步会继续,但还有很多工作要做。"
看似矛盾,实则务实。锯齿智能意味着:某些方向会快速突破,某些方向会长期卡住。
延伸阅读
Karpathy在这些文章中深入探讨了相关话题:
一句话总结:LLM是被召唤出的幽灵,不是培养的动物——理解这一点,才能理解它的锯齿智能和无限可能。