| 来源: Andrej Karpathy

Karpathy 2025 LLM 年度回顾

前特斯拉AI负责人的深度总结:我们不是在培养动物,而是在召唤幽灵。RLVR、锯齿智能、Vibe Coding——理解2025年LLM的6大范式转变。

Karpathy 是前特斯拉 AI 负责人、OpenAI 创始成员。这篇年度回顾总结了他眼中 2025 年 LLM 领域最重要的6大范式转变。

他的核心判断是:我们不是在"培养动物",而是在"召唤幽灵"。 LLM的智能呈现出锯齿状——同时是天才博学者和被小学生骗题的糊涂蛋。


1. RLVR:从人类反馈到可验证奖励

2025年最重要的技术范式转变。

以前训练LLM是三阶段:预训练 → 监督微调 → RLHF(人类反馈)。

2025年加了第四步:RLVR(可验证奖励强化学习)

什么是"可验证环境"?就是有标准答案的地方——数学题、代码运行、逻辑谜题。在这些环境里,LLM不需要人类告诉它"什么是好的推理过程",它自己会摸索出来。

结果就是:LLM学会了"推理"——分解问题、中间计算、来回试探。OpenAI的o1/o3、DeepSeek R1就是这样训练出来的。


2. 幽灵vs动物:锯齿状智能

Karpathy用了一个绝妙的比喻:

我们不是在"培养动物",而是在"召唤幽灵"。

动物的智能是为了"部落在丛林中生存"而优化的。 LLM的智能是为了"模仿人类文本、在数学题中得分、在LM Arena获得点赞"而优化的。

优化目标完全不同,所以产生的"智能形态"也完全不同:

这就是"锯齿智能"——不是均匀的、可预测的能力曲线,而是高高低低的锯齿。

Karpathy也因此对Benchmark失去信任:可验证环境天然适合RLVR,"训练测试集"已成为新艺术。


3. Cursor:LLM应用新层级

Cursor的崛起揭示了"LLM应用"的新层级,人们开始谈论"Cursor for X":

  1. 上下文工程 — 自动收集和组织相关信息
  2. 多LLM调用编排 — 复杂的DAG调用链,平衡性能和成本
  3. 垂直GUI — 为特定领域定制的界面
  4. 自主性滑块 — 让用户控制AI的自主程度

Karpathy认为:LLM实验室会培养"通用大学生",但LLM应用会把他们组织、微调成"特定领域的专业人士"。


4. Claude Code:住在你电脑上的幽灵

Claude Code是第一个真正令人信服的LLM Agent演示——不是一个网站,而是一个住在你电脑上的小幽灵。

Karpathy说OpenAI搞错了方向:他们把Agent放在云端容器里。而Anthropic把Claude Code做成本地CLI工具是正确的——因为Agent需要你的环境、数据、配置、低延迟交互。

关键不是"AI运算在哪里执行",而是它能访问你已经存在的电脑、安装、上下文、数据、密钥和配置。


5. Vibe Coding:代码变得免费

Karpathy自己造的词。意思是:用英语描述你想要什么,AI帮你写代码,你甚至不用看代码就能得到一个能用的程序。

他自己用这种方式:

代码变得免费、短暂、可丢弃

这是LLM"权力下放"的又一个例子:普通人从LLM获益远超专业人士、企业和政府。


6. Nano Banana:LLM GUI的雏形

现在和LLM"聊天"就像1980年代用命令行。文字是计算机喜欢的格式,但不是人类喜欢的格式。

人类喜欢图像、信息图、动画、Web应用

Google的Gemini Nano Banana是LLM GUI的雏形——LLM不只是说话,而是用视觉方式和你交流。这不只是关于图像生成本身,而是文本生成、图像生成和世界知识的联合能力。


Karpathy的总体判断

"LLM同时比我预期的聪明得多,也比我预期的蠢得多。"

"我们还没实现LLM潜力的10%,即使是现有能力。"

"进步会继续,但还有很多工作要做。"

看似矛盾,实则务实。锯齿智能意味着:某些方向会快速突破,某些方向会长期卡住。


延伸阅读

Karpathy在这些文章中深入探讨了相关话题:


一句话总结:LLM是被召唤出的幽灵,不是培养的动物——理解这一点,才能理解它的锯齿智能和无限可能。

查看原文