Karpathy 2025 LLM 年度回顾

Karpathy 是前特斯拉 AI 负责人、OpenAI 创始成员。这篇年度回顾总结了他眼中 2025 年 LLM 领域最重要的6大范式转变。

他的核心判断是：我们不是在"培养动物"，而是在"召唤幽灵"。 LLM的智能呈现出锯齿状——同时是天才博学者和被小学生骗题的糊涂蛋。

1. RLVR：从人类反馈到可验证奖励

2025年最重要的技术范式转变。

以前训练LLM是三阶段：预训练 → 监督微调 → RLHF（人类反馈）。

2025年加了第四步：RLVR（可验证奖励强化学习）。

什么是"可验证环境"？就是有标准答案的地方——数学题、代码运行、逻辑谜题。在这些环境里，LLM不需要人类告诉它"什么是好的推理过程"，它自己会摸索出来。

结果就是：LLM学会了"推理"——分解问题、中间计算、来回试探。OpenAI的o1/o3、DeepSeek R1就是这样训练出来的。

Karpathy用了一个绝妙的比喻：

我们不是在"培养动物"，而是在"召唤幽灵"。

动物的智能是为了"部落在丛林中生存"而优化的。 LLM的智能是为了"模仿人类文本、在数学题中得分、在LM Arena获得点赞"而优化的。

优化目标完全不同，所以产生的"智能形态"也完全不同：

这就是"锯齿智能"——不是均匀的、可预测的能力曲线，而是高高低低的锯齿。

Karpathy也因此对Benchmark失去信任：可验证环境天然适合RLVR，"训练测试集"已成为新艺术。

Cursor的崛起揭示了"LLM应用"的新层级，人们开始谈论"Cursor for X"：

Karpathy认为：LLM实验室会培养"通用大学生"，但LLM应用会把他们组织、微调成"特定领域的专业人士"。

Claude Code是第一个真正令人信服的LLM Agent演示——不是一个网站，而是一个住在你电脑上的小幽灵。

Karpathy说OpenAI搞错了方向：他们把Agent放在云端容器里。而Anthropic把Claude Code做成本地CLI工具是正确的——因为Agent需要你的环境、数据、配置、低延迟交互。

关键不是"AI运算在哪里执行"，而是它能访问你已经存在的电脑、安装、上下文、数据、密钥和配置。

Karpathy自己造的词。意思是：用英语描述你想要什么，AI帮你写代码，你甚至不用看代码就能得到一个能用的程序。

他自己用这种方式：

代码变得免费、短暂、可丢弃。

这是LLM"权力下放"的又一个例子：普通人从LLM获益远超专业人士、企业和政府。

现在和LLM"聊天"就像1980年代用命令行。文字是计算机喜欢的格式，但不是人类喜欢的格式。

人类喜欢图像、信息图、动画、Web应用。

Google的Gemini Nano Banana是LLM GUI的雏形——LLM不只是说话，而是用视觉方式和你交流。这不只是关于图像生成本身，而是文本生成、图像生成和世界知识的联合能力。

"LLM同时比我预期的聪明得多，也比我预期的蠢得多。"

"我们还没实现LLM潜力的10%，即使是现有能力。"

"进步会继续，但还有很多工作要做。"

看似矛盾，实则务实。锯齿智能意味着：某些方向会快速突破，某些方向会长期卡住。

Karpathy在这些文章中深入探讨了相关话题：

一句话总结：LLM是被召唤出的幽灵，不是培养的动物——理解这一点，才能理解它的锯齿智能和无限可能。