Karpathy 是前特斯拉 AI 负责人、OpenAI 创始成员。这篇推文记录了他过去几周密集使用 Claude Code 编程的真实体验——不是 hype,而是一线开发者的观察和反思。
核心判断:LLM 智能体的能力在 2025 年 12 月前后跨越了某种连贯性阈值,引发了软件工程的相变。
编程工作流:二十年最大的转变
鉴于 LLM 编程能力的最新提升,和许多人一样,我在短短一个月内经历了巨大转变:
- 11月:80% 手动+自动补全,20% 智能体
- 12月:80% 智能体编程,20% 手动编辑和收尾
也就是说,我现在真的主要是用英语在编程了,有点不好意思地用语言告诉 LLM 该写什么代码……就是用文字描述。
这多少有点伤自尊,但用大规模"代码动作"来操控软件的能力实在太有用了,尤其是当你适应它、配置它、学会使用它、并理解它能做什么不能做什么之后。
这是我近二十年编程生涯中对基本工作流最大的一次改变,而且发生在短短几周内。
我估计有两位数百分比的工程师正在经历类似的转变,而普通大众对此的感知程度可能还在低个位数百分比。
IDE 和智能体集群:炒作过度
在我看来,"不再需要 IDE"和"智能体集群"的炒作都过于超前了。
模型肯定还会犯错,如果你有任何真正在意的代码,我建议你像盯着鹰一样盯着它们,同时在旁边开一个大 IDE。
错误的性质变了
不再是简单的语法错误,而是那种有点马虎、急躁的初级开发者可能会犯的微妙概念性错误:
- 错误假设:模型最常见的问题是替你做出错误假设,然后一路跑下去完全不核实
- 不管理困惑:不寻求澄清,不指出不一致之处,不呈现权衡取舍
- 不会反驳:不在该反驳时反驳,而且仍然有点过于谄媚
- 过度复杂化:特别喜欢把代码和 API 搞得过于复杂,膨胀抽象层,不清理死代码
- 臃肿实现:会用超过 1000 行代码实现一个低效、臃肿、脆弱的结构,然后你说"呃,你不能直接这样做吗?"它们就会说"当然可以!"然后立刻把代码缩减到 100 行
- 顺手改动:有时会在处理任务时顺手修改或删除不喜欢或不太理解的注释和代码,即使这些与手头任务完全无关
在计划模式下情况会好一些,但确实需要一个轻量级的内联计划模式。
尽管在 CLAUDE.md 中做了一些简单的指令尝试,这些问题依然存在。尽管有这些问题,它仍然是一个巨大的净改进,很难想象再回到手动编程。
我的当前工作流
每个人都有自己正在发展的工作流,我目前的做法是:
- 左边:在 ghostty 窗口/标签页开几个小型 Claude Code 会话
- 右边:IDE 用于查看代码和手动编辑
韧性:感受 AGI 的时刻
看着智能体不知疲倦地钻研某个问题真的很有意思。
它们永远不会累,永远不会气馁,就是一直尝试各种方法,而人类早就放弃了等改天再战。
看着它在某件事上挣扎很长时间,然后 30 分钟后终于成功,这是一个"感受 AGI"的时刻。
你意识到耐力是工作的一个核心瓶颈,而有了 LLM,这个瓶颈被大大提升了。
加速还是扩展?
如何衡量 LLM 辅助带来的"加速"并不清楚。
当然,在我原本要做的事情上,我感觉明显快了很多,但主要效果是我做的事情比原计划多得多:
- 我可以写各种以前根本不值得写的代码
- 我可以接触以前因为知识/技能不足而无法触碰的代码
所以这当然是加速,但更可能是一种扩展。
杠杆:从命令式到声明式
LLM 特别擅长循环执行直到达成特定目标,这也是"感受 AGI"魔力的主要来源。
不要告诉它做什么,给它成功标准,然后看着它行动。
- 让它先写测试,然后通过测试
- 让它与浏览器 MCP 形成闭环
- 先写一个很可能正确的朴素算法,然后让它在保证正确性的前提下优化
把你的方法从命令式转变为声明式,让智能体循环更久,获得更大杠杆。
编程变得更有趣了
我没有预料到的是,有了智能体,编程感觉更有趣了。
因为很多填空式的繁琐工作被移除了,剩下的是创造性的部分。我也更少感到受阻/卡住(这很不爽),而且我体验到更多勇气,因为几乎总有办法与它携手合作取得一些积极进展。
我也看到了其他人表达相反的情绪。LLM 编程会把工程师分成两类:
- 主要喜欢编程本身的人
- 主要喜欢构建产品的人
能力退化的隐忧
我已经注意到,我手动编写代码的能力正在慢慢退化。
生成(写代码)和判别(读代码)是大脑中不同的能力。主要由于编程中涉及的许多小的、大多是语法层面的细节,即使你难以写代码,你仍然可以很好地审查代码。
2026:垃圾末日之年
我正在为 2026 年做好准备,这将是整个 GitHub、Substack、arXiv、X/Instagram 以及所有数字媒体的垃圾末日之年。
我们还会看到更多 AI 炒作的生产力表演(这还可能吗?),以及真正实际的改进。
几个开放问题
- 10 倍工程师会怎样——平均水平和顶尖工程师之间的生产力比率会发生什么变化?这个比率很可能会大幅增长。
- 在 LLM 的武装下,通才是否会越来越超越专才?LLM 在填空(微观层面)上比在宏观战略上好得多。
- 未来的 LLM 编程体验会是什么样的?像玩星际争霸?玩异星工厂?演奏音乐?
- 社会有多大比例受制于数字化知识工作的瓶颈?
结论:相变已经发生
LLM 智能体能力(尤其是 Claude 和 Codex)在 2025 年 12 月前后跨越了某种连贯性阈值,引发了软件工程及相关领域的相变。
智能部分突然感觉大大领先于其他一切——集成(工具、知识)、新组织工作流的必要性、流程、更广泛的扩散。
2026 年将是高能量的一年,整个行业将消化吸收这些新能力。
一句话总结:用大规模"代码动作"操控软件的能力实在太有用了——这是二十年编程生涯最大的工作流转变,发生在短短几周内。