软件编程的第三次浪潮：AI大神卡帕西定义“对话式编程”新纪元

人类与计算机交互的方式正迎来根本性变革。前OpenAI联合创始人安德烈·卡帕西（Andrej Karpathy）提出“Software 3.0”概念，指出大语言模型正将编程从传统代码和神经网络权重，推向以自然语言为核心的“对话式”范式，预示着一个由智能体驱动、人机协作更深层次的未来。

硅谷的空气中总是弥漫着变革的气息，但很少有时刻能像现在这样，让人真切感受到软件本身正在经历一场深刻的、范式级的重塑。近日，前OpenAI联合创始人、深度学习专家安德烈·卡帕西（Andrej Karpathy）在Y Combinator（YC）的AI创业学院活动上，发表了一场题为《软件正在发生根本变化》（Software Is Changing (Again)）的演讲，系统阐释了他对未来软件开发图景的洞察。卡帕西不仅提出了“Software 3.0”这一划时代概念，更描绘了一个“说话就能编程”的未来，挑战着我们对“代码”和“程序员”的传统定义¹²。

软件范式的裂变：从手写代码到自然语言编程

卡帕西将软件的演进划分为三个截然不同的阶段。第一阶段，Software 1.0，是我们最熟悉的传统手写代码时代，开发者用C++、Python等编程语言，逐行明确指示计算机执行特定任务。这是一个需要精确逻辑和语法结构的时代，代码如同工程师绘制的精密蓝图，每一个细节都需人工雕琢。

紧随其后的是_Software 2.0_，它代表了神经网络权重的编程。在这个阶段，开发者不再直接编写功能逻辑，而是通过收集大量数据、设计网络架构并运行优化算法，让神经网络_学习_完成任务。例如，训练一个图像识别模型，你不再告诉计算机如何识别猫狗，而是向它展示成千上万张猫狗图片，让它自己从中归纳特征。卡帕西形象地指出，Hugging Face及其Model Atlas正成为Software 2.0时代的“GitHub”，承载着无数训练好的模型权重，如同代码库一样推动着技术的发展。

而现在，我们正迈入一个全新的纪元——Software 3.0。卡帕西强调，这是一种前所未有的编程范式：通过自然语言提示（prompt）来编程大语言模型（LLMs）。这意味着，你的指令不再是晦涩的编程语法，而是日常的英语（或其他自然语言）。例如，传统的软件开发中，要构建一个情感分类器，Software 1.0需要你编写大量规则代码；Software 2.0需要你准备带标签的数据集进行训练；而Software 3.0，你只需简单地对大语言模型说：“判断这条评论是夸人还是骂人？只回复‘夸’或‘骂’！”计算机便能理解并执行。

卡帕西观察到，这种演进并非简单的叠加，而是一场“吞噬”过程。在特斯拉研发Autopilot时，Software 2.0（神经网络）逐渐“吞噬”了大量原本由Software 1.0（C++代码）实现的功能。如今，Software 3.0也正以类似的方式，开始“吞噬”整个技术栈。大语言模型不仅具备类似电网的基础设施属性，通过API按token计费，提供“智能输送”；它们也如同芯片晶圆厂般需要百亿级资本密集投入进行训练；更重要的是，它们正逐渐成为类似操作系统的复杂生态构建者，承载着提示词、工具和Agent等多种组件的运行时环境。这种变革颠覆了传统的技术扩散路径，大语言模型首先在消费者端普及，其真正的杀手级应用可能正从个体用户需求中萌芽。

大语言模型的内在矛盾：超凡智能与认知盲区

尽管大语言模型展现出前所未有的能力，但卡帕西也深入探讨了它们的内在认知缺陷。他将大语言模型比作“人类的静态模拟”，拥有百科全书式的知识和“超人”般的记忆力，能记住海量信息，如同电影《雨人》中拥有完美记忆的主角。然而，这种智能并非完美无瑕。

LLMs的一大显著缺陷是其“锯齿状智能”（Jagged Intelligence）。它们在处理复杂、抽象的任务上表现卓越，但在某些基础逻辑、数值比较或拼写等“常识性”问题上却可能频繁出错，甚至产生“幻觉”，编造不存在的事实。例如，它们可能坚称9.11大于9.9，或者错误地指出“strawberry”中有两个“r”。这种能力分布的不均衡性，使得LLMs的使用充满了意想不到的“认知盲区”。

此外，大语言模型还存在**“记忆碎片”式的遗忘问题**。卡帕西指出，LLMs不具备持续学习和积累经验的能力，它们的“上下文窗口”如同临时工作记忆，一旦信息超出这个设定范围，便会被“遗忘”。他借用电影《记忆碎片》和《初恋50次》的类比，形象地说明了这种“每日记忆清零”的挑战。这种机制使得LLMs在需要长期连贯记忆或持续学习的场景中，面临巨大挑战，需要外部机制（如RAG、数据库）来弥补。同时，LLMs在安全方面也存在限制，容易受到提示注入（prompt injection）等攻击，可能泄露用户数据。

重塑人机协作：面向自主调节的交互与基础设施

面对大语言模型的双重特性——超能力与缺陷并存，卡帕西认为最大的机遇在于开发**“部分自主化应用”**。他强调，直接与原始大语言模型交互（例如在ChatGPT中复制粘贴代码）效率低下，更合理的路径是构建专用应用程序，将LLMs的能力封装并优化。

成功的LLM应用，如代码助手Cursor和智能搜索引擎Perplexity，都具备几个关键特性：

多模型编排：底层整合多个模型（嵌入模型、聊天模型等）以完成复杂任务。
可审计的图形用户界面（GUI）：提供直观的可视化交互，如Cursor的代码差异显示（红绿标识），极大地提升了“生成-验证”循环的效率。人类视觉系统能够比阅读纯文本更快地审查结果。
“自主滑块”机制：允许用户根据任务的复杂性和风险程度，动态调整AI的自主程度，从简单的辅助建议到完全自主决策，确保人类始终保持对系统的最终控制权，如同“钢铁侠战衣”上的自主调节器。卡帕西强调，人类仍是质量瓶颈，避免AI产生过大的、难以审查的变更至关重要。

这种“生成-验证”循环的效率是当前LLM应用设计的核心。它不仅体现在编程工具中，也延伸到教育等领域，通过结构化的学习路径和可审计的中间产物，确保AI在既定框架内工作。卡帕西回顾在特斯拉自动驾驶的经历，指出即使技术看似成熟，全面自主仍需漫长过程，保持谨慎和逐步放权是明智之举。

更令人兴奋的是，自然语言编程的普及极大地降低了软件开发的门槛。卡帕西将这种现象戏称为“Vibe Coding”，认为它让“人人都能成为程序员”，因为自然语言是人类与生俱来的能力。他以自己不会Swift却成功开发出iOS应用为例，说明了这种变革的巨大潜力。然而，他也指出，尽管核心代码编写变得简单，但将应用产品化——如认证、支付、域名部署等DevOps工作——依然繁琐，这些“点击”式的手动操作亟需自动化。

因此，卡帕西呼吁为Agent构建基础设施。他认为大语言模型正在成为数字信息的新型主要消费者和操控者，而现有的大部分互联网内容和基础设施仍然是为人类（通过GUI）或传统计算机（通过API）设计的。为了让Agent更高效地工作，我们需要：

LLM友好的数据格式：例如，使用Markdown而非HTML来描述网站内容（如lm.txt文件），因为Markdown更简洁、易于模型理解和解析。Vercel和Stripe等公司已开始将其文档转换为LLM友好的Markdown格式。
Agent可执行的指令：将“点击此处”等人类指令替换为Agent可以直接调用的curl命令或API接口。
新型上下文协议：如Anthropic的MCP（Model Context Protocol），旨在提供更直接、更高效的Agent交互方式。

此外，还有一些工具正在兴起，例如通过修改URL就能将GitHub仓库内容合并为可直接喂给LLM的文本（如get.ingest），或分析GitHub仓库并生成LLM友好的文档（如Deep Wiki）。这些工具的存在，正弥补了当前LLM调用成本高、操作复杂，以及软件主动适配动力不足的问题。

我们正处在一个前所未有的时代，需要重写和重构大量软件。未来的代码生产者将是专业开发者和具有“数字精灵”属性的大语言模型。理解并熟练运用Software 1.0、2.0和3.0这三种范式，并积极参与到为这些“会犯错的数字精灵”调整基础设施的进程中，将是下一代技术建设者的核心任务。正如卡帕西所言，未来十年，人机协作的边界将持续拓展，一个由对话驱动的编程新世界正徐徐展开。

引用

说话就能编程的时代来了，AI大神卡帕西40分钟演讲精华·36氪·智东西（金碧辉）(2025/6/21)·检索日期2025/6/23 ↩︎
Andrej Karpathy最新演讲爆火！人类已进入「说话就能编程」的软件 3.0 时代·知乎（Andrej Karpathy）(日期不详)·检索日期2025/6/23 ↩︎