林俊旸离职后首篇长文，从训练模型到训练Agent

01 从模型训练到智能体

昨天阿里的林俊旸离职后，在X上发了一条推特，质量很高，也引发了我的思考。

原文：x.com/JustinLin610/status/2037116325210829168

他提到未来将从训练模型，更多的转向训练智能体，模型在未来需要与外界环境进行交互。

智能体式思考看的是另一件事：模型在跟环境打交道的过程中，能不能持续往前走。

这让我想到了Kimi在去年提到的模型即Agent，也就是说模型和Agent的边界，也许在未来会越来越模糊。

02 生物智能的四个阶段

去年有一篇马毅在晚点接受采访的文章：

港大马毅谈智能史：DNA 是最早的大模型，智能的本质是减熵

有个关于生物智能的4个阶段的观点让我很受启发，他提到：

生物的智能经历了 4 个发展阶段，从 DNA 到记忆，再到文字和科学；它们机制各有不同，后期的智能并没有取代早期智能，它们是叠加、并存的关系：

第一阶段，物种通过基因变异实现进化，靠的是强化学习、自然选择。

第二阶段，单个生命体出现神经系统，形成记忆，个体增加了自适应和不断纠错的能力。

第三阶段：文明依靠语言和文字流传。但这部分知识只是每个人能学到的外部物理世界模型的一小部分。

第四阶段：数学和科学产生，能对外部规律作高度概括、抽象、凝练，科学能被证实或证伪，在不断改进。

整个过程中，智能始终在做一件事——对外部世界的知识做编码。但要搞清楚，知识本身并不是智能，知识是智能活动的结果；通过观测和感知外部信号，从中抽取描述外部世界规律的能力，也就是 “学习”，才是智能。

对比下来，当前大模型的发展还处于第一阶段，也就是靠的强化学习，自然选择，人扮演了这个挑选的角色。有人说，现在的很多Agent不是已经有了记忆，比如openclaw就能够记住很多东西，但这种记忆只是假的，采用了文件外挂的形式实现，和我们人类的记忆不是一回事，这个Agent还是无法真正记住自己过去犯过的错误，吸取的教训，需要依靠某些Skill来帮助它，所以它还远未达到第二个阶段。

03 推理的幻觉与工具的未来

我挺认同林俊旸说的，在未来Agent如果要实现智能体式的思考，它就需要越来越多的与外界交互，能自主调用各种工具。

现在的推理模型，我们在用的时候，看它推理的越长，就越安心，觉得这玩意思考了这么久，应该输出质量会很高，但其实并没有，如果它们真的能做很好的逻辑推理，那么就不会出现一些笑话，之前很多推理模型都回答不对9.11比9.9大这个问题。

目前，它们缺乏验证自己知识是对是错的能力，也无法自我进化，当学会从外界环境交互，也许将翻开新的篇章。未来，它们可能可以自己制定自己的训练计划，甚至调配资源，计算下一轮训练需要多少卡，甚至改进自己的infra基础设施，这就非常可怕了。

但是，每一年大家都在想，是不是离AGI更近了，是不是快要实现了，结果在实践中却发现问题并没有这么简单，正如林俊旸在文章里所说：

训练这类系统最难的是reward hacking。模型一旦拿到工具，作弊就变得容易得多。有搜索能力的模型可能在 RL 训练时直接去查答案；编程Agent 可能利用仓库里不该看到的信息、滥用日志、找到绕过任务的捷径。环境里藏着漏洞的话，策略看起来超强，其实是学会了作弊。

这是 Agent 时代比推理时代更微妙的地方。

工具越好，模型越有用，但虚假优化的空间也越大。接下来真正卡脖子的研究瓶颈大概率来自环境设计、评估器的鲁棒性、反作弊机制。但方向是清楚的：能用工具的思考就是比封闭思考更有用

这条路并没有想象中那么好走。人也同样需要依靠外界反馈，实现自我成长，但也很容易自欺欺人，比如说不想看书，就说找借口说自己没有耐心，人都如此，何况AI呢。