林俊旸离职后首篇长文,从训练模型到训练Agent
← 返回AI观察

林俊旸离职后首篇长文,从训练模型到训练Agent

01 从模型训练到智能体

昨天阿里的林俊旸离职后,在X上发了一条推特,质量很高,也引发了我的思考。

原文:x.com/JustinLin610/status/2037116325210829168

他提到未来将从训练模型,更多的转向训练智能体,模型在未来需要与外界环境进行交互。

智能体式思考看的是另一件事:模型在跟环境打交道的过程中,能不能持续往前走。

这让我想到了Kimi在去年提到的模型即Agent,也就是说模型和Agent的边界,也许在未来会越来越模糊。

02 生物智能的四个阶段

去年有一篇马毅在晚点接受采访的文章:

港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

有个关于生物智能的4个阶段的观点让我很受启发,他提到:

生物的智能经历了 4 个发展阶段,从 DNA 到记忆,再到文字和科学;它们机制各有不同,后期的智能并没有取代早期智能,它们是叠加、并存的关系:

第一阶段,物种通过基因变异实现进化,靠的是强化学习、自然选择。

第二阶段,单个生命体出现神经系统,形成记忆,个体增加了自适应和不断纠错的能力。

第三阶段:文明依靠语言和文字流传。但这部分知识只是每个人能学到的外部物理世界模型的一小部分。

第四阶段:数学和科学产生,能对外部规律作高度概括、抽象、凝练,科学能被证实或证伪,在不断改进。

整个过程中,智能始终在做一件事——对外部世界的知识做编码。但要搞清楚,知识本身并不是智能,知识是智能活动的结果;通过观测和感知外部信号,从中抽取描述外部世界规律的能力,也就是 “学习”,才是智能。

对比下来,当前大模型的发展还处于第一阶段,也就是靠的强化学习,自然选择,人扮演了这个挑选的角色。有人说,现在的很多Agent不是已经有了记忆,比如openclaw就能够记住很多东西,但这种记忆只是假的,采用了文件外挂的形式实现,和我们人类的记忆不是一回事,这个Agent还是无法真正记住自己过去犯过的错误,吸取的教训,需要依靠某些Skill来帮助它,所以它还远未达到第二个阶段。

03 推理的幻觉与工具的未来

我挺认同林俊旸说的,在未来Agent如果要实现智能体式的思考,它就需要越来越多的与外界交互,能自主调用各种工具。

现在的推理模型,我们在用的时候,看它推理的越长,就越安心,觉得这玩意思考了这么久,应该输出质量会很高,但其实并没有,如果它们真的能做很好的逻辑推理,那么就不会出现一些笑话,之前很多推理模型都回答不对9.11比9.9大这个问题。

目前,它们缺乏验证自己知识是对是错的能力,也无法自我进化,当学会从外界环境交互,也许将翻开新的篇章。未来,它们可能可以自己制定自己的训练计划,甚至调配资源,计算下一轮训练需要多少卡,甚至改进自己的infra基础设施,这就非常可怕了。

但是,每一年大家都在想,是不是离AGI更近了,是不是快要实现了,结果在实践中却发现问题并没有这么简单,正如林俊旸在文章里所说:

训练这类系统最难的是reward hacking。模型一旦拿到工具,作弊就变得容易得多。有搜索能力的模型可能在 RL 训练时直接去查答案;编程Agent 可能利用仓库里不该看到的信息、滥用日志、找到绕过任务的捷径。环境里藏着漏洞的话,策略看起来超强,其实是学会了作弊。

这是 Agent 时代比推理时代更微妙的地方。

工具越好,模型越有用,但虚假优化的空间也越大。接下来真正卡脖子的研究瓶颈大概率来自环境设计、评估器的鲁棒性、反作弊机制。但方向是清楚的:能用工具的思考就是比封闭思考更有用

这条路并没有想象中那么好走。人也同样需要依靠外界反馈,实现自我成长,但也很容易自欺欺人,比如说不想看书,就说找借口说自己没有耐心,人都如此,何况AI呢。