林俊旸离职后首发长文，智能体式思考将成主流

3月26日晚间，前千问大模型技术负责人林俊旸在社交平台发文，在从阿里离职后配资炒股APP，他首度发布长文详谈自己对大模型发展路线的理解及对AI下一阶段的预判。

林俊旸表示，过去两年重塑了行业对大模型的评估方式与核心期待。OpenAI 的 o1 表明，"思考"可以成为一种被训练出来的能力。DeepSeek-R1 紧随其后，证明推理式的后训练可以在原始实验室之外被复现、被扩展。这一阶段至关重要。但 2025 年上半年，行业焦点主要停留在"推理式思考"本身：如何让模型在推理的时候多想一会儿。现在该问下一步了。他的判断是智能体式思考：为了行动而思考，在与环境交互的过程中，并根据来自世界的反馈持续更新计划。

他提到，2025 年初，千问团队有一个很大的野心：做一个统一的系统，让思考模式和指令模式合二为一，支持可调节的推理努力程度（类似于低/中/高推理设置），甚至能根据提示词和上下文自动推断合适的推理量，让模型自主决定何时直接回答、何时稍作思考、何时为真正困难的问题投入大量计算。概念上，这是正确的方向。但"合并"说起来容易，做好却极难。

真正的难点在于数据。当人们谈论合并思考与指令时，往往首先想到模型侧的兼容性，更深层的问题是，两种模式的数据分布和行为目标存在显著差异。在尝试平衡模型合并与提升后训练数据质量和多样性的过程中，团队并未把所有事情都做对，结果往往是在两个方向上都表现平庸："思考"行为变得嘈杂、冗余或不够果断，而"指令"行为则变得不够清晰、不够可靠，且比商业用户实际想要的成本更高。

分开做在实践中仍然有吸引力。2025 年下半年，Qwen 的 2507 版本就发了独立的 Instruct 和 Thinking 版本，30B 和 235B 各一套。而他的最终思考是，真正成功的合并需要一个平滑的推理力度光谱，模型能自己判断该花多少力气去想。

“推理链更长，不等于模型更聪明。很多时候，推理链越长，反而说明模型在乱花算力。”林俊旸在文中表示，他提到，千问团队意识到，行业正在从训练模型的时代，走向训练智能体的时代，它的定义特征是跟真实世界的闭环交互。

智能体式思考和推理式思考，意味着不同的优化目标，推理式思考通常以最终答案前的内部思辨质量来评判：模型能否解出定理、写出证明、生成正确代码或通过基准测试。而智能体思维关注的是：模型能否在与环境交互的过程中持续取得进展。

这意味着，核心问题从“模型能否思考得足够久？”转变为“模型能不能用一种撑得起有效行动的方式来思考？”模型训练的核心对象也随之变了，变成了模型加环境的整个系统。