从压缩到推理:张祥雨对大模型智能以及未来发展的六个认知

上一期周报中推荐的“对阶跃星辰首席科学家张祥雨的访谈”,本文从中提取出六句话作为探讨主线。
核心洞见:
- 关于视觉智能的瓶颈: “对于单纯依靠视觉这个domain(尤其是静态图像)就可以学出智能,达到CV(计算机视觉)领域的GPT时刻的说法,是比较悲观的...理解和生成、人类对齐这三者是割裂的。”
- 关于大模型的“反常识”现象: “模型的通用对话能力(尤其是情商)和知识量确实是模型越大越强,但推理能力(尤其是数学这种局部推理能力)其实是表现为先上升再平稳,扩大到一定程度反而下降。”
- 关于NTP范式的本质缺陷: “更大的压缩率未必对应更高的计算精度...它(大模型)会找到最可靠、最有可能达到目标的路径(而不是最正确的)。”
- 关于o1范式的核心: “o1范式本质是一种Meta CoT(CoT的CoT,对思维链的思考),能让模型在多种CoT pattern之间自由切换,进行排列组合,解决更复杂的网状问题。”
- 关于Long Context的警示: “光是这个角度来讲long context的方式就是不对的...信息如果不加工压缩,无法提炼精炼表示,就无法产生智能...反而是智能倒退。”
- 关于自主学习的未来: “自主学习是将目标放宽,模型得自己去找目标,自己来学习自己的价值...OpenAI的agent是能够独立工作,自我进化。”
具体探讨
1. 为何图像本身难以孕育通用智能?
“对于单纯依靠视觉这个domain(尤其是静态图像)就可以学出智能,达到CV(计算机视觉)领域的GPT时刻的说法,是比较悲观的...
理解和生成、人类对齐
这三者是割裂的。”
这句论断几乎为过去十年计算机视觉领域的主流探索方向画上了一个句号。其核心在于,祥雨老师指出了静态图像这种数据形态的内在局限性。
语言,作为人类思想的直接产物,其“理解”(通过上下文预测)、“生成”(写出连贯的句子)和“对齐”(符合人类的语法和逻辑)是三位一体的。训练一个语言模型,本质上就是在同时提升这三种能力。
而图像不同。一张图片由自然界"生成"
,它本身并不包含“如何被理解”的信息。一个能完美生成风景照的AI,不代表它能“理解”画中的意境;而我们对一张图片的“理解”(比如认出一只猫),与这张图片像素点的物理分布之间,没有必然的、可供模型直接学习的自洽关系。这种“三角割裂”,导致纯视觉模型难以通过自监督的方式,实现类似GPT那样的智能涌现。
2. 大模型推理能力的反常识衰减
“模型的通用对话能力(尤其是情商)和知识量确实是模型越大越强,但
推理能力
(尤其是数学这种局部推理能力)其实是表现为先上升再平稳,扩大到一定程度`反而下降。”
这或许是整场访谈中最具颠覆性的观察。这对更大模型意味着各方面能力持续增强
的简单化认知提出了质疑,也引发了关于 Scaling Law 在认知任务维度上是否普适的讨论。
为什么会出现这种现象?祥雨发现,超大模型在面对多步推理问题时,会表现出一种“智能的傲慢”——它倾向于“跳步”。它不再像小模型那样老老实实地一步步计算,而是凭借其强大的记忆和模式匹配能力
,试图直接给出“它认为正确”的答案。
由于其强大的语义匹配能力,大模型在多步推理任务中往往倾向于使用训练中出现过的解法模式直接生成答案
,而非逐步展开逻辑链条。这种"捷径式生成"
在语言任务中有效,但在对中间步骤精度要求极高的数学问题中,反而容易失误。
小模型由于无法复用复杂语义模式,更倾向于遵循训练中学到的通用解题策略
,逐步展开推理。这种‘保守性’反而在数学问题上带来了某种程度的稳定性。
3. Next Token Prediction的局限
“更大的压缩率未必对应更高的计算精度...它(大模型)会找到最可靠、最有可能达到目标的路径(而不是最正确的)。”
为何大模型会“跳步”?祥雨将其归因于当前大模型训练范式——Next Token Prediction(NTP)的机制局限。
NTP的核心目标,是从信息论
的角度,实现对训练数据的“最大化压缩”。模型通过学习,力求让自己的输出分布无限接近于训练数据的分布。当训练数据中包含了大量“问题-答案”式的人类语料(人类也经常省略中间过程)时,一个足够强大的模型,为了达到更高的“压缩率”
,就会学会直接输出答案这种“最高效”的路径。
而“一步步推导”这种路径,虽然更“正确”,但从“压缩”的角度看,它可能不是最优的。这就导致了模型的优化目标(压缩率)与我们对它的期望(正确率)之间,出现了根本性的Gap(鸿沟)。
NTP旨在通过最大化似然(可能性),学习训练数据中token序列的分布规律,从而实现对语言序列的信息压缩
。然而,压缩最优路径并不必然对应推理最优路径,特别当训练语料中包含大量‘省略过程’的答案时,模型就更可能选择直接生成答案
这一概率最大的压缩策略,而非展开完整推理过程。
4. o1范式与“思维链的思维链”
“o1范式本质是一种
Meta CoT
(CoT的CoT,对思维链的思考),能让模型在多种CoT pattern(模式)之间自由切换,进行排列组合,解决更复杂的网状问题。”
如何解决NTP的缺陷?答案是引入强化学习(RL),直接以“任务的最终成败”为优化目标。而o1系列模型,则是将这一思想发挥到极致的典范。
o1范式的革命性,不在于更强的RL算法,而在于它为模型的“思维链(CoT)”注入了两种全新的能力:
- 反思与反悔: 模型在推理过程中,如果发现一条路走不通,它可以“反悔”,退回到上一个岔路口,尝试另一条路径。
- 多分支探索: 它可以在一个关键节点,同时探索多种不同的可能性。
这使得模型的思考过程,从一条脆弱的“单行线”,变成了一张坚韧的、可以不断试错和修正的“网”。祥雨将其称为“Meta CoT”——一种对“如何思考”本身的思考,这是智能的一次巨大跃迁。
Meta CoT,不是单一的推理链展开,而是对不同思维链结构与策略的动态调用与组合。它使模型在面对复杂任务时,能够自主判断
哪种推理范式更适用,甚至在中途反思
并调整推理路径
。
5. 关于 Long Context
“光是这个角度来讲long context的方式就是不对的...信息如果不
加工压缩
,无法提炼精炼表示
,就无法产生智能...反而是智能倒退。”
在各大厂商纷纷竞赛“百万token上下文”的当下,祥雨的这个观点显得尤为“刺耳”和清醒。
他认为,人类的记忆系统之所以高效,恰恰在于其遗忘和压缩能力。我们会记住核心要点,而忘掉无关细节。而现有的Long Context技术,只是在粗暴地将所有信息塞给模型,强迫它在巨大的信息噪音中去寻找信号,这不仅会导致“注意力涣散”,更从根本上违背了“压缩产生智能”这一信息论的基本原则。
或许,真正的长时记忆,不应依赖于无限的上下文窗口,而应依赖于更高级的、类似人脑的“分层记忆”和“智能检索”系统
。
6. 自主学习与真正的Agent
“自主学习是将目标放宽,模型得自己去找目标,自己来学习自己的价值...OpenAI的agent是能够
独立工作,自我进化
。”
在访谈的最后,祥雨为我们指明了通往ASI(超级智能)的终极路径——自主学习。
这代表着AI的又一次范式革命:
- 从Chatbot(NTP主导):需要人类给出路径。
- 到Reasoning(RL+CoT主导):人类给出目标,AI自己寻找路径。
- 再到Agent(自主学习主导):AI自己寻找目标,自己定义价值。
一个能够自我驱动、自我进化、自我定义价值的AI,才是在OpenAI语境下,那个真正的、能被称为“Agent”的存在。而这,也正是我们仰望星空时,所看到的、最激动人心的未来。