昆仑万维颜水成畅谈OpenAI o1:会让一波创业公司重新复活

查股网  2024-09-23 17:44  昆仑万维(300418)个股分析

北京时间9月13日凌晨,OpenAI在官网发布了其最新一代模型,没有延续过去GPT系列的名称,新模型起名为o1,当前可以获取o1-Preview和o1-mini这两个版本。

当天,Sam Altman在社交平台上兴奋地称,“‘o1’系列代表新范式的开始”。

o1第一时间发布后,在极客公园创始人&总裁张鹏的邀请和主持下,昆仑万维(维权)首席科学家兼2050全球研究院院长颜水成和创新工场联合首席执行官/管理合伙人汪华,在“今夜科技谈”直播间一起聊了聊o1所代表的新范式及创业者脚下的路。

以下是直播精华内容,与大家分享:

01

推理能力明显增强,“o1”释放了明确的技术信号,但更期待下一个里程碑

当你拿到o1之后,最先想做的事情是什么?

当颜水成拿到o1做的第一件事情是,把女儿做的数学题输进去看结果,o1的表现令人惊喜。它解题的逻辑顺序、总结的CoT(Chain of Thoughts,思维链)信息,让人觉得很不一般。

如果是用GPT-4或GPT-4o,只是做下一个token(词元)的预测,其实我们心里会打鼓、会怀疑:只是做下一个词元的预测,是不是就能实现复杂推理过程。

o1相当于在回答问题之前,先引入用CoT(思维链)表示的思考过程,把复杂问题先用planning(规划)的方式将任务拆解,再根据规划的结果一步步细化,最后把所有结果做总结,才得到最终结果。

一个模型的好与不好,关键在于它是不是直觉上能解决问题。

GPT-4和GPT-4o还是一种快思考,这种快思考不太适合解决复杂推理问题;但是o1是一种慢思考的过程,像人一样思考,更可能解决一个问题,尤其是跟数学、编程或者逻辑有关的问题。o1所代表的技术路径未来会走得非常远,带来非常大的想象空间。

02

强化学习不新鲜,如何用合适的方式把CoT(思维链)生成是o1跟其他的强化学习区别最大的地方

o1已经能在一些领域展现出复杂推理的能力,其中很重要的原因是,强化学习在o1系列模型里扮演了非常重要的作用。那么怎么理解强化学习在新一代模型里起的作用?

颜水成表示,强化学习是一个存在时间蛮长的方向,把这个技术用得最好的团队应该是谷歌DeepMind,他们一开始就是从这个角度出发,去解决真实世界的实际问题。

“个人觉得强化学习在o1里最核心的点,不在于使用强化学习,因为强化学习在GPT 3.5里就已经用了PPO(一种强化学习算法),用一个奖励函数去指导PPO,进而优化模型参数。”颜水成总结道。

强化学习优化一个描述长期累计rewards的目标函数,而原先传统算法只是求解损失函数。相当于,在优化policy action(策略动作)的时候,需要考虑未来所有奖励的总和。

具体来说,像在围棋博弈中,它会用self-play(自我博弈)的形式去收集action-status序列,这个过程自动生成一个奖励值,而不是说去学一个奖励函数。它是直接自动产生出奖励,或者说人工可以定义奖励,用这些奖励就可以把策略学出来,然后逐步提升策略。它最大的特点是整个过程不需要人类干预,不是像RLHF(根据人类反馈的强化学习),有很多的步骤需要人去反馈。

我觉得其实o1跟原来的强化学习有一个最本质的差别有人认为,o1的原理可能与斯坦福大学团队(E Zelikman et al, 2024)发表的Quiet-STaR研究成果最相关。Quiet- STaR的一个特点是从CoT(思维链)的角度出发,但是CoT并不是一开始就存在。

要做推理问题,原本有最初的文本存在,如果在文本里面再插入一些CoT(思维链)的信息,它就能提升推理效果。但当我们希望去解决通用的、复杂的推理问题时,大部分的情况下CoT是不存在的。那么在强化学习的pipeline(流程管道)里面,如何把这些CoT的信息一步一步生成出来是非常困难的。

上一代的强化学习,可能更像下围棋,通过别人已有的棋局,先学了一些东西以后再接着往前走。如果要做通用、复杂推理的话,它就会碰到很多从零开始(zero start),可能一开始根本没有CoT的数据,这种情况大概怎么去做学习,有待探索。

这就要问o1的模型架构是什么?

是一个模型它既可以去做规划,又可以根据规划去生成CoT,又可以做自我反思(self reflection),又可以做验证,最后做一个总结,这些所有的事情。还是说其实是好几个模型,一个模型根据信息生成CoT,另外一个模型做反馈,两个模型相互交互,逐步把结果生成。目前o1还不是特别清楚,两种可能都能做,单一模型可能会让整个过程更优雅。第二种可能实现起来会更容易一些。

如何用合适的方式把CoT(思维链)生成,我觉得这是o1,跟其他的强化学习区别最大的地方。这里的细节还不是很清楚,如果清楚的话,o1的黑盒问题可能就解决了。

大概率可以预测o1这个框架里面应该还是有一个奖励函数存在的,不然就没办法推演到通用的复杂推理。

03

“o1”发展下去,更接近一个“超级智能体”

o1跟此前的GPT系列相比,可以理解为两个技术方向。

o1表现出来的行为不再是下一个token的预测了,而更像是一个超级智能体的样子未来可以处理多模态、可以处理工具,可以处理存储记忆,包括短期和长期的语义记忆。颜水成认为o1这个技术方向肯定是对的,GPT-4o1的话,其实就是从系统-1”系统-2”的一个转变。

之前颜水成提到过,AGI的终局可能是什么,当时提到了两个概念,一个概念叫做Global Workspace(全局工作空间),一个叫超级智能体。

Global Workspace(全局工作空间)在心理学和神经科学领域里的一个理论,是说大脑里除了专用的子系统,比如视觉、语音,触觉等子系统之外,可能还存在一个区域叫做Global Workspace(全局工作空间)。

如果“系统-2”,就是多步和多模型的形式一起来完成的话,现在CoT(思维链)产生的结果,它非常像Global Workspace(全局工作空间)的工作原理。用一个注意力的模型,把文本的、未来多模态的、工具等信息都拉到这个空间,同时也把你的目标和存储的记忆都拿到这个空间里进行推理,尝试新的策略、再做验证、尝试新的可能性……不停地往前推理,演绎的结果就是最终得到分析的结果。推理时间越长,就相当于在Global Workspace里的推演过程越长,最终得到的结果也会越好。

对于复杂的任务无法用“系统-1”(快思考)一竿子到底,就用“系统-2”(慢思考)的Global Workspace,把信息逐步分解、推演,同时又动态地去获取工具,动态地去获取存储记忆,最后做总结,得到最后的结果。

所以颜水成判断,o1发展下去,可能就是系统-2”(慢思考)的Global WorkspaceAI实现方式,如果用AI的语言来描述的话,其实它就像是一个超级智能体。也就是说,o1发展下去,可能就是一个超级智能体。

04

LLM+RL的模式,是否可以通向泛化推理?

颜水成指出,原来的强化学习泛化性能不好。每次可能是专门针对一个游戏、或者一组类似的游戏去学一个策略。但是现在它要做通用的复杂推理,面对所有问题都要有能产生CoT的能力,这就会变成是一个巨大数据的问题和工程的问题。

在数学、编程、科学这些问题上,可能比较容易去造一些新的CoT数据,但是有一些领域,想要无中生有地生成这些CoT数据,难度非常高,或者说还解决得不好。

要解决泛化的问题,数据就要足够多样,但在通用场景的推理泛化问题上,这种CoT的数据到底怎么生成?

或者也有可能根本就没有必要,因为那个问题可能已经解决得很好了,你再加CoT可能也没有意义,比如说在有一些问题上,可能感觉o1没有带来本质的效果提升,可能因为那种问题本来就已经解决得非常不错了。

05

到底如何理解Sam Altman所谓“新范式的开始”,有几分可信?

作为这次OpenAI发的新模型,“o1”不再延续过去GPT系列的叫法,比如GPT 四点几,而是开启了o系列新模型代号。同时Sam Altman称这是一次新范式的开始。我们应该怎么理解这个所谓的新范式?

根据颜水成的思考来讲,如果按照Global Workspace这套理论去对照“系统-2”(慢思考)和“系统-1”(快思考),o1GPT-4是有本质差别的,其中最大的差别在于,它会在解决问题的过程中产生CoT(思维链)

一年前有人说Ilya Sutskever(OpenAI联合创始人)在“草莓模型”(o1之前的代号叫草莓)里发现了一些让人震惊的、可怕的事情。今天可以大概推测,他当时到底在草莓模型里面发现了什么东西。颜水成觉得他发现的就是AI的学习过程,RL(强化学习)和CoT(思维链)相结合,他发现系统具备自己挖掘CoT(思维链)的能力

颜水成认为,CoT的过程,不是纯粹从已有的知识里去提取知识。CoT的过程跟人类的思考过程一样,会展开不同的分析组合,包括验证、自我反思等。CoT过程结束之后,其实一个新的知识就产生了因为你其实会对以前的知识进行再加工,可以认为这是一个新知识。

当模型具备自动产生CoT的能力,意味着它有知识发现和知识增长的能力,新的知识可以重新完善(refine)模型,也会注入(inject)到模型自我的知识里,AI就可以实现自我提升(self-improving)的能力。

从这个角度看,o1如果能够自动地去做挖掘CoT,它真的就是一个新范式的开始。它不只是提取已有的知识,而是不断地产生新的知识,是一个知识增长的过程,是一个用算力去挖矿的过程,挖掘出新的知识。知识就会越来越多,AI就能做研究者能做到的很多事情。

OpenAI把所有大家问的问题、信息全部都存下来,然后再拿这部分东西训练模型,就可以把模型的能力进一步提升。相当于全世界的人用自己的钱、用他的算力去进行了知识的扩展,然后扩展出来的CoT结果,又可以使模型变得越来越强。如果从这个角度来说的话,确实是一种新的范式的开始。

06

“o1”打破了预训练的Scaling Law瓶颈,商业上解锁了新的可能

其实最近有不少公司,基本上觉得纯粹的基础模型的预训练意义已经不大了,因为(训练成本)基本上是十亿美金级了。

模型训练中有很多过程,比如有的在做规划,有的是一小节一小节在做CoT,有的是在做自我反思(self reflection)。这个过程到底是怎么实现,现在还不是特别清楚。如果就是说按照一个固定的流程,都按照下一个token的预测来做,那么CoT就是一个new data的问题了,但是颜水成判断这其中不只是一个new data的问题

以前用GPT-4或者GPT-4o,虽然说能产生出不错的结果、能做不少事情,但是其实在直觉上会感觉,下一个token的预测,这个东西好像没有这个能力,或者应该不具备这种能力。所以这个条件下,我们会在GPT-4o的基础上,再搭一个agent,用agent去调用大模型、调用现成工具的形式。

虽然Agent有潜在可能性去解决这个问题,但是进展不是特别好,因为它还是没有一个比较完美的框架来解决问题,不像刚才提的Global Workspace的过程。后者是把信息全合在一起,在这个过程中去做演绎、去做推理、去做验证、去做自我反思。

但是现在有了o1就合理了,要得到最后结果,其中有一个思考过程这个思考过程其实并不是原来常规的大模型,就直接能生成出来。有了这一套范式之后,你给我任何一个问题,我直觉上应该是能用这种方式解决的,无论是复杂推理还是其他,所以会有很多事情可以做。

另外,有了这套范式,那种超级大的模型有可能变得不是那么重要,模型可以做得比较小,但它就能做成一个,模型参数并不是特别大的一个网络架构,但它在推理的时候,能够做得更加复杂。

这种情况下,就不会像以前的Scaling Law一样,到了只有10万张H100,才能够真真正正的进入到第一梯队。你可能有几千张卡,就能在一些维度能做到非常好的效果。

原来的Scaling Law,可能在摧毁很多的创业公司,那么现在可能又会让一波的创业公司要重新的复活,去做各种各样的事情。所以无论是从可行性,还是创业的角度,我觉得机会都比以前要更好,没有进入到一个死胡同。

07

“o1”模型可以提升机器人大脑,但具身智能还有自己的卡点

同样,颜水成认为,o1模型对于机器人的能力未来会有很大提升。因为具身智能需要有比较强的推理能力,一次推理,或者一次CoT出来的结果可能并不能满足条件,所以它能自我反思或者自我验证非常重要。

例如行走的机器人去完成某些任务,如果它有“系统-2”的过程,输出会更加准确、更加可靠。同时在一些场景,其实让他先想一想,再去做交互,用户也是能接受的。

未来当“o1”拥有多模态能力,它用在具身智能场景会变得更好。但是还是有一些难点存在,强化学习本身的算法就比GPT-4的优化更难一些。比如强化学习的曲线的损失(loss),基本上一直在剧烈的震荡,但是像GPT模型,或者AI 1.0 时代的判别式模型,曲线基本上非常稳定,所以强化学习做起来的难度或者说要求的领域know-how更多。

中国本身做这块的人就蛮少,现在慢慢好一些,但是相比国外做的时间和积累还是要少一些。

08

如果Scaling Law玩不起,“o1”又是谁要下注的比赛?创业者的选择又会是什么?

“o1”其实让大家看到一个明确的方向,这是不是意味着大家要在这个方向上更深入地探索?

颜水成对此的态度稍微悲观一点,主要原因是有一些细节不像Sora出来的时候,从它的技术文档上你就能看得很清楚,它的路线是什么东西。

第二,还是类比Sora,当时Transformer,以及后面的DiT(一种文生视频架构)、扩散模型,是在开源的生态上往前走,创业公司只要去思考数据和工程的问题就可以。

但是这次强化学习,客观上来说,我觉得中国公司里,在大规模场景下,自己有代码库(code base)跑通的就很少,而且没有足够开源社区的支持。吸引人才其实也没有真正有一手经验的人。

之前在做GPT 3.5的时候,PPO就基本上有很大的收益。其实开源社区也在想办法去复现一些东西,但是并没有谁开源出一个真正意义的code base(代码库)能被中国公司直接使用。所以在RL上,门槛还是会比想象的要大一点。

基于这两个因素,一是没有大规模RL场景和好的code base做支撑,二是很多know-how的细节不清楚,可能会让追赶的速度会比较慢会比我们追上GPT-4所需要的时间更长一些,哪怕是在美国,优秀的公司要追上的话,也可能是以年为单位。

那么在“o1”出来之后,创业要怎么回答“技术涨对我有利”这个问题?

颜水成给出的答案是以产品先行昆仑万维做大模型的方式还是以产品先行,目前大概有五六个产品,比如说像AI搜索、AI音乐、AI陪伴、AI短剧创作和AI游戏,有这些具体的产品在前面做牵引,带动我们做基础模型的研发。有一些模型是通用的,有一些模型其实是垂域的,比如说音乐大模型就是垂域的。

他个人觉得,这一波“o1”出来之后,通用模型在原有的模型基础上,增加RL+CoT的方式,应该能把性能提升得更好,这肯定要做。

另外,可能更聚焦一些场景,比如精度优先会变得非常重要。举个例子,我们有一个产品是做AI for research,在天工APP里面。有了CoT技术,它就能够帮助研究者去思考,在他的研究方向上指明哪一些课题可以探索,而不是像以前只是给论文做总结、修改语法错误。

最近有人做了一个工作叫“AI scientist”,有了“o1”的这种范式,这种功能就有可能提炼出来了。因为以前是直接一次性生成的,结果是否具有创新性和可行性,不知道,它不能够做任何的分析,现在,在“o1”范式下,有可能把这件事情能做得更好。

整体来说,现阶段思路一定要回到要解决的场景和问题上,这样水涨船高的可能性就更大。