蚂蚁集团CTO何征宇：大模型是新世界的小火花

http://ddx.gubit.cn 2023-11-09 12:47 蚂蚁集团(688688)公司分析

《科创板日报》11月9日讯（记者黄心怡）大模型作为一项重大里程碑式的技术变革，正在给人类社会带来什么？有哪些机遇和挑战？它的技术发展、商业模式、生态建设正处于什么阶段？在11月7日举行的“上海之巅论道AI”大模型闭门会上，蚂蚁集团首席技术官何征宇分享了蚂蚁的思考和实践。

何征宇认为，大模型就像新世界的小火花，它是互联网大数据时代发展到一定阶段必然会迸发出来的产物。作为一个新世界的开端，大模型不是目的，甚至只是一个“钻木取火”般产生类人智能的手段。我们需要从科学的角度去研究大模型的智能涌现现象，发现它背后的原理，才能理解它的能力与局限，真正释放它的内在价值。他也介绍了蚂蚁坚决投入大模型的三个方向：全栈布局、长线发展、服务产业。

该会议由财联社、《科创板日报》与上海市人工智能行业协会联合主办，来自人工智能行业领军学者、知名上市公司、大模型企业和投资机构的高层共50多名代表参会。

以下内容整理自何征宇的现场分享。

▍“GPT有上界，但我们对智能算法的追求无上界”

今天我们为什么会在这里谈论大模型？我认为大模型的出现是一个历史的必然，它源自于人类对于自身的好奇，也建立在人类发展过程中若干次伟大创造的基础之上。

一是文字的发明，让人类有了抽象、沉淀和传播知识的方法。一个人的寿命是有限的，但有了文字之后，人类才可能一代一代将知识总结并且传承下来。

二是互联网的产生，让知识可以快速流动，并且汇聚起来。今天我们看到的大模型的所有语料，在没有互联网的时代是不可想象的。就算是现代图书馆里记录的知识，对于今天大模型的语料来说也只是沧海一粟。没有互联网，就无法把世界上的知识汇聚到一起，无法去探究真实世界的语言分布，我们今天就不可能聊大模型是不是世界模型这个问题。

三是找到了GPT这个高效的知识压缩方法。Open AI为什么做这么快？我认为Open AI无比地坚信他们找到了大模型的第一性原理——知识的无损压缩等于智能。这一点直到今天科学界、哲学界也没有详细论证过，但是Open AI坚信这一点，他们也找到了一些很好的工程实现的方法，把这个事情做了出来。

从蚂蚁集团视角，我们是把大模型这个新的技术提升到战略角度来研究的，我们首先要看清它的本质。微软出过一篇文章，叫做《Sparks of Artificial General Intelligence: Early Experiments with GPT-4》，他们觉得GPT4是AGI的一个小火花。我延伸一下，我认为大模型是新世界的小火花。这里有两层意思。

第一层意思，它只是个小火花，GPT4的智能能力是个现象，不是发明。

今天我们更加为之兴奋的其实是大模型带来的智能水平，或者说智能涌现现象，它到底是个发明还是一个发现？我认为就像原始人看到火一样，他首先看到的就是一个自然现象：树被雷劈了，有火生起来。原始人初次看到火的时候，肯定会害怕，就像很多人看到AI会很害怕一样。后来原始人发现火能够驱赶野兽，甚至碰一碰有点痛，但他们搞不清楚这个东西是什么，只是觉得很厉害，马上就有“拜圣火教”。

AI也是一样。现在也有可能存在一部分人恐惧AI，要求彻底禁止AI研究，而另外一部分人盲目崇拜AI的现象。但是我觉得，只有当有那么一群人尝试去理解火到底是什么，然后开始能够掌握火，才可以推动人类文明的发展。

人类控制火的水平也是人类划分时代的方法：从石器时代到青铜时代最关键的是火带来了冶炼技术，让人类能够制作金属工具，解放了生产力。从青铜时代到铁器时代是因为人类掌握了更高的火的温度。到现在人类掌握了火箭技术，并因此很可能成为跨行星物种。这背后更重要的是我们弄清楚了火产生的原理，是一种氧化反应。最先进的火箭技术也是对火的更高级的控制技术。

我拿火种来比喻人工智能，是因为我认为今天大模型迸发的智能涌现现象就好像是一群原始人看到了火种。今天我们看到了GPT，大家都觉得成本很高，不经济不环保，ROI不高。若干年后我们回头看，可能觉得今天的GPT, 甚至现在所有的大模型的训练方法，不过是“钻木取火”带来的一点小火花而已。

第二层意思，这个小火花很重要。

就如蚂蚁集团董事长井贤栋在外滩大会上讲的，“大模型不只是一个新技术，是一个新世界”。因为我们认为由于计算的不可规约性，也是算法熵压缩的不可计算性，知识压缩算法的优化是无止境的。

举个例子，很多人会说圆周率是不可压缩的，因为它没有规律。但是人类就有这个智慧，可以写一段程序来计算圆周率。那是不是这段程序就是压缩后的圆周率了呢？而且还可以跟其他知识混合，再继续压缩这段程序？因此，知识的压缩可能是无止境的，而且事实上现在大家在更小的模型规模上也观测到了智能涌现的现象。我们也应该在算法优化，工程实现上持续探索，我相信还有更好的产生智能的知识压缩方法等待我们去发现。

▍看到AI深“黑盒”面

现在AI所表现出来的好像什么都能干，但是你会发现他跟精神病一样，一本正经地胡说八道。人一本正经胡说八道的时候，自己是知道的。但是AI胡说八道的时候，它自己是不知道的。

蚂蚁也一直在研究AI的安全可信。我们觉得大模型有非常多的风险，它的挑战也是巨大的。

第一是认知一致性对齐。为什么会有这个担心？因为AI的价值观可能跟人类的价值观从来就不可能对齐，目前看只靠大模型技术本身是不太可能实现这个目标的，除非有搜索增强或者知识图谱，甚至更多技术的帮助。

第二是决策白盒化。如果真的把大模型用到决策系统中，一定是要白盒化。例如，当你在做一笔支付的时候，如果被拒付了，你一定会打电话给客服了解为什么会拒付？如果我们只能告诉你这是大模型决策的，我相信一定会被投诉。所以大模型要真正用在决策场景，一定要有白盒化的能力。

第三是交流协同演进。市面上有各种通用大模型，但事实上各有特点。人类之所以能够发展到今天，不是因为一两个人的智慧，如何像人类社会一样集百家之长，取得突破进展？我认为需要协作。大模型之间如何能够更好的协作，不是说简单的从语料层面，或者是从API层面去打通，而是大模型之间能够有一个协同演进的机制。我们觉得这也是未来的一个关键挑战。

▍蚂蚁为什么坚定投入大模型

我们判断，蚂蚁不能错过这次技术范式的演进和变革。我们下了很大的功夫研究，投入的资源也非常大。11月6日，根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求，蚂蚁百灵大模型完成备案，基于百灵大模型的多款产品已陆续完成内测，将向公众开放。在这里，我也介绍下蚂蚁集团对大模型的整体布局。

第一，全栈布局。

我们觉得它是一个新的技术，我们有原始人看到火一样的兴奋。我们全栈布局的逻辑就是这么来的，我们一定要研究清楚，并且研究到其化学反应的本质。蚂蚁大模型坚持自主研发、全栈布局，目前已形成包括大模型底层基础设施、基础大模型、行业大模型、应用产品在内的完整技术链条。我们是从集群开始自己搭的，蚂蚁建设了超过万卡的异构集群，其中硬件算力效率(HFU)超过60%，集群有效训练时长占比90%以上，RLHF训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍，推理性能相较于业界方案提升约2倍。

第二，长线发展。

从蚂蚁的角度来看，大模型是一个基础技术，基础技术就要坚持长期主义，做好长期不赚钱的准备，至少在我们看来，它不是一个今天就可以拿出来赚钱的技术。在没有完全搞清楚它的风险与危害之前，我们会做一些积极的应用尝试，但会避免贸然直接使用在商业场景。

第三，要面向产业，面向消费者，面向很多好玩的东西。

我们觉得大模型真正历史性的突破是帮助行业生产力提升，而且有可能让人类社会生产力剧增。我们做大模型技术的最终目标还是会面向产业，也包括金融产业、医疗产业等专业服务场景，帮助他们去做产业升级。

另外，蚂蚁在大模型的安全上坚决投入。

任何一项技术都有它的不可控性。我们分析下来，大模型安全还有若干个难点。第一是不可控；第二是覆盖面广，任何东西都可以生成；第三就是，安全的本质其实还是对抗，一定会有坏人来滥用这个技术；第四就是防护的时效性等问题。

安全力方面，蚂蚁研发了大模型安全一体化解决方案——“蚁天鉴”。“蚁鉴”平台作为业内首个工业级大模型应用的安全评测产品，可支持每天50万饱和式攻击，全面覆盖生成内容数百类风险；“天鉴”平台可在大模型运行时，采用大模型对抗大模型的方式，对风险进行防御。其中前置安全护栏功能，能精确召回20多类提问风险意图，对生成内容的风险拦截率提升99.7%。

同时我们也特别关注AI伦理问题。我们和蚂蚁集团法务团队一起，邀请了很多外部的伦理专家法律专家，帮我们导入了一些常识性的伦理问题来强化我们的大模型。

▍结语

怎么用AI、大模型技术，为人类提供一个更好的智能化工具，提升生活幸福感，这是我们一直在追求的。

我们觉得大模型也不是AI的全部，AI 是个更大的范畴。通用人工智能是我们的目标，大模型不是目的，它是一个手段，甚至只是刚才讲的“钻木取火”的手段，可能并不是最好的获得类人智能的手段。人脑大概只用40瓦就足够每天做很多很多的推理。今天的人工智能的范式可能还是处于非常早期的阶段。就像“日心说”和“地心说”，当人类敢于把自己从中心位置挪开，认知的角度发生改变的时候，往往就是人类文明进步的开始。大模型也是一样的道理，要看到大模型智能涌现现象背后的本质。当我们彻底理解它的时候，或许我们才真正迎来“日心说”一般划时代的技术革命。

为了这一天的到来，我们愿意和同行一起，分享前行中的实践和经验，共建行业的标准和生态。为一个真正通用人工智能时代的到来，一起努力。

谢谢大家。