大模型,要“大”还是“小”?中金公司陈昊:芥子须弥,大小模型协同促进|智能金融助力数实融合暨产教融合研讨会
华夏时报(www.chinatimes.net.cn)记者 李明会 冉学东 北京报道
今年以来,ChatGPT走红后,大模型热度持续不减,这从提供算力芯片的英伟达暴涨的股价中可见一斑。来自赛迪顾问的研究显示,仅今年前7个月,我国已累计发布130个大模型。
“百模大战”已然打响,投资机构怎么看待当下的“模型热”?
9月23日,由华夏时报社、中央财经大学数字经济融合创新发展中心联合主办、中国人工智能学会智能产品与产业工作委员会作为支持单位的“智能金融助力数实融合暨产教融合研讨会”在北京举行。
会上,中金公司研究部执行总经理陈昊表示,作为国内投行券商,“我们更关注的是AI产业的发展逻辑是什么,AI产业的投资逻辑是什么,如何实现AI的商业闭环。”
“作为一家券商一家投行,我们更关注的是在AI这个赛道上,到底什么样的行业机会是我们一定要抓住的,或者说我们要去投资的话,钱应该流向哪儿,即帮助企业成长也实现投资应有的价值。”陈昊如是说。
大模型彰显“暴力美学”
何谓大模型?
陈昊认为,大模型之大,体现在语料规模大、参数规模大。过去几年大模型参数量呈指数级上升,可以说,大模型的迭代是“暴力”填压语料数据而造就的“美学盛宴”。
今年以来,市场对大模型的关注度居高不下,几乎人人都在谈论大模型。
对于这一现象,陈昊解释道,背后原因或是大模型到了由量变到质变突破的时候。“大模型对于前后语义的理解,对上下文逻辑推理的准确度有了大幅度提升,给人们的感觉是大模型训练下的AI更接近通用人工智能,和普通人的交互体验也越来越好。”
不过他也表示,大模型并不局限于语言理解,还能够在视觉、声音等各类模态中发挥作用,跨模态大模型有望将人工智能水平托举至新高度。“结合生成式技术,人工智能有了创造力,有望产生数万亿美元的经济价值。总之,大模型具有较强泛用性 ,通过针对性微调适用不同应用场景。”
从产业应用的角度来看,陈昊表示,大模型在两个方面有明显的优势,一是面向不确定的问题。比如一会儿问新闻、一会儿聊体育还可能咨询专业的医疗、法务等问题;另一方面是在与人的交互上,大模型对于语义和上下文信息的理解和逻辑的处理,展现出其更符合人类思考的特性。
不过,他也坦言,大模型也存在一些劣势。
“比如它的泛用性虽然很强,但经常会让用户感觉回复缺乏一些深度。”陈昊直言,“甚至有时候会一本正经地胡说八道。”
此外,大模型的训练成本非常高。“目前来看,大模型主要还是更多由大企业参与。”陈昊表示,根据中金此前用GPT-3、GPU V100做的简单测算,每次大模型训练的成本超过1200万美元,“这意味着,对大部分公司来说独立训练自己的大模型变得几乎不可能。”
专业的小模型亦有独特魅力
陈昊同时指出,并不是所有的场景都适合大模型,“小而美、精而专”的小模型,反而更能满足特定场景、任务的需求。
所谓小模型,即相比大模型,其训练数据量和参数量较少,优势在于“专精”。
“从专业角度来说,比如在工业、医疗、金融等领域,一些有特定任务、明确目标导向的场景,专业小模型有它独特的优势和魅力。”陈昊如是说。
中金公司的研究也显示,目前应用场景中的AI模型多是小模型,已赋能多个行业,例如泛安防、互联网、金融、工业等场景。
从发展阶段来看,目前,大模型商业化落地仍处早期阶段,小模型仍是市场主力。两者各有优劣,大模型泛用性强,同时能够基于用户反馈不断优化自身性能。而小模型虽然泛用性较弱,但能补齐行业落地“最后一公里”。
在这样的背景下,陈昊认为,两者协同促进或为未来发展趋势。“大模型和小模型未来可能将互相助力,大模型有望成为基础平台,促进更多行业垂直小模型的发展;小模型也可以促进大模型,帮助加速大模型收敛、助力大模型迭代。”