揭秘中国联通鸿湖图文大模型:同赛道暂无竞品 可实现跨模态内容理解
近期,三大运营商陆续发布了大模型产品,正式进军大模型赛道。不过,三家运营商产品定位有所差异,中国联通的鸿湖图文AI大模型 1.0可实现以文生图、视频剪辑、以图生图等功能;中国电信大语言模型TeleChat推出了大模型赋能数据中台、智能客服和智慧政务三个方向的产品;中国移动的九天人工智能大模型聚焦于政务及客服行业应用。
针对运营商布局大模型业务的机遇及挑战,证券时报·e公司记者采访了中国联通研究院智能技术研究部吴浩然。
在吴浩然看来,大模型是人工智能新一轮爆发的转折点,也是AGI(通用人工智能)时代的原点,它的泛化能力将AI从过去一场景一适配的方式解放,类似工业革命从小作坊生产发展为工厂批量化生产,也意味着AI由能用到好用或者泛用的转变。与此同时,随着大模型语言能力的发展以及目前的混合专家系统模式,以自然语言交互大模型做“管家”的模式很可能会成为下一个时代的主流,也就是业界常说的大模型成为流量入口。
基于以上认知,吴浩然向记者表示,从商业价值角度讲,中国联通布局大模型领域是必要的。“运营商在移动互联网时代未能利用好流量成为了管道运营商,在智能互联时代将积极尝试转变,成为新时代的综合数字服务运营商。”
吴浩然还提到,随着大模型技术进一步发展,它极有可能成为新时代的操作系统,为防止重蹈过去很多工业软件被“卡脖子”的覆辙,中国联通或者运营商作为央企中在AI方向较强的企业,布局大模型也是符合国家政府期许的,是积极承担央企责任的体现。
“中国联通发布的模型不同于政务、客服等纯语言模型,最开始我们做的就是图文双模态的模型。”谈及鸿湖图文大模型 1.0,吴浩然表示,中国联通在图文领域主打的是国风水墨画生成和对古诗词理解,而这个赛道还没看到类似竞品。
据悉,中国联通布局大模型相对较早,在2021年即开始了相关技术研究,目前的鸿湖大模型是在2022年启动研发的,当时ChatGPT尚未出现,Midjourney、Stable Diffusion等文生图模型也还在酝酿。“我们最开始是从公众线的增值业务场景出发,因为5G新通信不再像传统通信只有文字,所以最开始我们瞄准的就是图文领域。”
吴浩然介绍说,在上述背景下,中国联通大模型最重要的工作或者优势是特征融合,将不同模态内容对齐到文本,来实现跨模态的内容理解。“由于当时ChatGPT尚未出现,我们采用的是当时更常用的Encoder-Decoder模式,使用这种模式使我们的特征提取和特征融合可以解耦,意味着我们只需要把注意力放在特征融合对齐上,而提取部分只需要选择合适的提取器即可,因此我们的模型扩展性极强。”
吴浩然表示,鸿湖图文大模型 1.0 目前是针对图文,也可以将提取部分改为图声或其他模态提取器,同样进行特征融合和跨模态对比学习后,可以很容易扩展至其他跨模态,最终实现不同模态在文本语义上统一的目标。“模型的松耦合和扩展性强也构成了我们竞争力的一环,只要做好模态融合部分,特征提取就可以时刻选取市面最好的模型来替换,保持我们模型的活力。”
当前,AI持续火热,市场上也出现了“百模大战”,运营商系的大模型产品也面临不少挑战。
吴浩然认为,对于中国联通而言,目前最大的挑战来自于人员。“前期联通在人工智能方向投入的相对较少,人才积累方面存在着不足。本次鸿湖大模型也是同高校联合研发实现的,具备大模型训练及工程化经验的人员还较少,但也在紧急招募中。相信在中国联通决心进军大模型产业的背景下,我们能很快补足这点。”
其次就是相关赛道的产品化经验不足,当然这并不仅是联通自身面临的挑战,也是整个大模型产业需要面临的挑战。吴浩然表示,目前有成熟商业模式的只有GPT融合进搜索引擎,Midjourney进行原画创作等C端或2B2C紧密结合的模式,其他的行业落地尤其是纯B端的行业落地仍处于探索阶段。
“大模型仍处于Gartner技术成熟度曲线顶峰的左侧,今年的大模型热过去后,未来两到三年会有一个沉降期,然后5-10年逐步回升,能够在多少个行业找到商业模式,将决定其回升的速度和高度。”
谈及大模型产业的未来趋势,吴浩然认为,首先,模态融合一定是最大的趋势,单模态的仍称不上AGI,融合所有模态再进一步发展后才能迎来AGI;其次,混合专家系统类思路是目前大模型落地比较优质的路径,过去十几年人工智能尤其是深度学习技术的发展积累了很多优质的模型,将大模型与这些模型结合,乃至将大模型与各类数字化系统结合,与机器部件结合,将是未来大模型由纯数字经济向数字经济赋能实体经济转变的重要途径。
此外,大模型稀疏化也是未来大模型落地的重要路径之一,当前大模型参数量仍呈快速增长态势,稠密大模型的计算推理势必将占用极大的算力资源,阻碍大模型的快速落地和泛在服务,而大模型稀疏化将极大降低大模型的部署成本,提高推理速度,使大模型真正“飞入寻常百姓家”。
根据吴浩然的判断,短期内,大模型仍会以C端场景为主落地,B端由于存在大量判别式场景,仍需模型能力进一步增强,但长期看能否解决判别式场景的高精度同时保持高度泛化能力,是未来大模型能否在B端广泛应用的决定性因素。“可以说,C端决定未来大模型下限,B端则决定了其上限。”