大模型迈入应用元年 昆仑万维推出中国首个音乐SOTA模型

查股网  2024-04-18 13:01  昆仑万维(300418)个股分析

尽管走上行业风口不过一年多时间,但AI大模型的基础研发和应用场景的讨论热度始终高企。到2024年,AI大模型迈入应用元年的声音更是一时甚嚣尘上,行业果真走出这一步了吗?

事实上,鉴于“研发和应用两手抓”需要的能力与资本都巨大,行业之中配得上这一拷问的公司并不多:百度“文心一言”、阿里“通义千问”、昆仑万维“天工”、商汤“日日新”、科大讯飞“星火”等等企业及其大模型,都是牌桌上的有力角逐者。

真正要在其中脱颖而出,不仅需要性能超前的基础大模型,同时也要与之相配、并有“爆品”潜质的产品应用场景。对此,昆仑万维以“天工3.0”和“天工SkyMusic”尝试回答。

4月17日,昆仑万维自研四千亿级大语言模型“天工3.0”正式开启公测并同步开源。这一采用4000亿级参数的MoE混合专家模型,是目前全球模型参数最大、性能最强的MoE模型之一,相较上一代在模型语义理解、逻辑推理等多个性能维度均有明显提升。

技术层之外,这可能也是AI应用领域的潜在引领者之一。与“天工3.0”一同开启公测的还有昆仑万维的AI音乐生成大模型“天工SkyMusic”,该大模型在小范围邀测时已经激起不小的音乐创作浪潮。

而不仅是音乐,“天工3.0”当前已将AI能力集成进搜索、写作、长文本阅读、对话、代码等多个高频应用场景,为大模型领域即将开启的落地应用之战筹备砝码。

至此,一个完整的AI大模型技术与应用生态正在成型。这是AI大模型叙事最重要的章节之一,它可能就此建立一条行业分水岭。

天工SkyMusic,引领AIGC音乐浪潮

自OpenAI将大模型推上行业风口以来,属于中国市场的“百模大战”已经拉开序幕一年有余,进入2024年,行业关注点开始从技术研发向应用落地逐渐倾斜——无可置否,大模型的落地应用才是决定其技术与价值的长尾指标。

就所有内容模态而言,音频内容是相比文本和图片更好理解人类情感的方式,同时,音乐也是人类情感表达最充沛且不受地域和文化限制的内容载体。因此,众多落地场景之中,音乐创作成为普罗大众最易上手和感受到趣味性的AIGC场景。对于AI公司而言,这是一个将自己推向C端市场、获得大众认知的有利机会。

天工SkyMusic正是昆仑万维面向音乐行业发布的大模型,此前于4月2日面向社会开启邀测,今天随天工3.0正式发布。该大模型自邀测阶段就受到行业专家及音乐从业者的广泛关注,它不仅是国内唯一公开可用的AI音乐生成大模型,同时也是中国首款AI音乐大模型SOTA模型,更是中国的自研大模型技术第一次在AIGC领域领跑全球。

在大模型领域中,SOTA模型指的是被认为是“State of the Art”(SOTA)的模型。正如OpenAI被视为文本大模型和视频生成大模型的SOTA,"State of the Art"这个术语通常用于描述某个特定领域或技术中当前最先进、性能最好的技术或方法。

在与海外顶尖的AI音乐大模型Suno V3的横向测评中,天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。

目前,AI音乐生成有两大技术路径,分别是符号音乐生成路线和大模型音乐音频生成路线。前者是指先标注大量乐谱,再训练模型,最后生成的结果也是乐谱,需要额外的算法或工具将乐谱转换成音乐;后者则是直接学习并生成音频波形,乐器、人声、旋律、音量、音符等等都一体化端到端生成,但这种方式不仅艰难、成功经验稀缺,还需要高昂的算力和资金。

天工SkyMusic选择的是技术意义上更难的音频生成路线。不仅如此,由于这一路线所覆盖的Song、BGM(Background Music)、Speach三个领域中,Song领域因为包含人声、生成技术难度更高,始终没有出现极佳方案。对此,天工SkyMusic投入大量资源实现了一定技术突破,使得该领域的生成质量终于得到提升。

值得注意是,天工SkyMusic是音乐AIGC领域罕见公开自身技术路径的产品。其由“Encoder-DiT-Decoder”三大核心模块组成的技术路线图,成为了“音频路线+人声Song路线”的重要技术参考。

相较于行业中的同类产品,天工大模型带动天工SkyMusic拥有了更突出的产品优势。

例如,其拥有独创的参考音乐生成与方言歌曲生成的能力。参考音乐生成是指,用户可上传自有参考音乐,或选择“天工SkyMusic”资料库中现有的参考音乐,从而生成风格、唱腔类似的歌曲,这种能力能够结合创意、技术和音乐制作技巧,让用户利用现有的音频资源来创作出更加丰富多彩的音乐作品;

方言歌曲生成能力包含粤语、成都话、北京话、上海话等,这不仅能扩大其受众范围,还能加强音乐创作生成的多样性。同时,基于强大的数据库及训练模型,天工SkyMusic还可打造出更具辨识度的自然人声,这也将使其区别于普通音乐AIGC产品较浓的“AI人声质感”。

此外,天工SkyMusic可通过歌词控制情绪变化,实现如颤音、歌剧、吟唱等多种歌唱技巧,还支持创作说唱、民谣、放克、古风、电子等多种音乐风格。

这种音乐创作上的灵活性和普适性,为天工SkyMusic的创作成果带来了更多趣味。在其公布的大量demo中,《龙行龘龘》演绎了戏曲唱腔与电子音乐如何完美融合;《悟空》从歌词上贴合了人物本身的传奇色彩与不羁性格,其独特理解与领悟最终与旋律合二为一;《Pack my bags》则诠释了欧美流行音乐的精妙之处,其女声唱腔兼具欧美女歌手的音色与技巧。

借此,天工SkyMusic得以大幅降低音乐创作的门槛,让每个用户都能够更加容易创作属于自己的旋律和歌曲,这使其有望成为行业中最重要的全民音乐创作工具之一。而随着该音乐大模型的不断进化,它还有可能加入专业音乐人改善创作质量、提高创作效率的辅助进程中,逐步推动建立属于自己的AI音乐创作者生态。

开源MoE大模型的时代来临

事实上,天工SkyMusic只是昆仑万维迈向AIGC大千世界的第一站。自天工3.0发布后,这一大模型将覆盖听、说、读、写、画、唱等更多高频AIGC应用场景,正式开启一个多模态大模型时代。

从单一模态逐渐过渡到多模态,进而构建世界模型,是业界共识度最高的,迈向AGI的演进路径。而在OpenAI展现GPT-4和GPT-4V的能力之后,行业便一直在等候一个更具场景覆盖力的多模态大模型,将大模型技术的应用现实进展再往前推一把。

昆仑万维“天工3.0”正是登场于这样的背景之下。“天工3.0”采用了4000亿级参数MoE混合专家模型,是全球模型参数最大、性能最强的MoE模型之一,并已同步选择开源。相较上一代,其在模型语义理解、逻辑推理、通用性、泛化性等领域均有明显提升。

具体而言,“天工3.0”的模型能力提升集中于逻辑推理能力、语义理解能力、专项Agent训练和内容创作能力四大方面。逻辑推理方面,“天工3.0”数学与推理能力均提升超过30%;语义理解则能够更好理解和处理用户自然语言Query中的复杂语义信息,包括隐喻、多义词等。

专项Agent训练是此次模型能力提升的核心。当前,AI Agent(智能体)已经成为大模型技术的主流落地方向,而“天工3.0”针对模型独立规划、调用、组合外部工具及信息的模型Agent能力进行了专项训练,使其能够独立生成并调用代码,完成包括图表绘制、工具调用、语义判断等多项复杂用户需求。

自此,“天工3.0”成为具备多个领域专业知识和能力的全能专家。它能够对复杂任务进行拆解优化,更深入理解用户需求,也具备实时判断并调用专用模式扩展基座模型的能力,最大程度提升模型性能。诸如产业研究、产品横评、信息分析、图片生成、图表绘制等需求场景,已经可以由“天工3.0”较为高效覆盖。

对AI用户而言,“天工3.0”性能升级最直观的价值就体现在AI搜索场景上。在信息呈现方式上,天工AI的研究模式可提高问答的专业性质,围绕用户的某个简单指令进行相关问题的延伸,自动生成研究大纲、图谱、实践总结、思维导图,而增强模式可对模糊问题做进一步引导,帮助用户获取更有效的信息,提高回复质量。

同时,天工3.0展现出行业同类AI搜索引擎所不具备的差异化优势。——它不仅有文本回复能力,还有图文并茂能力,在文本回答的同时附带图片或视频,帮助用户加强信息理解。

在内容创作层面,基于专项Agent训练等带来的性能提升,“天工3.0”的内容创作能力已有跨阶段性发展。

在基础推理与理解方面,天工3.在数学推理能力的提升,也让它能够更准确地理解用户需求。

在上一代AI搜索、AI语音、AI对话、AI二次元漫画生成等强大内容创作能力基础上,“天工3.0”又发展出了更强的多模态性能,例如在对话中,结合文本需求实时生成图片、或实时分析内容及图表的能力,成为了集合听、说、读、写、搜、画、看、唱等能力的千亿级开源MoE大模型。

至此,天工3.0得以实现多模态的深度融合与应用。对行业而言,这将带来更高效智能的解决方案,同时降低AI技术的研发门槛和使用成本,最大化共享技术能力和经验。

降低AIGC使用门槛,推动产业升级

从ChatGPT惊艳亮相那一天起,就持续关注AI大模型发展的用户们,大概可以体会到“天工3.0”给行业带来的显著冲击力——它不仅在技术层面提高了自身竞争力,也在实际应用层面逐步覆盖当下高频应用场景,同时向搭建大模型应用生态的目标大步前进。

在这一视角下,天工3.0的发布意义不只是大模型应用场景的升级,它还加速了AI应用的普及,促使更多企业和开发者参与到AI引领的科技变革中。

从天工SkyMusic到天工3.0释放的多模态能力,行业已经可以预测到昆仑万维意图掀起的AIGC浪潮。

因为不仅是中国首个音乐AIGC SOTA,作为全球最大规模开源MoE大模型,天工3.0有能力带领更多领域的创作者群体自由出入AIGC的理解与生成的通道,利用多模态的深度融合与应用,大幅降低内容生产的门槛与成本,重新定义创作效率和质量标准。这种影响力将逐步促进整个内容生产行业进化,释放更多的创作力和内容价值。

这不仅是一家公司的使命愿景,也是一个行业实现突破的硬性阶段目标。为此,昆仑万维已付诸多年实践。

自发布天工系列大模型以来,昆仑万维已在AGI和AIGC两大方向上完成自己的业务矩阵布局:从千亿级大语言模型到多模态AI内容生成能力,从AI搜索、AI音乐、AI 社交等再到国内领先的AI Agent开发平台,无论是模型技术还是工程能力,都竭力站稳国内AI企业头部阵营,做好为产业提供支撑的准备。

在这背后,走向AGI和促进AIGC应用发展,始终是这家企业的目标与使命。如今,随着“天工3.0”的发布与展示,昆仑万维在“All in AGI与AIGC”这一战略征程上再下一城,即将把大模型战事推向新的高潮。