昆仑万维追赶Suno,大模型“爆改”音乐圈还差几步
AI的风还是吹到了音乐圈。继“AI作曲家”Suno引爆讨论之后,昆仑万维成为国内第一家在音乐领域跟上的企业。4月2日,昆仑万维AI音乐生成大模型“天工SkyMusic”开启邀测,并计划在4月17日随“天工3.0”面向全社会免费开放。
从“AI孙燕姿”到“人人都是音乐制作人”,大模型用一次次升级展现了爆改音乐行业的实力。但或许就像网易CEO丁磊说过的,至少在音乐领域,人工智能永远无法真正取代人。
“非主流”入局
4月2日,昆仑万维放出了9首由“天工SkyMusic”生成的作品,时长在10秒到51秒之间,涵盖说唱、古风等多种风格。
昆仑万维介绍,“天工SkyMusic”具有五大特点,包括高质量AI音乐、人声“以假乱真”、歌词段落控制、多种音乐风格和音乐智能表达-歌唱技巧学习。
例如“天工SkyMusic”能够生成80秒44100Hz采样率双声道立体声AI歌曲,AI人声合成能够达到业内顶尖的SOTA水平等。
在技术底座方面,昆仑万维介绍称,“天工SkyMusic”采用音乐音频领域类Sora模型架构,Large-scale Transformer负责谱曲,来学习Music Patches的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer负责演唱,通过LDM让Music Patches被还原成高质量音频。
在人工智能领域,昆仑万维有点“非主流”。公开资料显示,昆仑万维以页游研发和全球发行业务起家,此后通过频繁收购转型成为一家互联网平台型企业。
2023年4月,昆仑万维发布2022年年报。数据显示,报告期内公司营收净利双双下滑,实现营业收入47.36亿元,同比下滑2.35%,归母净利润为11.52亿元,同比下降25.49%。据悉,论盈利规模,这是昆仑万维2019年以来最差的财报。
但2023年,伴随着OpenAI推出ChatGPT,人工智能新一轮浪潮袭来,昆仑万维也有了新的转型方向。也是在2023年4月,昆仑万维发布千亿级大语言模型“天工”,2022年年报发布后,昆仑万维又明确了“All in AGI与AIGC”的发展路径。
今年1月5日,昆仑万维公布公司的全新使命:实现通用人工智能,让每个人更好地塑造和表达自我。4月1日,昆仑万维宣布,4月17日,在“天工”大模型一周年之际,“天工3.0”将正式开启公测。
但昆仑万维的人工智能转型路径也曾受过非议。据悉,2023年3月,昆仑万维曾在互动易平台回复了大量关于公司AIGC业务的内容,因回复投资者咨询时未能客观、完整地介绍和反映公司相关业务的实际情况,公司还曾收到监管的关注函和监管函。
2023年6月,昆仑万维再收深交所关注函,要求说明打造全球领先的AGI平台的可行性、是否存在迎合热点炒作股价的情形等。
对于“天工SkyMusic”,昆仑万维称,其基于昆仑万维“天工3.0”超级大模型打造,“是目前国内唯一公开可用的AI音乐生成大模型”。
不久前,美国人工智能初创企业Suno发布的Suno模型V3版本蹿红,用户只需输入几句歌词或者歌名,并自选音乐风格,便可得到两首时长在两分钟内的歌曲。据悉,Suno V3调用的是OpenAI的ChatGPT生成歌词及标题。
这种“傻瓜式”的操作以及效果还不错的输出歌曲,让Suno一经推出便被冠以“音乐界ChatGPT”的称号。当时,一首名为《水调歌头(明月几时有)》的歌曲就已引起不少关注,而此次昆仑万维展示的歌曲片段中,也有一首同题歌曲《水调歌头》,时长43秒。
Suno之前,上一个在AI生成音频领域引发广泛关注的是“AI孙燕姿”事件。公开信息显示,支撑“AI歌手”的主要是“SO-VITS-SVC”模型,该模型需要海量的训练数据,并高度依赖人们对语料数据的文本标记,应用门槛很高。
“‘AI歌手’更像是语音克隆,而Suno则是生成歌词,匹配音乐和人声,但这些曲目都是随机的,也注定了它的不可控性。”在接受北京商报记者采访时,“盖总AI”运营者沈观楷如此说道。
从时间线上看,相较于AI在生成文本、图像和视频的应用,AI生成音乐领域的发展似乎相对落后。Suno联合创始人Shulman曾解释称,音频不像文字那样是离散的形态,声音是一串波型的连续信号,高质量音频的采样率通常为44khz或48Khz,这意味着每秒48000个token。
沈观楷曾接到过音乐制作人在“AI扒谱”方面的需求,但沈观楷也发现,AI对于音频处理的能力并没有那么优秀。
天使投资人、资深人工智能专家郭涛也对北京商报记者提到,音频数据的处理要复杂得多,因为它涉及到时间序列的建模以及声音的波形、频率、节奏等多种属性的综合处理。
“此外,音频生成模型需要能够捕捉到音乐的创造性和情感表达,这在技术上是一个更高的要求”,郭涛称。
沈观楷也提到,音乐创作更多靠的是一种感觉,让AI学习创作,首先要把“感觉”转换为机器听得懂的语言,这个过程就需要懂音乐与懂AI的人进行专业的配合,也自然有一定的难度。
真颠覆还早
昆仑万维要在音乐大模型上抢先卡位,瞄准的是市场前景。2023年10月,丁磊就曾提到,人工智能在未来1-2年内大概率会成为音乐行业的标配。
上个月,网易发布2023年四季度及全年财报。从业务板块看,网易云音乐年营收79亿元,首次实现年度扭亏为盈。财报后的电话会议上,丁磊称,网易正积极准备迎接这一轮AI技术浪潮,特别是在游戏、音乐等领域。
北京市社会科学院副研究员王鹏对北京商报记者提到,文生音频有望在多个领域实现广泛应用,如音乐创作、语音合成、虚拟角色、游戏音效等。此外,随着人们对于个性化音频内容的需求不断增长,文生音频技术也能够满足这一需求,提供定制化的音频体验。
掌如研究院院长何基永也对北京商报记者提到,在教育、娱乐、广告、医疗等领域,音频生成技术都有着广泛的应用前景。
但从产业发展角度,AI生成音乐或许也有要迈过的障碍,版权就是其中之一。对于训练数据来源以及版权风险方面的问题,北京商报记者分别联系了昆仑万维和Suno,但截至发稿未收到回复。
知名战略定位专家、福建华策品牌定位咨询创始人詹军豪对北京商报记者提到,与传统的人类创作不同,AI生成的音频作品涉及到技术的参与和数据的使用,因此需要更加谨慎地处理版权问题。
此外,詹军豪称,在技术成熟度、数据隐私、道德和伦理等方面,AI生成音乐也会面临相应的问题,比如作品可能会引发关于创作主体、作品归属和道德责任的讨论,需要制定相应的法规和伦理准则来规范其发展。
传播星球App联合创始人由曦也提到,AI生成的音频作品如何界定版权归属尚无明确法律规定。
至于音乐人,或许并不需要太担心来自AI的冲击。沈观楷称,在音乐创作领域,作词相对来说并不难,真正难的是给词配曲。
但他接触过的一些音乐制作人曾提到,AI的声音比较怪异,编曲的跳跃性也比较强,“就像是刚推出时候的Midjourney,生成的随机性很强,即便外行人看起来像模像样,有点新奇,但其实并没有真正的实用性”。
谈及AI生成音乐,一位原创作词的说唱爱好者只用了两个字,“难评”。
他对北京商报记者说:“旋律太平,词看着还行,但没有作者的真情实感就没有意义”,“用AI写词还不如不写”。
北京商报记者 杨月涵