中信建投:“AI+视频”是LLM后AI新基建能力

查股网  2023-12-04 10:59  中信建投(601066)个股分析

近期Pika 1.0发布,以高质量文生视频效果获关注。Meta、Runway、Heygen等大厂和独角兽,均紧锣密鼓布局AI视频。从技术/产品角度看,AI+视频分两类:1)有固定模版,只改变局部画面(如肤色、唇形),如Heygen、易点Kreado AI;2)开放式,依照用户上传的照片、文字,生成全新视频,如Pika、Runway。

我们认为,“AI+视频”不仅是一种AI应用,更是LLM后AI新基建能力:1)To C,降低UGC门槛,有望出现“AI时代的抖音”或视频版妙鸭产品。2)To B,在电商、教育等场景降本增效;长期在影视、游戏制作空间大。

事件:11月28日,AI视频工具Pika 1.0发布,具有文生视频、用文字完成视频局部编辑等功能,效果媲美Runway的Gen-2。

1、Pika是一款什么产品:成立仅6个月,产品效果惊艳,直逼Runway

成立缘起:Pika的创始人具有哈佛大学、斯坦福大学等名校学习经历,23年初参加Runway第一届AI movie Festival时未找到优质的AI视频制作工具,因此开始创业,并于23年4月成立Pika。

首次产品测试,依托Discord:7月,Pika在Discord推出Pika测试版,用户可以免费体验根据文字和图片生成3秒短视频,截至12月1日,该社区用户数量超50万,每周都会制作数百万个视频。

Pika 1.0正式发布,具备AI视频生成与编辑功能。Pika首款产品Pika 1.0于11月28日发布,底层模型是在Diffusion模型的基础上进行创新。目前用户可加入waitlist等待体验该产品。

目前Pika已完成三轮、共5500万美元融资,估值2.5亿美元,投资人包括前Github CEO Nat Friedman、OpenAI创始成员Karpathy。

Pika1.0有什么功能?据海外独角兽公众号对Pika创始人的采访,该产品将持续迭代,预计明年实现商用,可以帮助用户生成可用性较高的素材和视频片段,视频时长可能会比现在长几倍,但仍小于1分钟。Pika 1.0的功能主要包括:

1)视频生成:根据用户输入文字或图像后生成视频,包括3D动画、实拍电影等多种风格,具有较逼真的光影和细节处理效果,及多样化的镜头控制。

2)视频转换:视频结构不变的情况下,转换视频风格,例如将真人视频转换为动画视频。

3)视频编辑:根据鼠标框选和文字描述,对视频特定位置进行编辑,例如为视频中的狒狒带上墨镜。

4)视频扩展:扩展视频的画布和宽高比,自动填充超出原始视频边界的内容;扩展现有视频的时间。

Pika连贯性、控制效果更强,Runway视频画面更好。Pika与前期知名AI视频应用Runway各有优缺点。据Pika官网,对于Pika,其能基于文本生成更为连贯自然的画面,明确视频中具体希望发生的变化,但在画面清晰度、真实性方面有待提升;Runway生成视频质量高,但部分视频可能与用户预期有背离。

2、AI+视频:新的AI基建能力,延展性强

从移动互联网发展来看,视频流是用户使用时长最多的内容,占据超过30%的使用时长,成为承载信息和交流的最主要形式之一。我们认为,AI视频是大语言模型之后,新的基建能力,空间远大。

1)C端:有望出现“AI时代的抖音”,消费互联网弹性大

抖音、快手等短视频平台,已成为移动互联网用户时长占比最高的应用类型,据Questmobile,22年12月移动互联网用户使用总时长中,短视频占比28.5%,相比21、19年同期增加2.8pct、13.3pct。AI进一步降低短视频制作门槛,Pika1.0等AI视频生成产品有望成为“AI时代的抖音”

2)B端:结合广告营销、电商、游戏、影视制作,延展性强

AI替代操作繁杂、耗时长的视频剪辑,短期内已广泛应用于营销、教育等对对画质、复杂度要求较低的领域,随着技术提升,长期在影视、游戏制作领域空间广阔。据易点天下,AI营销素材制作平台KreadoAI可以将视频制作效率从12小时/个缩短至6-8分钟/个,且成本只有真人的1/100。

3、大语言模型格局明确,但视频模型仍在突围,小公司也有机会

大语言模型格局明确,以OpenAI的GPT系列为主。2017年Transformer架构出现,大语言模型实现快速迭代更新。OpenAI在2018年发布GPT-1,GPT系列模型核心架构确立;随后GPT-2、GPT-3、GPT-4分别于2019、2020、2023年发布,叠加ChatGPT、GPTs等现象级产品发布,OpenAI凭借数据、资金、算力、人才等核心竞争力,成为大语言模型领域的绝对龙头。此外,海外谷歌Bard、微软LLaMa,国内百度文心一言、科大讯飞星火大模型等优质大语言模型陆续推出,大语言模型领域“一超多强”的竞争格局确立。

但AI+视频仍在爆发前夕,Pika等创业公司亦有突围机会。目前视频生成的最优技术路线暂未确定,谷歌、Meta、Runway、Heygen等大厂和独角兽,均紧锣密鼓布局AI视频。

目前视频生成的技术难点在于:1)动态性不足:相比于图片生成,视频生成具有特征空间显著更大、动作多样性显著更强的特点,导致现有的视频生成方法难以学到有效的时域动作信息,生成的视频虽然图片质量较高,但动态性比较有限;2)时长较短:目前AI生成的单条视频主要在十秒以内,视频较长时,短时间内生成大量帧数的图片对算力挑战较大,且每一帧之间相互协调、生成连续的复杂动作等,对生成算法提出较高的要求;3)训练数据少:带有连贯、复杂动作的视频素材较少。

从技术/产品角度看,AI+视频分为两类:

1)功能相对单一,主要完成特定模版的视频生成:如视频翻译、数字人短视频等,视频复杂度相对较低,主要用于营销、教育等普通视频变现场景,例如Heygen、KreadoAI等。

2)开放式视频生成工具,从0到1生产全新内容:根据用户输入的文字或图像,生成新的视频,或在现有视频基础上,生成新的元素,生成结果丰富多样,视频复杂度、逼真度要求高,例如Pika、Runway等。

4、海内外相关公司

1、Runway:Gen-2颠覆式更新,开始商业化

Runway:颠覆式更新,画面质量跃升。Runway的AI视频生成工具Gen-2,自6月面向公众发布以来,进行多次更新,8月将最大长度从4秒提升到了18秒;9月新功能可控制“镜头”的位置和移动速度、调节视频中的动作幅度;11月实现了保真度和一致性的提升,画面质量跃升。从商业化程度看,Runway Gen-2已推出基于视频积分的价格标准,按积分单买价格测算,Gen-2生成视频的价格为0.05美元/秒。

2、Heygen:获得新融资,目前主要功能包括数字人和视频翻译。

此前Heygen曾凭借郭德纲说英语相声、Taylor Swift说中文等一系列AI生成视频出圈,据出海研究院,近期Heygen宣布获得560万美元新融资,投后估值达7500万美元;商业化进展亦成效颇丰,目前ARR达到1800万美元,分别相比3月、8月增加1700万、800万美元。

除了视频翻译,Heygen主要功能还包括数字人生成:支持用户上传录制好的视频,在数分钟内生成数字人,并根据文本内容,生成数字人短视频,同时提供数字人模板、视频模板、声音模板等。据公司官网,生成总时长15分钟数字人视频的月套餐,收费为29美元,也支持对声音克隆、人像精调等服务单独收费。

3、易点天下:KreadoAI,数字人营销平台

7月12日易点天下的KreadoAI正式上线,据公司公告,KreadoAI在已有的LLM和图像等大模型技术底座之上,结合一系列营销数据开发而成,截至10月底,已覆盖全球67个国家,注册用户数超60万(8月初为40万)、UV(独立访客)突破百万,付费金额超百万,付费用户中,海外用户占70%-80%,国内用户占20%-30%。KreadoAI的功能主要包括:

1)数字人短视频:AI生成贯穿全流程。用户可以选择真人数字人模板,或通过AI文生图、上传照片、资源库选择等方式得到照片数字人,并根据AI文生文、用户写作等方式产生视频文案,从而制作数字人短视频。该功能采用K币支付,按K币单买价格换算,实际价格为7元/分钟。

2)AI模特:用户上传真人模特照片,即可得到世界各地不同肤色样貌的模特图,包括商拍模特、假发模特、眼镜模特、美妆模特等。即将上线人台模特图,即用户将衣服饰品穿戴到人台模特上,一键生成多种风格的真人模特效果图。

3)真人克隆数字分身:用户分别上传5分钟个人视频、音频后,即可在2-3个工作日内,分别完成数字人形象、声音克隆,价格分别为4300元/次、3600元/次。

风险提示:

国际政治风险、生成式AI技术发展不及预期、VR硬件效果不及预期、各领域技术融合进度不及预期的风险、算力支持程度不及预期、数据质量及数量支持程度不及预期、用户需求不及预期、技术垄断风险、原始训练数据存在偏见风险、算法偏见与歧视风险、算法透明度风险、增加监管难度风险、政策监管风险、商业化能力不及预期、相关法律法规完善不及预期、版权归属风险、深度造假风险、人权道德风险、影响互联网内容生态健康安全风险、企业风险识别与治理能力不足风险、用户审美取向发生变化的风险。