中信建投：“AI+视频”是LLM后AI新基建能力

查股网 2023-12-04 10:59 中信建投(601066)个股分析

近期Pika 1.0发布，以高质量文生视频效果获关注。Meta、Runway、Heygen等大厂和独角兽，均紧锣密鼓布局AI视频。从技术/产品角度看，AI+视频分两类：1）有固定模版，只改变局部画面（如肤色、唇形），如Heygen、易点Kreado AI；2）开放式，依照用户上传的照片、文字，生成全新视频，如Pika、Runway。

我们认为，“AI+视频”不仅是一种AI应用，更是LLM后AI新基建能力：1）To C，降低UGC门槛，有望出现“AI时代的抖音”或视频版妙鸭产品。2）To B，在电商、教育等场景降本增效；长期在影视、游戏制作空间大。

事件：11月28日，AI视频工具Pika 1.0发布，具有文生视频、用文字完成视频局部编辑等功能，效果媲美Runway的Gen-2。

1、Pika是一款什么产品：成立仅6个月，产品效果惊艳，直逼Runway

成立缘起：Pika的创始人具有哈佛大学、斯坦福大学等名校学习经历，23年初参加Runway第一届AI movie Festival时未找到优质的AI视频制作工具，因此开始创业，并于23年4月成立Pika。

首次产品测试，依托Discord：7月，Pika在Discord推出Pika测试版，用户可以免费体验根据文字和图片生成3秒短视频，截至12月1日，该社区用户数量超50万，每周都会制作数百万个视频。

Pika 1.0正式发布，具备AI视频生成与编辑功能。Pika首款产品Pika 1.0于11月28日发布，底层模型是在Diffusion模型的基础上进行创新。目前用户可加入waitlist等待体验该产品。

目前Pika已完成三轮、共5500万美元融资，估值2.5亿美元，投资人包括前Github CEO Nat Friedman、OpenAI创始成员Karpathy。

Pika1.0有什么功能？据海外独角兽公众号对Pika创始人的采访，该产品将持续迭代，预计明年实现商用，可以帮助用户生成可用性较高的素材和视频片段，视频时长可能会比现在长几倍，但仍小于1分钟。Pika 1.0的功能主要包括：

1）视频生成：根据用户输入文字或图像后生成视频，包括3D动画、实拍电影等多种风格，具有较逼真的光影和细节处理效果，及多样化的镜头控制。

2）视频转换：视频结构不变的情况下，转换视频风格，例如将真人视频转换为动画视频。

3）视频编辑：根据鼠标框选和文字描述，对视频特定位置进行编辑，例如为视频中的狒狒带上墨镜。

4）视频扩展：扩展视频的画布和宽高比，自动填充超出原始视频边界的内容；扩展现有视频的时间。

Pika连贯性、控制效果更强，Runway视频画面更好。Pika与前期知名AI视频应用Runway各有优缺点。据Pika官网，对于Pika，其能基于文本生成更为连贯自然的画面，明确视频中具体希望发生的变化，但在画面清晰度、真实性方面有待提升；Runway生成视频质量高，但部分视频可能与用户预期有背离。

2、AI+视频：新的AI基建能力，延展性强

从移动互联网发展来看，视频流是用户使用时长最多的内容，占据超过30%的使用时长，成为承载信息和交流的最主要形式之一。我们认为，AI视频是大语言模型之后，新的基建能力，空间远大。

1）C端：有望出现“AI时代的抖音”，消费互联网弹性大

抖音、快手等短视频平台，已成为移动互联网用户时长占比最高的应用类型，据Questmobile，22年12月移动互联网用户使用总时长中，短视频占比28.5%，相比21、19年同期增加2.8pct、13.3pct。AI进一步降低短视频制作门槛，Pika1.0等AI视频生成产品有望成为“AI时代的抖音”

2）B端：结合广告营销、电商、游戏、影视制作，延展性强

AI替代操作繁杂、耗时长的视频剪辑，短期内已广泛应用于营销、教育等对对画质、复杂度要求较低的领域，随着技术提升，长期在影视、游戏制作领域空间广阔。据易点天下，AI营销素材制作平台KreadoAI可以将视频制作效率从12小时/个缩短至6-8分钟/个，且成本只有真人的1/100。

3、大语言模型格局明确，但视频模型仍在突围，小公司也有机会

大语言模型格局明确，以OpenAI的GPT系列为主。2017年Transformer架构出现，大语言模型实现快速迭代更新。OpenAI在2018年发布GPT-1，GPT系列模型核心架构确立；随后GPT-2、GPT-3、GPT-4分别于2019、2020、2023年发布，叠加ChatGPT、GPTs等现象级产品发布，OpenAI凭借数据、资金、算力、人才等核心竞争力，成为大语言模型领域的绝对龙头。此外，海外谷歌Bard、微软LLaMa，国内百度文心一言、科大讯飞星火大模型等优质大语言模型陆续推出，大语言模型领域“一超多强”的竞争格局确立。

但AI+视频仍在爆发前夕，Pika等创业公司亦有突围机会。目前视频生成的最优技术路线暂未确定，谷歌、Meta、Runway、Heygen等大厂和独角兽，均紧锣密鼓布局AI视频。

目前视频生成的技术难点在于：1）动态性不足：相比于图片生成，视频生成具有特征空间显著更大、动作多样性显著更强的特点，导致现有的视频生成方法难以学到有效的时域动作信息，生成的视频虽然图片质量较高，但动态性比较有限；2）时长较短：目前AI生成的单条视频主要在十秒以内，视频较长时，短时间内生成大量帧数的图片对算力挑战较大，且每一帧之间相互协调、生成连续的复杂动作等，对生成算法提出较高的要求；3）训练数据少：带有连贯、复杂动作的视频素材较少。

从技术/产品角度看，AI+视频分为两类：

1）功能相对单一，主要完成特定模版的视频生成：如视频翻译、数字人短视频等，视频复杂度相对较低，主要用于营销、教育等普通视频变现场景，例如Heygen、KreadoAI等。

2）开放式视频生成工具，从0到1生产全新内容：根据用户输入的文字或图像，生成新的视频，或在现有视频基础上，生成新的元素，生成结果丰富多样，视频复杂度、逼真度要求高，例如Pika、Runway等。

4、海内外相关公司

1、Runway：Gen-2颠覆式更新，开始商业化

Runway：颠覆式更新，画面质量跃升。Runway的AI视频生成工具Gen-2，自6月面向公众发布以来，进行多次更新，8月将最大长度从4秒提升到了18秒；9月新功能可控制“镜头”的位置和移动速度、调节视频中的动作幅度；11月实现了保真度和一致性的提升，画面质量跃升。从商业化程度看，Runway Gen-2已推出基于视频积分的价格标准，按积分单买价格测算，Gen-2生成视频的价格为0.05美元/秒。

2、Heygen：获得新融资，目前主要功能包括数字人和视频翻译。

此前Heygen曾凭借郭德纲说英语相声、Taylor Swift说中文等一系列AI生成视频出圈，据出海研究院，近期Heygen宣布获得560万美元新融资，投后估值达7500万美元；商业化进展亦成效颇丰，目前ARR达到1800万美元，分别相比3月、8月增加1700万、800万美元。

除了视频翻译，Heygen主要功能还包括数字人生成：支持用户上传录制好的视频，在数分钟内生成数字人，并根据文本内容，生成数字人短视频，同时提供数字人模板、视频模板、声音模板等。据公司官网，生成总时长15分钟数字人视频的月套餐，收费为29美元，也支持对声音克隆、人像精调等服务单独收费。

3、易点天下：KreadoAI，数字人营销平台

7月12日易点天下的KreadoAI正式上线，据公司公告，KreadoAI在已有的LLM和图像等大模型技术底座之上，结合一系列营销数据开发而成，截至10月底，已覆盖全球67个国家，注册用户数超60万（8月初为40万）、UV（独立访客）突破百万，付费金额超百万，付费用户中，海外用户占70%-80%，国内用户占20%-30%。KreadoAI的功能主要包括：

1）数字人短视频：AI生成贯穿全流程。用户可以选择真人数字人模板，或通过AI文生图、上传照片、资源库选择等方式得到照片数字人，并根据AI文生文、用户写作等方式产生视频文案，从而制作数字人短视频。该功能采用K币支付，按K币单买价格换算，实际价格为7元/分钟。

2）AI模特：用户上传真人模特照片，即可得到世界各地不同肤色样貌的模特图，包括商拍模特、假发模特、眼镜模特、美妆模特等。即将上线人台模特图，即用户将衣服饰品穿戴到人台模特上，一键生成多种风格的真人模特效果图。

3）真人克隆数字分身：用户分别上传5分钟个人视频、音频后，即可在2-3个工作日内，分别完成数字人形象、声音克隆，价格分别为4300元/次、3600元/次。

风险提示：

国际政治风险、生成式AI技术发展不及预期、VR硬件效果不及预期、各领域技术融合进度不及预期的风险、算力支持程度不及预期、数据质量及数量支持程度不及预期、用户需求不及预期、技术垄断风险、原始训练数据存在偏见风险、算法偏见与歧视风险、算法透明度风险、增加监管难度风险、政策监管风险、商业化能力不及预期、相关法律法规完善不及预期、版权归属风险、深度造假风险、人权道德风险、影响互联网内容生态健康安全风险、企业风险识别与治理能力不足风险、用户审美取向发生变化的风险。