屏论|AI视频生成对IPTV/OTT/DVB的意义

简图| 流媒体网| 2024-04-15

【流媒体网】摘要：能规模化生产的AI才是好伙伴，否则就是耍流氓！

　　2023年可谓是AIGC的大爆发之年，而进入2024年，AI生成视频正在成为其中的热门版块，尤其OpenAI 2月份发布的Sora更是因为将生成视频长度提高到60秒引发广泛关注。

　　然而一个不可回避的现实是，虽然炙手可热，但在目前阶段的实际市场中，AI生成视频可能仅仅是锦上添花的那个花。

　　AI视频生成的风有多大？

　　以前，把文字变成视频，至少需要人/物、场景、拍摄、剪辑等等多个环节，而如果是影视领域，更是一条长长的产业链，需要数量庞大的人员来完成从前期到后期的各个环节。巨大的人工、硬件软件、时间等成本，让大片的最终成本是按秒算的。而AI生成视频，给降本增效带来的想象空间可太大了，许多企业都在前赴后继。

　　在国外，谷歌、微软等很早就投入到了多模态视频生成的研究中。例如谷歌发布了多模态大模型Gemini和Video Poet视频大模型，微软的NUWA-XL以及最新推出的Mora。而在Sora之前更火的是Runway的Gen-1/Gen-2、Pika1.0以及Stability AI的Stable Video Diffusion等等。此外，Meta也发布了Make-A-Video。而今年OpenAI发布的Sora更是让业界兴奋。

　　在国内，阿里、腾讯、百度、字节等公司纷纷在积极投入，而除了大厂，还有大量的新兴科技公司、创业公司积极加入这一热点板块。已经推出或正在研发文生视频应用的公司有爱诗科技、右脑科技、生数科技、万兴科技、美图等等。此外还有高校，例如北大团队发起了一项Sora复现计划——Open Sora，希望集结开源社区的力量，尽可能完成对Sora的复现。

　　哪里风大哪里资本汹涌，由华人女学霸创立的Pika，成立半年内完成三轮共计5500万美元融资，公司估值超过2亿美元。而今年3月，爱诗科技完成亿元级人民币A1轮融资；生数科技完成数亿元A轮融资；AI视频生成 SaaS服务商「布尔向量」完成近千万元融资……右脑科技也于去年完成两轮数千万融资。

　　有一个巨大的痛点困扰AI生成视频

　　现在AI生成面临的一个很大的问题，是给出prompt后，最终能够采用的比例不是很高，具有相当的不确定性。而相比于图片生成，视频生成需要逻辑性，并且视频越长越需要连续的合理的逻辑，因此难度更大。

　　所谓连续的合理的逻辑，举个简单例子，一段小孩吃饼干的视频，符合逻辑的情况是手里饼干越吃越小，小孩的肚子则会越吃越大，而AI生成可能会出现饼干永远都吃不完的现象。

　　从哲学角度而言，AI和人类的思考模式是相反的。AI是从特殊性到普遍性再到特殊性，它把人类日常生活工作中产生的一些非常特殊的数据归纳成一个个特殊的案例，进入大模型分析产生一个逻辑就变成普遍性，人类再把这个普遍性的逻辑运用到特殊性案例当中。而我们人类是从普遍性到特殊性再到普遍性，比如，刮风下雨是普遍性的，我们人类总结经验，产生“24节气”、“农历”等，这是特殊性。然后，我们再运用到我们日常的“农业劳作”中（普遍性）。

　　所以，AI视频生成的痛点的根本性问题不在于prompt的写法，而在于思考/运行模式的不一样。

　　AI视频生成的难点，一方面视频是连续的多帧图像，并且要有逻辑性，并非简单的图片组合，另一方面带来模型复杂度提升、计算难度和成本的提升，此外，文生视频需要大量的“文本-视频”配对数据，而目前缺乏多样化的数据集，且数据标注的工作量较大。因此，虽然2023各方奔忙，但生成的视频都很短，大概只有5-15秒，于是Sora将视频时长提升至1分钟引发全球聚焦。但1分钟，距离长作品还很远。如果无法持续生成相同的人物或者事物，AI生成视频就只能看上去很美。

　　人+人工智能才是当下现实：时长3分多钟的《犬与少年》是AIGC技术辅助商业化动画片的首个发行级别作品，AIGC技术的应用极大地缩短了其制作周期，降低了制作成本。但也存在很现实的问题，在人物和动物角色设计方面，AI生成的图像质量与手绘相比仍质量相对粗糙，《犬与少年》中的少年和机器狗角色仍然采用了传统的手绘方式，且故事情节仍然由人类导演和编剧负责创作。

　　只能苦盼AI视频生成技术成熟吗？

　　等一个技术真正成熟到产品化再用当然稳妥，但时间成本才是最大的成本。以我们关注的IPTV、OTT、DVB领域为例，平台希望丰富内容，但同时又想控制成本，AI生成视频是个不错的突破机会，因为不成熟就坐等的话，恐怕“电视开机率降至30%”这样的报道还会是大屏持续的梦魇。

　　其实未尝没有突破口可以一试，例如动画被很多人认为有望成为AI生成视频最先突破的领域之一，而有人已经在尝试在动画之下更垂直的“儿童”版块实现AI视频内容的量化生产并取得积极成果，比如盈华（上海）信息技术有限公司。

　　儿童绘本动画的受众群体对于整体视觉体验的要求并不像大IP的3D动画要求这么高，他们可能觉得搞笑或者故事讲的更明白才是关键。所以用盈华（上海）信息技术有限公司创意总监心虎的话说，在AI半自动化的情况下去下沉做一些儿童类的作品，挺符合AI目前阶段的水平——心虎用“半自动步枪”形容当下的AI视频生成，即AI在没有一键式傻瓜式操作前的“AI生成+人工制作”的半自动化模式；

　　据心虎透露，AI视频生成这个“半自动步枪”节约了盈华整个制作流程的大概20%。他说不要小瞧20%，已经省很多了。更关键的是，现在每年都有很多的漫画很多的网文，能直接孵化成IP的很少。通过下沉的、半自动AI的去生成，可以用低成本去试错，十部只要有一部成功就成了。降本增效降低的试错成本，才是更重要的。并且，现在所做的能为将来打基础——现在得积累经验，得有一些学费，否则老是技术悬空着的没法落地。必须先尝试，哪一天AI迭代了才马上就能介入。

　　据悉，对“半自动步枪”的尝试已经让盈华实现了儿童内容批量化生产，其主要借力AI的包括场景搭建、人物素材库、精度修复、字幕、宣传物料、配音等等，而且带来的成果则是成本是动画的1/20制作周期是动画的1/10，质量90%达到二维动画。

盈华（上海）的AI半自动化作品：《父与子》，目前已经在优酷、广东ITV上线

点击观看视频

　　心虎强调，目前大家都使用半自动步枪的时候，即AI软件同质化，那么流程管控就显得极为重要——统一作品风格必须要流程管控。据悉，盈华从2016年就开始做流程设计，引入创新的“导演+编辑”双位机制，积累素材库，同时创建了自己的培训系统，从而让流程管控成为其专有优势。“AI+特有的流程管控+动画技术”，是儿童类内容批量化生产的关键，缺一不可。目标是通过这种融合的技术，批量化地生产出成本可控但质量可观的内容。”

　　而这种成本可控、质量可观又能批量生产的儿童类内容，不恰恰是大屏主要用户群“一老一小”中很重要的“一小”所需要的吗？在AI生成视频走向全流程的过渡期，这样的尝试对大屏开机率很有意义。与其坐等技术成熟，不如努力奔向它。

　　因此，能规模化生产的AI才是好伙伴，否则就是耍流氓！

　　5月23-24日，「长江论道暨第27届智能视听与科技创新产业论坛」将在湖北武汉举办，长江论道以“洞见新格局·智变新视听”为主题，以演讲、展示等形式汇集AIGC在视听领域一年探索的多个案例，敬请期待！