酷玩实验室原创作品生成式AI的这股浪潮翻涌到现在,已经一年多了。如果要论在这股浪潮中,哪一类模型是AI领域“王冠上的宝石”,那一定是文生视频模型莫属。从技术层面来说,Sora、Vidu这列视频大模型,最核心的价值,在于它们实现了跨媒介的信息合成与创造,从而形成了文本、图像、与视频等不同模态的“大一统”。而这样的“大一统”,或许正是人类通向AGI的关键。
在这个“大一统”的框架下,数据不再被单一模态所限,而是作为多维度信息的综合体被理解和运用。正如图灵奖得主,AI三巨头之一的Yann LeCun所提出的“世界模型”理论所述,现如今的 LLM (大模型)都只是在文本上训练的,因此只能非常粗浅地理解世界。即使 LLM 凭借大量参数和海量训练数据,能展现出过人的文本理解能力,但它们本质上捕获的依然只是文本的统计规律,并不真正理解文本在现实世界中所代表的含义。
AI三巨头之一 Yann LeCun而如果模型能使用更多感官信号(比如视觉)学习世界的运作模式,那么就能更加深刻地理解现实。从而感知那些无法仅凭文字传达的规律、现象。从这个角度来说,谁能率先通过多模态的世界模型,让AI掌握现实物理的规律,谁或许就能率先突破文本和语义的限制,在通往AGI的路上先登上一个大台阶。这也是为什么,OpenAI当前如此倾注于Sora的原因。虽然前段时间,Vidu的出现给国产视频技术长脸了,在Sora这样的行业霸主面前挺直了腰板,但大家伙儿在欢欣鼓舞的同时,细心一看Vidu的演示视频,发现个挺有意思的事儿:里面老外的脸蛋特别多。
这一下子,可让大家伙儿琢磨开了,感觉像是无意中扯出了咱们在收集视频资料这块儿的一个小辫子——高质量数据不足。
数据之困
如果说,现阶段真有制约视频生成模型发展的硬门槛,那么这样的门槛,无非就是算力、算法与数据。而其中的前两者,实际上只要有钱,有人才,实际上都能搞得定,唯独数据,一旦落下了,后面想追平,可就得费老大劲儿了。就像身高一样,拉开了就很难追赶。讲真,虽然从绝对总量来看,中文互联网上视频内容也不少了,但其中真正可用于AI训练的高质量数据,却并不如外网丰富。合成数据
如果高质量数据实在难找,那走合成数据这条路,用人工素材来“投喂”AI,是否可行呢?讲真,在Sora问世前,就已经有人这么做了,例如英伟达在2021年发布的Omniverse Replicator就是这样一个例子。在理论上,Omniverse Replicator无法单独生成训练Sora这类视频模型所需的所有数据,特别是那些涉及高级语义理解、连贯叙事和高度抽象概念,以及复杂的人类情感和社会互动的实例,这些都是Omniverse Replicator目前的设计和功能范围之外的。
另辟蹊径
实际上,除了Omniverse Replicator这种路子外,使用虚幻5引擎生成相关数据,也是一种备选策略。在之前Sora放出的视频中,人们就已经发现,某些视频片段的效果,跟此前写实、逼真的画风有点不一样,看上去更像是某种“3D风格”,例如下面的这个大眼睛、长睫毛、口喷冷气的小白龙。自我进化
如果有一种办法,能让模型在自己生成数据的同时,不陷入“自噬”的漩涡,还能不断自我进化,这岂不美哉?讲真,国内已经有部分AI企业走出了这条路子,例如智子引擎团队开发的新型多模态大模型——Awaker 1.0就是这么个例子。