酷玩实验室原创作品生成式AI的这股浪潮翻涌到现在,已经一年多了。如果要论在这股浪潮中,哪一类模型是AI领域“王冠上的宝石”,那一定是文生视频模型莫属。从技术层面来说,Sora、Vidu这列视频大模型,最核心的价值,在于它们实现了跨媒介的信息合成与创造,从而形成了文本、图像、与视频等不同模态的“大一统”。而这样的“大一统”,或许正是人类通向AGI的关键。在这个“大一统”的框架下,数据不再被单一模态所限,而是作为多维度信息的综合体被理解和运用。正如图灵奖得主,AI三巨头之一的Yann LeCun所提出的“世界模型”理论所述,现如今的 LLM (大模型)都只是在文本上训练的,因此只能非常粗浅地理解世界。即使 LLM 凭借大量参数和海量训练数据,能展现出过人的文本理解能力,但它们本质上捕获的依然只是文本的统计规律,并不真正理解文本在现实世界中所代表的含义。AI三巨头之一 Yann LeCun而如果模型能使用更多感官信号(比如视觉)学习世界的运作模式,那么就能更加深刻地理解现实。从而感知那些无法仅凭文字传达的规律、现象。从这个角度来说,谁能率先通过多模态的世界模型,让AI掌握现实物理的规律,谁或许就能率先突破文本和语义的限制,在通往AGI的路上先登上一个大台阶。这也是为什么,OpenAI当前如此倾注于Sora的原因。虽然前段时间,Vidu的出现给国产视频技术长脸了,在Sora这样的行业霸主面前挺直了腰板,但大家伙儿在欢欣鼓舞的同时,细心一看Vidu的演示视频,发现个挺有意思的事儿:里面老外的脸蛋特别多。这一下子,可让大家伙儿琢磨开了,感觉像是无意中扯出了咱们在收集视频资料这块儿的一个小辫子——高质量数据不足。
数据之困
如果说,现阶段真有制约视频生成模型发展的硬门槛,那么这样的门槛,无非就是算力、算法与数据。而其中的前两者,实际上只要有钱,有人才,实际上都能搞得定,唯独数据,一旦落下了,后面想追平,可就得费老大劲儿了。就像身高一样,拉开了就很难追赶。讲真,虽然从绝对总量来看,中文互联网上视频内容也不少了,但其中真正可用于AI训练的高质量数据,却并不如外网丰富。例如,在视频目标检测方面,YouTube视频数据集VIS包含2,904个视频序列,共超过25万个标注目标实例。国内视频目标检测数据集,如华为的OTB-88,仅包含88个视频序列。而在行为识别数据集方面,由国际上同样知名的HACS数据集,包含了140万个视频片段,涵盖200个人类日常行为类别。相较之下,国内阿里云的天池行为识别数据集,虽然也是涵盖200个行为类别,但仅仅包含了20万个视频片段。造成这一差距的原因,从视频生态上来说,主要是因为国内的很多主流视频网站,例如爱优腾,发布的大都是一些影视剧、综艺、娱乐等内容。而流量最大的抖音、快手这些短视频平台,也都是满屏的搞笑段子、生活小窍门,本来时长就很短了,其中还不乏很多剪辑、搬运、抄袭的作品。这么一来,AI想找点“正经饭”吃,还真不容易。对于视频AI训练来说,这样的视频,要么过于集中于特定类型,缺乏日常生活等多样化的场景,要么时长太短,缺乏深度和连贯的叙事,这不利于AI学习到长序列的连贯性、故事逻辑和因果关系。与之相比,专业团队制作的电影、纪录片等内容,往往才是视频AI所需的高质量数据。因为这些题材不仅种类丰富,时长够长,并且十分重细节呈现,更有利于AI模型捕捉到光线变化、物体材质方面的区别,从而提升其生成的精准度。视频数据这块儿地儿,咱们不光是缺高质量的内容,还有个头疼的事儿——数据标注,这可是块难啃的骨头。就算视频拍得质量再高,但你直接甩给AI,它也不能分清其中的物品。所以收集好视频数据后,得有人耐着性子,一帧一帧地告诉AI:“瞧见没,这条线动的是车流,那个两脚走路的是行人。”要搞定数据标注这个既费劲又海量的活儿,没点厉害的家伙事儿可不成。例如,为提升标注效率,国外就涌现出了一批交互式视频标注工具,如CVAT, iMerit等。这些工具集成了自动跟踪、插值等算法,能够大幅减少人工标注的工作量。反观咱们国内,由于自动化标注工具不那么普及,多半还是靠人海战术,大批的标注小分队加班加点地手动肝。这么干吧,虽说标注的量上去了,可问题也跟着来了——这批临时拉起来的大军,没个统一的、客观的标准,培训啥的也不到位,全凭个人感觉在那儿判断对错好坏,这样一来,数据质量参差不齐就成了常态,有的地方标得好一些,有的地方可能就马马虎虎。更让人头大的是,这种活儿,不仅枯燥乏味,累死累活,还挣不了几个钱,你说谁乐意干长久?根据多家视频数据标注公司的反馈,大多数标注员的月薪在3000-5000元之间,国内视频标注行业的年流失率普遍在30%-50%之间,个别公司甚至高达80%。这行当人员流动跟走马灯似的,公司得不停地招新人、培训新人,刚教会一批,转头又走了一波。这直接把数据标注的质量稳定性给搅和了。讲真,在数据总量、多样性、标注环节均不如外网的情况下,国内的视频AI要想崛起,该怎么跨过数据这道难关呢?合成数据
如果高质量数据实在难找,那走合成数据这条路,用人工素材来“投喂”AI,是否可行呢?讲真,在Sora问世前,就已经有人这么做了,例如英伟达在2021年发布的Omniverse Replicator就是这样一个例子。说白了,Omniverse Replicator就是个合成数据的平台,专攻那种超逼真的3D场景。这玩意儿牛就牛在,它造出来的视频数据啊,每个细节都严丝合缝地遵循物理定律,就像是从真实世界里直接摘出来的一样。这玩意儿对谁最管用?哦,那可多了去了,自动驾驶,机器人训练什么的,或者任何想要AI准确理解物理动态的项目。在进行数据合成时,Omniverse Replicator首先会将各种3D模型、贴图和真实的材质拖进自己的平台中,之后就像搭积木那样,用这些素材构建出各种场景,例如城市街道,工作中的车间,或者是繁忙的马路等等。接下来,为了让制造出来的数据不那么“死板”、“单调”,Replicator有个厉害的功能,就是能让人设定很多变化的因素。比如物体放哪儿、朝哪边、长啥样、颜色咋变、表面摸起来啥感觉,甚至是灯光怎么打,都能让它自己随机变来变去。这样做有个大好处,就是能让最后得到的数据五花八门,能让AI见识各种情况。这对AI数据合成来说,是至关重要的一步。再之后,为了精确模拟现实中的物理交互,Omniverse Replicator中的NVIDIA PhysX等物理引擎,会根据牛顿力学等物理法则,在物体发生碰撞或接触的时候啊,计算它们的运动状态改变,比如速度、加速度、旋转和摩擦力等。同时添加重力、弹性、摩擦力、流体阻力等约束条件,从而让模拟更接近现实。虽然Omniverse Replicator可以生成高质量的视觉和动态3D场景,但它最擅长的是处理那些遵循物理定律的东西,比如怎么让虚拟的球按正确的方式弹跳。而对于那些抽象的,具有连贯逻辑和叙事性的内容,就超出了它的能力范畴了。比如,如果人们想在视频里展现一个人开心的样子,就得让AI先学会“笑”这个表情,这可不是物理模拟能搞定的东西……再比如,人们喝完水后,如果杯子不是一次性的,人们往往就会将水杯放回原位,而不是随手丢掉,这样的行为,其实更多地遵循的是人类常识,而不是纯粹的物理规律。在理论上,Omniverse Replicator无法单独生成训练Sora这类视频模型所需的所有数据,特别是那些涉及高级语义理解、连贯叙事和高度抽象概念,以及复杂的人类情感和社会互动的实例,这些都是Omniverse Replicator目前的设计和功能范围之外的。
另辟蹊径
实际上,除了Omniverse Replicator这种路子外,使用虚幻5引擎生成相关数据,也是一种备选策略。在之前Sora放出的视频中,人们就已经发现,某些视频片段的效果,跟此前写实、逼真的画风有点不一样,看上去更像是某种“3D风格”,例如下面的这个大眼睛、长睫毛、口喷冷气的小白龙。虽然OpenAI官方并未承认,但眼尖的网友一看就感觉到了,这玩意儿有虚幻5的影子!但即使这种猜测是真的,虚幻5能提供的,大概率也只是对光线、场景、3D信息和物理交互的模拟数据,本质上和Omniverse Replicator一样,只能提供一些很“硬”的物质层面的模拟。要真想捣鼓出一个啥都有的世界级视频大杂烩数据集,就得想想新招。一个挺极端的法子就是让AI自产自销,自己造视频来训练自己。但这里头有个坑,要是这些AI亲手做的视频在训练材料里占太多了,就会出现“模型自噬”的风险。换句话说,就是生成的东西越来越差。在极端情况下,持续使用自我生成的数据,可能会导致模型性能急剧下降,甚至模型完全失效,因为AI可能会将前代模型的缺陷一代代放大。去年,莱斯大学和斯坦福团队发现,将AI生成的内容喂给模型,只会导致性能下降。研究人员对此给出一种解释,叫做「模型自噬障碍」(MAD)。研究发现在使用AI数据,经过第5次迭代训练后,模型就会患上MAD。在合成数据上训练AI模型会逐渐放大伪影这其中的机理,和生物学上因“近亲繁殖”导致后代产生缺陷的情况十分类似。正如近亲繁殖中的个体因遗传池缩小而限制了遗传多样性,过度依赖AI生成的数据,也会限制模型学习的多样性,因为它反映的是前代模型的固有的理解,而非原始的真实世界多样性。如果将模型比作人的话,那么任何模型,即使数据质量再高,也始终会存在稀缺的内容,就像一个人的基因即使再好,也总会存在某些稀缺的因子。这些“缺陷”在前代模型中不明显或可接受,通过迭代训练过程,这些缺陷仍有可能被放大,尤其是在缺乏外部多样性的情况下。研究还发现,提高合成质量会损害合成多样性。对大模型来说,如果想表现出更好的泛化能力(所谓的举一反三),就需要不断适应新的数据和场景,应对新的挑战,从而总结出新规律、新关联。这就是为什么数据多样性,对模型如此重要的原因。既然这中文互联网上的高质量数据,本来就不是很多,合成数据这条路,从技术上似乎也很难走得通,那么国产视频大模型想要超过Sora,还能有哪些路子呢?自我进化
如果有一种办法,能让模型在自己生成数据的同时,不陷入“自噬”的漩涡,还能不断自我进化,这岂不美哉?讲真,国内已经有部分AI企业走出了这条路子,例如智子引擎团队开发的新型多模态大模型——Awaker 1.0就是这么个例子。简单地来说,Awaker 1.0这个模型,之所以能突破以往的数据瓶颈,主要归功于自身独特的三大功能:自动生成数据、自我反思、持续更新。首先,在自动生成数据方面,Awaker 1.0主要通过网络和物理世界两种途径来搜集数据,也就是说,它不光在网上到处搜索,看新闻、读文章、学东西,还能在跟真实世界里的智能设备配合时,通过摄像头看东西、听声音,理解周围发生的事儿。不过,与简单的数据爬取不同的是,在搜集了这些多模态的数据后,Awaker 1.0还能理解和消化这些信息,并以此生成新的内容,比如文字、图像甚至视频。之后再根据这些“反刍”后的内容,不断优化和更新自己。接下来,强化后的Awaker 1.0可以生成质量更高、更有创意的新数据,如此循环往复,就形成了一个自我训练的闭环。换句话说,这实际上是一种动态合成数据的方法,外部数据只是给它提供了“种子”,通过不断地自生自吞,它可以不断放大和扩展这些初始数据,持续为自己生成新的训练数据。这就像是一个强悍的“增程发动机”,则巧妙地利用了少量的燃料(数据),通过一个循环放大的过程,产生出远超燃料本身能量的动力输出。同时,为了在这个闭环中,纠正数据可能的偏差,Awaker 1.0不仅会对生成的数据进行质量评分和反思,过滤掉质量不高的样本,并且还会通过持续在线学习和迭代,根据新的外部数据和反馈,确保数据的实时性和准确性。如此一来,模型既避免了受限于有限的外部数据源,也避免了陷入纯合成数据可能导致的“模型自噬”现象。而这种自我反馈和学习的机制,实际上也暗合了AI领域要统一理解侧和生成侧的想法。Sora问世后,越来越多声音表示,要通往AGI,必须达成“理解和生成的大一统”。这是因为,人类智能的本质就是对世界的理解和创造,目前的AI往往是专门从事理解任务(如分类、检测)或生成任务(如语言模型、图像生成)。但真正的智能需要打通理解和生成,形成闭环。说白了,要让AI模仿人类大脑的学习模式,边看边想,同时在自我输出的过程中,根据不断变化的现实进行反思和调整。用中国人的话来说,就是知行合一。AI要做到这一点,就需要能够自己生成数据来训练自己,并从中不断成长,随着时间推移而不断进化。这样,即便面对从未见过的新情况,AI也能像人一样,灵活应对,甚至有所创造,这就是在实现AGI上的重要一步。酷玩实验室整理编辑首发于微信公众号:酷玩实验室(ID:coollabs)如需转载,请后台留言酷玩实验室视频号热点视频推荐↓↓↓中国AI如何逆袭
添加新评论