
AI 也能生成传神的《》动画片了!长度不错达到 63 秒,剧情也不错从重生成。 当地时分 4 月 8 日,来自英伟达、好意思国斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、得克萨斯大学奥斯汀分校的究诘东谈主员,基于测试时检会(TTT,Test-Time Training)生成了多个《猫和老鼠》的动画视频。 他们在预检会的 Transformer 模子中添加了测试时检会层并对其进行微调,借此生成了具有强时分一致性的《猫和老鼠》一分钟动画片。 究诘东谈主员示意,每个视频都是由模子一次性径直

AI 也能生成传神的《》动画片了!长度不错达到 63 秒,剧情也不错从重生成。

当地时分 4 月 8 日,来自英伟达、好意思国斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、得克萨斯大学奥斯汀分校的究诘东谈主员,基于测试时检会(TTT,Test-Time Training)生成了多个《猫和老鼠》的动画视频。
他们在预检会的 Transformer 模子中添加了测试时检会层并对其进行微调,借此生成了具有强时分一致性的《猫和老鼠》一分钟动画片。
究诘东谈主员示意,每个视频都是由模子一次性径直生成的,莫得经过裁剪、拼接或后责罚,每个故事也都是全新创作的。
那么,上述视频到底是如何生成的?究诘东谈主员示意,如今的 Transformer 模子在生成一分钟视频方面仍然濒临挑战,因为自稳当力层在责罚长高下文时遵守低下。诸如 Mamba 层之类的替代决策在责罚复杂的多场景故事时施展欠安,因为它们的守密现象施展力较弱。
为此,他们使用了测试时检会层,其守密现象自己不错是神经网罗,从而具备更强的抒发才略。当在预检会的 Transformer 中加入测试时检会层,使其大要凭证文分内镜剧本生成一分钟的视频。
究诘中,他们从一个预检会的扩散 Transformer(CogVideo-X 5B)脱手,正本其只不错 16 帧每秒的速率生成 3 秒的短片断,或以 8 帧每秒的速率生成 6 秒的短片断。
可是,究诘东谈主员添加了重新启动化的测试时检会层,并对该模子进行微调,以便凭证文分内镜剧本生成一分钟的视频。
他们将自稳当力层抑止在 3 秒的片断内,以便将究诘老本保握在可控鸿沟内。通盘检会经由运行在 256 个英伟达 H100 上,高出于摧残了 50 小时的检会时长。
为了快速进行迭代,究诘东谈主员基于约 7 小时的《猫和老鼠》动画片,并辅以东谈主工标注的分镜剧本,整理了一个文本到视频的数据集。
行为主意考证,本次究诘中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而关于视觉和物理委果感方面,此前东谈主们依然赢得显耀进展,是以本次究诘未作要点强调。

从宏不雅层面来看,本次设施仅仅在预检会的扩散 Transformer(Diffusion Transformer)上添加了测试时检会层,并在带有文本扫视的长视频上进行微调。
他们选用了事前添加测试时检会层、然后再进行微调的设施,这种设施原则上适用于任何骨干架构。
究诘中,他们选拔扩散 Transformer 行为初步演示,因为它是视频生成中最流行的架构。由于在视频上预检会扩散 Transformer 的老本过高,是以究诘东谈主员从 CogVideo-X 5B 的预检会查抄点脱手。
他们将视频野心为包含多个场景,每个场景包含一个或多个 3 秒的片断,并选用 3 秒片断行为文本与视频配对的最小单元,之是以这么作念的原因有三个:
第一,原始预检会的 CogVideo-X 的最大生成长度为 3 秒。第二,在《猫和老鼠》的剧鸠合,大大都场景的时长至少为 3 秒。第三,以 3 秒为一段构建多阶段数据集最为肤浅。
在推理阶段,究诘东谈主员按照以下三种花样中的任何一种,以防范进程递加的端正来编写长视频的文本教唆。
• 花样 1:用 5-8 句话松弛空洞情节。
• 花样 2:用节略 20 句话防范表情情节,每句话大致对应 3 秒的片断。
• 花样 3:分镜剧本。每一个 3 秒钟的片断都由一段 3 到 5 句话来表情,内容包含配景心计和镜头移动等细节。一个或多个段落构成的剧本组,会被严格地界定为属于某些场景,况且要使用关键词“<场景脱手>”和“< 场景收尾 >”。
在微合并推理中,文分内词器的骨子输入经久选用花样 3,花样之间的治疗由 Claude 3.7 Sonnet 按 1→2→3 的端正奉行。
为了生成时分较长的视频,究诘东谈主员针对每个 3 秒的片断都孤独使用调换的要领。
具体而言,给定一个包含 n 段落的花样 3 的分镜剧本,领先生成 n 个序列片断,每个片断都包含从相应段凄冷取的文本象征以及后续的视频象征。
然后,将总共 n 个序列片断结合在一皆,从而变成输入序列,这时序列中包含交错摆设的文本 tokens 和视频 tokens。
关于 CogVideo-X 来说,它选用自稳当力层来针对每段最长 3 秒的视频进行全局序列责罚。可是,面对长视频时,其所选用的全局稳当力机制会显耀裁减遵守。
为了幸免加多自稳当力层的高下文长度,究诘东谈主员将其责罚鸿沟为止在每个 3 秒片断内,使各 n 个序列片断大要孤独进行稳当力筹商。
由于测试时检会层大要高效地责罚长高下文序列,因此他们选用全局花样来责罚通盘输入序列。
革职大说话模子的圭臬作念法,究诘东谈主员将转换架构的高下文长度分为五个阶段,并将其膨大至一分钟。
具体来说,他们先在《猫和老鼠》的 3 秒片断上针对通盘预检会模子进行微调。
在此阶段,新的参数高出是测试时检会层和门控机制中的的参数,会被赋予更高的学习率。
接下来,究诘东谈主员区分对 9 秒、18 秒、30 秒以及最终的 63 秒的视频进行微调。
为了幸免模子在预检会经由中渐忘过多的宇宙常识,究诘东谈主员仅对测试时检会层、门控层和自稳当力层进行微调,且在这四个阶段中使用较低的学习率。
在原始视频的登第上,他们选拔了从 1940 年至 1948 年间刊行的 81 集《猫和老鼠》,每集时长约 5 分钟,总共集数加起来时长约 7 小时。
然后,究诘东谈主员在原始视频上运行一个视频超分辨率模子,从而为数据集生成视觉恶果更强的视频,这些视频的分辨率均为 720×480。
接着,他们让东谈主工标注员将每个片断明白为场景,然后从每个场景中索取 3 秒长的片断。
接下来,究诘东谈主员让东谈主工标注员为每个 3 秒的片断撰写一段防范的表情,然后径直针对这些片断进行微调。
为了创建数据,究诘东谈主员将一语气的 3 秒片断拼接成 9 秒、18 秒、30 秒和 63 秒的视频,并附上相应的文本扫视,总共检会视频的标注均选用上文的花样 3。

关于 GPU 而言,要想高效地收尾测试检会层-多层感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需要进行迥殊野心,以便运用其内存脉络结构。
英伟达 GPU 架构中的中枢筹商单元是流式多责罚器(SMs,Streaming Multiprocessors),其功能类比于 CPU 中的单个中枢。
GPU 上的总共流式多责罚器分享一个相对较慢但容量较大的全局内存(即 HBM,High Bandwidth Memory),然后每个流式多责罚器都有一个快速但容量较小的片上内存(即 SMEM,Shared Memory)。
GPU 上 SMEM 与 HBM 之间的时常数据传输会显耀裁减举座遵守。而 Mamba 和自稳当力层通过运用内核交融时期,不错减少这类数据的传输。
其中枢念念想是将输入和启动现象加载到每个 SMEM 中,十足在片上进行筹商,况且只将最终输出写回 HBM。
联系词,TTT-MLP 的守密现象即双层 MLP 函数 f 的权重矩阵 W(1) 和 W(2),由于体积过大无法存储于单个流式多责罚器的分享内存中。
为了减少每个流式多责罚器所需的内存,究诘东谈主员使用张量并行机制,将 W(1) 和 W(2) 在流式多责罚器之间进行分片。

由于大型多层感知器层不错被分片并跨多个 GPU 的高带宽存储器上进行检会,因此究诘东谈主员将相通的念念路用于多个流式多责罚器的分享内存中,将每个流式多责罚器视为一个 GPU 的类比。
究诘东谈主员运用英伟达 Hopper GPU 架构的漫衍式分享内存特色,收尾了流式多责罚器间的全局归约操作,进而显耀普及了遵守。
行为一种通用原则,如若一个模子架构 f 不错通过圭臬张量并行机制在 GPU 之间进行分片,那么当 f 用作守密现象时,相通的分片政策也不错用于流式多责罚器之间。

不外,本次究诘的 TTT-MLP 内核受限于寄存器溢出和异步指示的次优排序。将来,通过裁减寄存器压力以及建筑编译器感知更强的异步操作决策,其奉行遵守或能得到进一步普及。总的来说,本次设施有望用于生成更长、更复杂视频,也许下一代儿童将能看上由 AI 生成的动画一语气剧?当今看来,这一设计并非莫得收尾的可能。
参考辛苦:
https://test-time-training.github.io/video-dit/
https://x.com/arankomatsuzaki/status/1909336661743550555
运营/排版:何晨龙