对OpenAI官网的Sora的技术报告的解读。
Intro
- 集中两点:
- 把多种类型的视觉数据转化为统一表示的方法。
- Sora 的能力和限制 的 定性评估。
- 能力:生成多种时长、宽纵比、清晰度的视频,最长可生成1分钟的高保真视频。
- Sora证明随着视频生成模型越大,对物理和数字世界的模拟越好
把视频数据打成patches
- 受到LLM在多种文本数据(代码、数学和多种自然语言)上训练的启发,作者在想办法 怎么 继承这样的优点:
- 之前已证明:patches 已经展示了对视觉数据是有效的表征。
视频压缩网络
- 如上图,网络输入的是原始视频,输出的是潜在的表征,这个压缩是空间和时间上的。
- Sora 是在这个潜在表征上 训练和推理时生成视频的。
- 作者也训练了一个响应的解码器模型,把生成的潜在表征映射回像素空间。
时空潜在patches(Spacetime latent patches)
- 作者把一个序列的时空patches作为transformer的tokens。
- 这个机制也可以用在图片上,因为图片就是单帧的视频。
- 这种基于patches的表征,使Sora能够在不同分辨率、时长、长宽比的视频和图片上进行训练。
- 在推理时,能通过排列的合适尺寸的随机初始化patches,我们可以控制生产视频的尺寸。
视频生成的scaling transformers
- Sora 是一个diffusion model. 也是一个diffusion transformer.
- 输入 noisy的patches(和如文本prompts一样的conditioning information),它被训练预测一个clean的patches.
- Transformers已经被证明,通过规模增大,效果会显著增加,如language modeling, computer vision, image generation.
- 这篇工作也随着规模增大,而效果变好。
可变的 时长、清晰度、长宽比
- 过去对图像和视频生成的方法会进行resize, crop, ✂️ videos到一个标准尺寸(4秒的$256 \times 256$ 的视频)。
- 然而作者发现在原始数据上训练有一些好处:
- 灵活采样:
- 可生成1920x1080p ,1080x1920p及其间的任何尺寸。
- 可以直接生成完美适配任何屏幕的视频。
- 还可以快速获得要生成视频的预览版。
- 改进了取景和构图
- 灵活采样:
自然语言理解
- 如何生成text-video的大量训练集:
- 把DALL·E 3中的重新生成字幕技术引入到视频中。
- 首先训练一个描述非常丰富的字幕生成模型。通过这种方式,可提升prompt的保真度和整体视频质量。
- 也用了GPT使prompt变得更长、细节更丰富。
主要任务
- 完美循环视频
- 把图片变视频
- 向前、向后扩展视频
- 根据prompt编辑视频。
- 融合来那个完全不同的视频成为新视频。
- 生成图像。
- 新兴的模拟能力:
- 3D 连贯性:可产生动态相机运动拍摄出来的视频。
- 长范围的 关联性 和 物体特征不变形:
- 即使被遮挡或离开画面,也能保持物体的不变形(often, though not always)
- 能对同一对象产生不同的镜头。
- 模拟真实的和物理世界的交互。
- 模拟数码世界。
缺陷:
- 不能准确模拟现实世界。
- 再交互中,不总是能产生物体状态的正确改变。
- 长的视频中出现的不连贯性。