使用OpenAI的GPT提示,创建一个“PaperSummaryr”
我请你总结一下我的制作视频论文。
『制作视频:没有文本-视频数据的文本到视频生成』https://arxiv.org/abs/2209.14792
以下是完整的总结结果
介绍
- 从互联网上的HTML页面收集大量替代文本,图像对导致了文本到图像建模的最新突破。
- 但是,类似的成功仅限于复制视频,并且(文本,视频)数据集不容易收集。
- 我们认为,如果我们已经有一个可以生成现有图像的模型,那么从头开始训练文本到视频 (T2V) 模型是没有用的。
- 此外,无监督学习允许网络学习大量数据。
- 如此大量的大数据对于学习世界各地相对微妙和不常见的概念非常重要,无监督学习有助于推进自然语言处理领域。
- 作为回应,我们提出了Make-A-Video:一种T2I模型,它学习文本和视觉世界之间的关系(未配对),并且还使用视频数据的无监督学习来学习真实的运动,而无需使用文本 – 视频父指南,在输入文本时实现具有时间轴的视频生成上层 – Make = A = 视频提案 – 多个视频集合的时间世界动态研究
以前的工作
- Reed等人,将GAN扩展为文本到图像生成(T2I)的研究, 张等人,做2016年和进步一代, 2017, Xu 等, 改进文本-图像对齐, 2018年,以及最近的Make-A-Scene(Gafni等人, 2022)和帕蒂(于等人, 2022a)和其他提案。
- 作为对文本到视频生成(T2V)的研究,Mittal等人。 2017, 潘等. 2017, 李等. 2018年,古普塔· 2 0 1 8 , L i u e t a l . 2 0 1 9 b主要在简单的维度上完成(例如,移动数字或某些人类运动)。 Sync-DRAW(米塔尔,2017)是第一个使用VAE和循环注意力的T2V生成方法。 GODIVA(Wuetal.,2021a),NÜWA(Wuetal.,2021b)和CogVideo(Hongetal.,2022)是额外的变体。
- 虽然讨论了使用图像信息简化视频生成,但与以前的研究不同,Make-A-Video 是一种独立于文本视频生成的架构,并且通过采用 T2I 模型的高度适应性权重调整和采用 3D 卷积模型和时间注意力层,也超越了 VDM 的劣势(Hoetal.,2022)。
方法
- Make-A-Video由三个主要部分组成:(i)基于T2I模型(Sec 3.1),(ii)利用时空卷积和注意力层将网络的结构块扩展到时间维度(Sec. 3.2)、帧补全网络用于生成高帧率,这也是T2V生成所需的重要元件(Sec. 3.3)。 Make-A-Video的最终T2V推理方案如下(图)。 2):ŷt生成的视频,SR h,SR l是一个空间和时空超分辨率网络(Sec. 3.2),↑ F为帧补全网络(Sec.. 3,3),Dt是一个时空解码器{秒。 3,2) 和 P 优先(秒。 3,1 ) x 是 BPE 编码文本 C x 是 CLIP 文本编码器(Radford 等人, 2021),其中 x 是输入文本。 以下各节将详细介绍这三个主要部分。
文本到图像模型
- 以前的研究(Ramesh等人, 2022),我们构建了一个 T2I 模型来训练学习模型的主干,然后再添加时态摘要。
- 为了从文本生成高分辨率图像,使用了以下网络:(i)根据BPE编码的文本标记x和文本嵌入xe e生成图像嵌入y e的预网络P,(ii)根据图像嵌入y生成低分辨率(64×64 RGB)图像的解码器网络,(iii) 两个超分辨率网络SR l和SR h确定最终生成的图像ŷ256×256或768×768像素。
时空图层
- 为了将2D条件网络扩展到时间维度,我们将修改两个需要空间和时间维度来生成视频的重要构建块:(i)卷积层(第3.2.1节)和(ii)注意力层(第3.2.2节)。 其他层(如全连接层)不需要特殊处理即可添加额外尺寸。 它们独立于结构化的空间和时间信息。 时间模块用于大多数基于U-Net的传播网络。 时空解码器D t生成16个64×64大小的RGB帧,新增的帧补全网络↑F对16个生成的帧进行插值,以提高有效帧率(图)。 2)、SR t l 超旧网络也被使用。 请注意,SR h 很难扩展到时间维度,也可能是由于内存计算的限制。
伪 3D 卷积层
- 以Chollet(2017)提出的可分离卷积为动机,如图3所示,将一维卷积叠加在二维卷积层之后,以抑制三维卷积层的庞大计算复杂度,共享空间轴和时间轴上的信息。 此外,从现有训练的2D卷积层和新初始化的1D榻榻米输入层之间的差异中,可以在保持现有空间信息的同时彻底学习新的榻榻米输入。 对于输入张量 h ∈ R B×C×F ×H×W,伪 3D 榻榻米输入层定义为: 每个溅射维度都使用转置运算符 •T 进行交换。 为了顺利初始化,Conv 2D 层从预先训练的 T2I 模型初始化,并且 Conv 1d 层初始化为恒等函数 – 其中还包含从特定文本生成的 K 个屏幕(噪声随机) – 允许从估计单个空间到时空层的稳定过渡。
伪 3D 注意力层
- 注意力层是T2I网络的重要组成部分,它将文本信息与其他相关信息(如扩散时间步长)一起注入多个网络层。
- 由于使用3D卷积层是计算密集型的,因此由于内存消耗而放弃了注意力层的时间维度,但是(Ho等人, 2022),我们将之前的维度划分策略应用于注意力层。
- 每个(预培训)水疗中心
帧插值网络
- 除了进行第 3.2 节中讨论的时空变化外,我们还将训练掩码帧插值和扩展网络 F 以进行帧插值和扩展。
- 为了在内存和计算约束范围内提高帧速率,时空解码器 D t 使用零填充屏蔽输入帧进行微调,U-Net 输入处有一个 3 通道 RGB 屏蔽视频输入,还有一个额外的二进制通道来指示哪些帧被屏蔽。
- 使用 ↑F 通过遮罩帧插值扩展给定的视频张量。
- 所有实验在跳帧5时将16个噬菌体((16-1)×5 + 1)相加。
- 相同的体系结构可用于放大视频或动画图像,并且可以通过仅掩盖视频开头和结尾的名声来实现。
训练
- 制作视频的各个组件都是独立训练的。
- 接收文本作为输入的唯一组件是先前的 P。 使用文本和图像数据对进行训练,不要调整视频。
- 解码器、前二、超分辨率组件首先仅在图像上训练(同时没有文本)。
- 添加时态图层,对其进行初始化,并根据标记的视频数据对其进行微调。
- 从原始视频中采样 16 到 1 fps 之间的 30 个随机帧。 使用beta函数进行采样,当解码器被训练时,它从高FPS范围(较少运动)开始,然后更改为“低FPS范围(更多运动)”。
- 屏蔽帧插值部分由 temoral 解码器微调。
数据集和设置
- 作为训练的图像模型,我们使用Schuhmann等人数据集的2.3B子集。
- 不包括 NSFW 图像、文本中的有毒单词以及水印概率为 0.5 或更高的图像。
- WebVid-10M用于在MSR-VTT上进行零镜头(未经训练)评估。
- UCF-101和MSR-VTT进行了零镜头评估。 弗雷切特视频距离(FVD)和初始分数(IS)适用于UCF-101中的10K样本。 确定了MSR-VTT的Frechet起始距离(FID)和CLIPSIM的平均值。 通过从 AMT 收集 300 个提示并从五个类别(动物、幻想、人类、自然和食物)中选择提示来创建人类平均集。 也收集自DrawBench的Imagen
定量结果
- 对MSR-VTT和UCF-101的自动评估表明,Make-A-Video优于GODIVA和N ÜWA,优于CogVideo。
- 基于人工评估,Make-A-Video在DrawBench和测试集中实现了比CogVideo更高的视频质量和文本视频保真度。 电影(瑞达等人, 2022),我们发现真实运动的生成频率为 62%(测试集)到 54%(DrawBench)。
定性结果
- 图 1 显示了制作视频生成的示例。
- CogVideo(Hong et al., 2022)和VDM(Ho等人, 2022)和T2V代比较,FILM(Reda等人, 2022)和视频插值比较。
- 它还可以用于其他任务,例如图像动画和视频突变。
- 图 4 (c) 显示了在两张图像之间的插值任务中与 FILM(Reda 等人,2022 年)的比较。
- 我们的模型比FILM产生更有意义的语义插值,但FILM倾向于在没有语义世界理解的情况下在帧之间平滑过渡。 图4(d)显示了视频突变的示例。
- 根据视频中所有帧的平均 CLIP 嵌入生成语义相似的视频。 您可以在 make-a-video.github.io 上查看其他视频生成示例和应用方法
讨论
- 人类智慧的最大优势在于它从周围的世界学习。
- 如果生成系统模仿人类的学习方式,它们可以更具创造性和有用性。
- 为了摆脱对标记数据的依赖,使用来自多个视频级别的无监督学习是有帮助的。
- 技术限制将得到解决,在文本和视频中生成包含推理推论的长视频也是未来的挑战。
- 发布数据集时删除了NSFW内容和有害词,保持了模型的透明度。