Metaのテキストから動画生成するAIである「Make-A-Video」の論文を AIに要約させてみました

OpenAIのGPTプロンプトを用いて「PaperSummarizer」を作成し

Make-A-Videoの論文を要約してもらいました

『Make-A-Video: Text-to-Video Generation without Text-Video Data』https://arxiv.org/abs/2209.14792

以下がまるごと要約結果になります

INTRODUCTION

  • インターネットからHTMLページから大量の(alt-text, image)ペアを収集することで、テキストから画像へのモデリングにおいて最近の突破がもたらされています。
  • しかし、ビデオに対して同様の成功を再現することは限定されており、(text, video) データセットを容易に収集できないためです。
  • 既存の画像を生成できるモデルが既に存在するなら、テキストからビデオ (T2V) モデルをスクラッチから訓練するのは無駄だと考えました。
  • さらに、教師なし学習はネットワークが数量の圧倒的多いデータの学習を可能にします。
  • この量の大きなデータは世界中の比較的微妙であり一般的ではない概念の学習に重要であり、教師なし学習は自然言語処理分野の進歩の助けとなってきました。
  • それを受けMake-A-Video を提案します:T2Iモデルがテキストと視覚世界の関連性を学んだ上で(unpaired)ビデオ・データの教師なし学習 を使ってリアル・モーションの習得も行うものであり,テキスト・ビデオ・ペアレント・ガイドを使うこと無く,テキストが入力された際の時間軸付き動画生成グロードェット上位水準達成 – Make = A = Video の提案 – 複数動画コレクションの時間世界ダイナミックスの学

PREVIOUS WORK

  • 文章から画像への生成(T2I)に関する研究として、GANを拡張したReed et al., 2016やプログレッシブな生成を行うZhang et al., 2017、テキストとイメージのアラインメントを向上させるXu et al., 2018などがあり、最近ではMake-A-Scene(Gafni et al., 2022)やParti (Yu et al., 2022a)なども提案されている。
  • 文章から動画への生成(T2V)に関する研究としては、Mittal et al. 2017, Pan et al. 2017, Li et al. 2018, Gupta e t a l . 2 0 1 8 , L i u e t a l . 2 0 1 9 b な ど が 主 に 簡 単 な マ ス タ ー ズ (例: 移動する数字や特定の人間の動作)で行われてきた。また、Sync-DRAW (Mittal etal.,2017)はVAEとリカレントアテンションを使った最初のT2V生成手法だった。GODIVA (Wuetal.,2021a),NÜWA(Wuetal.,2021b),CogVideo(Hongetal.,2022)が追加的なバリエーションである。
    • 画像情報を使って動画の生成を単純化することが議論されているが、Make-A-Videoは以前の研究から異なり文章からの動画生成に対し独立したアーキテクチャーであり、T2Iモデルの適応可能性の高い重み調整及び3Dコンボリューションモデル・時間的注意レイヤーの採用によりVDM(Hoetal.,2022)の劣勢性も超えています。

METHOD

  • Make-A-Videoは三つの主要なコンポーネントから構成されている(i)テキストイメージペアで訓練されたベースのT2Iモデル(Sec. 3.1)、(ii)時空間畳み込みとアテンションレイヤーを使ってネットワークの構造ブロックを時間の次元に展開する (Sec. 3.2)、 他にもT2V生成に必要な重要な要素である高フレームレートの生成のためのフレーム補完ネットワーク (Sec. 3.3)。Make-A-Videoの最終的なT2V推論スキームは以下の通りである (Fig. 2) : ŷtが生成されたビデオ、SR h 、 SR l が空間的・時空的超解像ネットワーク (Sec. 3.2) 、↑ Fがフレーム補完ネットワーク (Sec..3,3) 、D tが時空間デコーダー { Sec..3,2) およびPが事前分布 ( Sec..3,1 ) xがBPEエンコーディングテキスト C x はCLIPテキストエンコーダー(Radford et al., 2021), xは入力テキスト。これら三つの主要な部分は以降の節で詳しく説明されている。

TEXT-TO-IMAGE MODEL

  • 先行研究(Ramesh et al., 2022)を元に、テンポラルな要約を加える前に、学習モデルのバックボーンをトレーニングするT2Iモデルを構築した。
  • 文章から高解像度の画像を生成するため、以下のネットワークが使われた: (i) BPEでエンコードされた文章トークンxと文章の埋め込みx e に応じて画像の埋め込みy e を生成する事前ネットワークP, (ii) 画像の埋め込みy e に応じて低解像度(64 × 64 RGB)の画像ŷl を生成するディコーダネットワークD, (iii) 2つのスーパー・レソリューション・ネットワークSR l , SR h が最終的な生成画像ŷの256 × 256または768 × 768 ピクセルに決定していく。

SPATIOTEMPORAL LAYERS

  • 2D条件ネットワークを時間的な次元に拡張するために、動画を生成するために空間的および時間的な次元が必要とされている2つの重要な構築ブロック(i)畳込み層(3.2.1セクション)と(ii)注意層 (3.2.2セクション)を修正します。 フルコネクテッドレイヤーのような他のレイヤーは、追加の次元を加える際に特別な処理が必要ではありません。 それらは、構造化された空間と時間情報に非依存です。 U-Netベースの拡散ネットワークの大部分でタイムモジュールが行われています。 空間的・時間的デコーダD t は64 × 64サイズの16 RGBフレームを生成し、新しく追加されたフレーム補完ネットワーク↑ F は16の生成フレームの間補完して有効なフレームレートを上昇させます(Fig. 2で示されている) 、SR t l スーパーオールドネットワークも使用されます。 注意してください SR h 時間の次元に延長することは困難であり、メモリ・コンピューティングの制限からも原因が考えられます。

PSEUDO-3D CONVOLUTIONAL LAYERS

  • Chollet(2017)が提唱した可分離畳み込みをモチベーションに, 図3に示すように2D畳み込み層の後に1D畳み込みを重ねることで, 3D畳み込み層の大きな計算量を抑止して, 空間軸と時間軸の情報共有を行う. また, 既存の学習済2D畳み込み層と新規初期化された1D畳入力層の違いから、既存の空間情報は保持されながらも、新規の畳入力を徹底的に学習できる. インプットテンソルh ∈ R B×C×F ×H×W に対して、Pseudo-3D 畳入力レイヤーは、以下のように定義される: 各スパットリーディメンションはtranspose operator •T を使ってスワップされる. スムーズな初期化のため、Conv 2Dレイヤーは事前学習T2Iモデルから初期化され、Conv 1dレイヤーはidentity function として初期化することで﹣特定テキストから生成されるK枚の画面(ノイズランダム)も含まれる﹣単一の空間だったりの推定からspatio-temporal layers への安定遷移が可能。

PSEUDO-3D ATTENTION LAYERS

  • T2Iネットワークの重要な部分であるAttentionレイヤーでは、拡散時間ステップなど他の関連情報とともにテキスト情報を複数のネットワーク階層に注入する。
  • 3D畳み込みレイヤーを使うのは計算量が大きいため、Attentionレイヤーの時間次元をメモリ消費量から断念していたが、(Ho et al., 2022)の研究に基づき、これまでの次元分割戦略をAttentionレイヤーにも適用した。
  • 各(事前学習された)スパ

FRAME INTERPOLATION NETWORK

  • 3.2節で議論されたスパティオテンポラルの変更を加えることに加えて、フレーム補間や拡張を行うマスク付きフレーム補間・拡張ネットワークFをトレーニングします。
  • メモリとコンピューティング制約内でフレームレートを増やすため、U-Netの入力に3チャネルのRGBマスク付きビデオ入力と、どのフレームがマスクされているかを示す追加のバイナリチャネルがあるゼロパディングされたマスク付き入力フレームで、spatiotemporal decoder D t をファインチューンします。
  • ↑F を使って与えられたビデオテンソルをマスク付きフレーム補間によって拡張します。
  • すべての実験ではframe skip 5 で16 フレェムのビデオを76 ファージ( (16 – 1) × 5 + 1 )にアップサムプリングしました。
  • 同じアーキテクチャーは動画の拡大もしくは画像の動画化などにも使用可能であり、動画の始端や末端のフェイムだけがマスキングされることで実現可能となります。

TRAINING

  • Make-A-Videoのさまざまなコンポーネントは独立して訓練される。
  • 入力としてテキストを受け取る唯一のコンポーネントは、事前Pである。文字テキストと画像データの組を使って訓練し、ビデオに微調整は行わない。
  • デコーダ、事前、2つの超解像度のコンポーネントは最初に画像だけ(同時にテキストがない)で訓練する。
  • テンポラルレイヤーを加え初期化し、ラベル付きのビデオデータ上で微調整を行う。
  • 1〜30fpsの間の範囲からランダムに16フレームが元動画からサンプリングされる。ベータ関数を使ってサンプリングを行い、デコーダの学習時に高FPS範囲(より少ない運動)から始め「低FPS範囲(より多くの動き)」へと変化する。
  • マスク付きフレーム補間部分はテモラル・デコーダからファイネチューンされる。

DATASETS AND SETTINGS

  • 訓練用の画像モデルとして、Schuhmannらのデータセットの2.3Bサブセットを使用している。
  • NSFW画像、テキスト内の毒性単語、ウォーターマーク確率が0.5以上の画像は除外されている。
  • WebVid-10Mを使用し、MSR-VTTでゼロショット(訓練なし)評価を行った。
  • UCF-101およびMSR‑VTTではゼロショット評価を行った。UCF‑101においてFrechet Video Distance(FVD)とInception Score(IS)を10Kサンプルに適応させた。 MSR‑VTTにおいてFrechet Inception Distance(FID)とCLIPSIMの平均値を求めた。 AMTから300のプロンプトを集め、5カテゴリー(動物・ファンタジー・人間・自然・食料)からプロンプト選択することでヒューマンエバレッジセットを作成した。またDrawBenchのImagenからも収集した

QUANTITATIVE RESULTS

  • MSR-VTTとUCF-101の自動評価を行った結果、Make-A-VideoはGODIVAやN ÜWAよりも優れており、CogVideoとの比較でも優位な結果が得られた。
  • 人間による評価の結果からも、Make-A-VideoはDrawBench及びテストセットでCogVideoよりも高いビデオ品質とテキスト・ビデオ忠実性を達成した。 FILM (Reda et al., 2022) との比較では62%(テストセット)から54%(DrawBench)までの頻度でリアルな動きが生成されることを見出した。

QUALITATIVE RESULTS

  • Figure 1にMake-A-Videoの生成例を示している。
  • CogVideo(Hong et al., 2022)やVDM(Ho et al., 2022)とT2Vの生成比較、FILM(Reda et al., 2022)と動画補間比較を行う。
  • また、イメージアニメーションや動画変異などの他のタスクにも使用可能である。
  • Figure 4 (c)は、2つの画像間の補間タスクにおけるFILM(Reda et al.、2022)との比較を示す。
  • 我々のモデルはFILMよりも意味的に有意義な補間を生成しているが、FILMはフレームの間をセマンティックな世界理解なくスムーズに遷移する傾向がある。 Figure 4 (d)は動画変異の例である。
  • 動画からの全フレームの平均CLIPエンベッディングを条件として、セマンティックに類似の動画生成する。 他の動画生成例や応用方法はmake-a-video.github.ioで見れます

DISCUSSION

  • 人間の知能の最大の強みは、周囲の世界から学習することである。
  • 生成システムが、人間の学習方法を模倣すればより創造性が高く、有用なものになる。
  • ラベル付きデータへの依存から脱していくためには、数段階多い動画からの無監視学習を利用することが役立つ。
  • 技術的な制限に取り組む予定であり、テキストと動画内で推論し得る关联を含んだ長い動画の生成も未来の課題だ。
  • データセットはNSFWコンテンツや有害な単語を取り除いて公開されており、モデルの透明性を保っている。