SANA-WMが目指す「1分スケール」の世界モデルとは何か
SANA-WMは、camera-controlled な 720p video generation を行うための、効率重視の world model ここでいう world model は、世界の動きや状態の変化を“予測するモデル”のこと 「minute-scale」というのがポイントで、短いクリップではなく、もっと長めの時間幅を扱おうとしている しかも 720p という、かなり実用的な解像度を対象にしているのが面白い 細かい実装詳細は元ページの本文からは読み取れないが、タイトルだけでも「動画生成」と「世界モデル」の橋渡しを狙っているのがわかる world model は、ざっくり言うと「世界がこの先どう変わるか」を頭の中でシミュレーションするモデルです。 AIの文脈では、単に画像をきれいに作るだけではなく、時間の流れや物体の動き、カメラの視点変更まで含めて未来を予測するイメージですね。 たとえばゲームの中でキャラクターが歩いたら、背景や遠景もそれっぽく変化しますよね。 world model は、そういう「次に何が起きるか」を考える仕
papoo.work