PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Gemini Omniとは何か?「動画を会話で編集する」Google DeepMindの新しい生成AI

キーポイント

image_0001.svg

何が新しいのか

Google DeepMindの「Gemini Omni」は、ざっくり言うと**“なんでも材料にして、ひとつの作品に仕上げるための生成AI”です。
元記事の見せ方を見る限り、単なる動画生成モデルというより、​
会話しながら編集を積み重ねていく創作エンジン**に近い印象があります。

image_0002.svg

特に強調されているのが、​動画編集を自然言語で行えること。
たとえば「この人が鏡に触れたら、鏡が水みたいに波打つようにして」「人物をクレイアニメ風に変えて」「カメラを肩越しの構図に変えて」といった指示を、会話のように重ねながら編集できるわけです。

image_0004.svg

image_0003.svg

ここが面白い。
従来の動画編集は、タイムラインを切って、レイヤーを重ねて、細かく調整して……という“職人仕事”の側面が強かった。でもGemini Omniは、​編集の入口を「操作」から「会話」に変えようとしている。これはかなり大きい変化だと思います。

image_0005.svg

元記事で示されている主なポイント

image_0007.svg

image_0006.svg

1. 動画を自然な対話で編集できる

元記事では、Gemini Omniを​「Nano Bananaの動画版」​のように紹介しています。
つまり、1回で完成させるというより、​前の編集結果を踏まえて、次の編集を追加していく設計です。

image_0008.svg

これは地味に重要です。
生成AIは「一発で理想形を出す」より、​途中で意図を伝えながら育てるほうが実用的な場面が多いからです。
実際の制作って、最初から完璧な完成形を言語化するのは難しいんですよね。
「もう少し幻想的に」「やっぱり現実感を残したい」「カメラは寄らなくていい」といった調整のほうが圧倒的に多い。
その意味で、会話ベースの編集はかなり筋がいいと思います。

image_0009.svg

2. 画像・テキスト・動画・音声をまとめて扱う

Gemini Omniは、​reference anything を掲げています。
つまり、​画像、テキスト、動画、音声などの参照素材をまとめて入力し、それらを一貫した出力に変換するという考え方です。

image_0011.svg

image_0010.svg

これは単なる「マルチモーダルAI」以上の話です。
マルチモーダルというのは、いろいろな種類の情報を扱えるAIのことですが、Gemini Omniはそれを創作の統合エンジンとして使おうとしているように見えます。

image_0012.svg

たとえば、

image_0014.svg

image_0013.svg

といった使い方です。
この「まとめる力」が本当に実用レベルなら、制作フローはかなり変わるはずです。

image_0015.svg

3. 世界知識と物理理解を組み込んでいる

元記事では、Gemini Omniは歴史、科学、文化的文脈、物理法則への理解を活かすと説明されています。

image_0018.jpg

image_0016.svg

ここは少し難しく見えますが、要するに
​「それっぽい映像」だけでなく、「筋の通った映像」を作りたいということです。

image_0019.jpg

たとえば、

image_0020.jpg

こうした要素を踏まえられると、AI動画は一気に“ただの見た目の派手さ”から抜け出せます。
個人的には、ここがかなり重要だと思います。
生成動画って、見た目はすごいのに「動きが変」「意味がつながらない」ということがまだ多い。そこを、世界理解でどこまで埋められるかが勝負ではないでしょうか。

image_0022.jpg

image_0021.jpg

4. テキストと映像をきれいに同期させる

元記事には、​映像の内容とテキスト表示をきちんと対応させる例もあります。
たとえば、アルファベットの各文字に合うものを1つずつ映し、字幕のような下部テキストも合わせる、といった使い方です。

image_0023.jpg

これは見落とされがちですが、かなり大事です。
AI生成の弱点のひとつは、​​「テキストが入ると急に崩れる」​こと。
文字の意味と画面の出来事が噛み合わないと、作品全体が一気にチープに見えます。
もしGemini Omniがこの部分をうまくやれるなら、広告、教育、説明動画の現場でかなり強いはずです。

image_0025.jpg

image_0024.jpg

どういう場面で便利そうか

Gemini Omniは、かなり広い用途を狙っているように見えます。
元記事の例から考えると、向いていそうなのは次のような場面です。

image_0026.jpg

image_0028.jpg

image_0027.jpg

とくにプリビズ、つまり本格制作の前の試作映像にはかなり相性がよさそうです。
完成品をいきなり作るというより、まず“見える形”にして、そこから詰める。
この使い方なら、AIがかなり現実的な道具になります。

image_0029.jpg

どこがすごくて、どこがまだ気になるか

率直に言うと、Gemini Omniのコンセプトはかなり魅力的です。
​「動画を会話で育てる」​という発想は、これまでの編集ソフトの常識をかなり揺さぶります。

image_0030.jpg

ただし、個人的には気になる点もあります。

image_0032.jpg

image_0031.jpg

気になる点

image_0033.jpg

この手のモデルは、デモを見ると無限にできそうに見えるのですが、実運用では失敗時の安定性がかなり重要です。
1回うまくいくより、10回やって8回ちゃんと使えるほうが価値がある。
そこをどこまで詰めているのかは、今後の実際の利用例を見たいところです。

image_0035.jpg

image_0034.jpg

まとめ:Gemini Omniは「動画編集の会話化」を狙うモデル

Gemini Omniは、Google DeepMindが示した次世代の生成AIの方向性をかなりわかりやすく表しています。
単に動画を作るのではなく、​会話しながら、複数の入力を組み合わせ、世界知識や物理法則を踏まえた映像へ育てる
この思想は、かなり野心的です。

image_0036.jpg

個人的には、これは「動画生成AI」よりも、​**“創作の共同作業相手”に近づく試み**だと思います。
もしこの方向が成熟していけば、動画編集はもっと敷居が下がり、アイデアを持つ人がそのまま表現に近づけるようになるはずです。
その意味で、Gemini Omniはかなり重要な一歩ではないでしょうか。

image_0038.svg

image_0037.svg


image_0039.svg

参考: Gemini Omni — Google DeepMind

image_0040.svg

同じ著者の記事