世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-20

Gemini Omniとは何か？「動画を会話で編集する」Google DeepMindの新しい生成AI

キーポイント

Gemini Omni は、Google DeepMindが紹介している新しいAIモデルで、入力をまたいで何かを作れるのが特徴
いちばん目立つのは、動画を自然な会話で編集できること
画像、テキスト、動画、音声などの複数の素材を組み合わせて一つの出力にまとめることをうたっている
物理法則や世界知識を踏まえた、より一貫性のある映像生成を目指している
「Nano Bananaが画像なら、Gemini Omniは動画版」と言えるような、かなり攻めたコンセプトだと思う

何が新しいのか

Google DeepMindの「Gemini Omni」は、ざっくり言うと**“なんでも材料にして、ひとつの作品に仕上げるための生成AI”です。
元記事の見せ方を見る限り、単なる動画生成モデルというより、会話しながら編集を積み重ねていく創作エンジン**に近い印象があります。

特に強調されているのが、動画編集を自然言語で行えること。
たとえば「この人が鏡に触れたら、鏡が水みたいに波打つようにして」「人物をクレイアニメ風に変えて」「カメラを肩越しの構図に変えて」といった指示を、会話のように重ねながら編集できるわけです。

ここが面白い。
従来の動画編集は、タイムラインを切って、レイヤーを重ねて、細かく調整して……という“職人仕事”の側面が強かった。でもGemini Omniは、編集の入口を「操作」から「会話」に変えようとしている。これはかなり大きい変化だと思います。

元記事で示されている主なポイント

1. 動画を自然な対話で編集できる

元記事では、Gemini Omniを「Nano Bananaの動画版」のように紹介しています。
つまり、1回で完成させるというより、前の編集結果を踏まえて、次の編集を追加していく設計です。

これは地味に重要です。
生成AIは「一発で理想形を出す」より、途中で意図を伝えながら育てるほうが実用的な場面が多いからです。
実際の制作って、最初から完璧な完成形を言語化するのは難しいんですよね。
「もう少し幻想的に」「やっぱり現実感を残したい」「カメラは寄らなくていい」といった調整のほうが圧倒的に多い。
その意味で、会話ベースの編集はかなり筋がいいと思います。

2. 画像・テキスト・動画・音声をまとめて扱う

Gemini Omniは、reference anything を掲げています。
つまり、画像、テキスト、動画、音声などの参照素材をまとめて入力し、それらを一貫した出力に変換するという考え方です。

これは単なる「マルチモーダルAI」以上の話です。
マルチモーダルというのは、いろいろな種類の情報を扱えるAIのことですが、Gemini Omniはそれを創作の統合エンジンとして使おうとしているように見えます。

たとえば、

ある画像をもとに3D構造を作る
動画の一部に音を足す
複数の参考素材をひとつの物語にまとめる

といった使い方です。
この「まとめる力」が本当に実用レベルなら、制作フローはかなり変わるはずです。

3. 世界知識と物理理解を組み込んでいる

元記事では、Gemini Omniは歴史、科学、文化的文脈、物理法則への理解を活かすと説明されています。

ここは少し難しく見えますが、要するに
「それっぽい映像」だけでなく、「筋の通った映像」を作りたいということです。

たとえば、

重力に沿った動き
物体の衝突や流体の動き
歴史や科学に整合する表現
物語として自然な展開

こうした要素を踏まえられると、AI動画は一気に“ただの見た目の派手さ”から抜け出せます。
個人的には、ここがかなり重要だと思います。
生成動画って、見た目はすごいのに「動きが変」「意味がつながらない」ということがまだ多い。そこを、世界理解でどこまで埋められるかが勝負ではないでしょうか。

4. テキストと映像をきれいに同期させる

元記事には、映像の内容とテキスト表示をきちんと対応させる例もあります。
たとえば、アルファベットの各文字に合うものを1つずつ映し、字幕のような下部テキストも合わせる、といった使い方です。

これは見落とされがちですが、かなり大事です。
AI生成の弱点のひとつは、「テキストが入ると急に崩れる」こと。
文字の意味と画面の出来事が噛み合わないと、作品全体が一気にチープに見えます。
もしGemini Omniがこの部分をうまくやれるなら、広告、教育、説明動画の現場でかなり強いはずです。