世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-20

OppoのX-OmniClawがすごい。スマホの中だけで動く「見る・聞く・動く」AIエージェントとは

キーポイント

Oppoが、Android端末上で動くオープンソースのAIエージェント「X-OmniClaw」を公開した
画像・画面・音声をまとめて理解し、クラウドに頼りすぎずに実タスクをこなすのが特徴
記憶機能が強く、ギャラリーや過去の操作履歴を使って「前回の続き」ができる
一度たどった操作手順を記録して再利用できるので、アプリ内の面倒な多段階操作を短縮できる
「スマホAIは雲の上で動くもの」という常識に、かなり真正面から逆らっているのが面白い

まず何が起きているのか

Oppoが発表した「X-OmniClaw」は、Androidスマホの上で直接動くAIエージェントです。
AIエージェントというのは、ただ会話するだけのチャットボットではなく、画面を見て、必要ならアプリを開いて、操作までやってくれる“実行型AI”のことだと思ってください。

これ、地味に見えてかなり重要です。というのも、最近のモバイルAIは「実はスマホの中で動いていない」ことが多いからです。多くはクラウド上のサーバーで仮想的なAndroidを動かし、そこにAIがログインして操作します。
便利そうに聞こえますが、実際の自分のカメラ、写真、ローカルファイル、今見ている画面とはつながりません。要するに、“自分のスマホのコピー”を遠隔操作しているようなものです。

X-OmniClawは、その逆をやろうとしているわけです。
Oppoの技術レポートによると、これは「edge-native architecture」、つまり端末側で完結する設計を採っています。クラウドは“重い推論”が必要なときだけ使い、それ以外は端末内で処理する。かなり筋がいいアプローチだと思います。

X-OmniClawの中身：3つの柱

Oppoはこの仕組みを、3つの要素で説明しています。

1. Omni Perception

これは「見る・聞く」役目です。
カメラ映像、画面の内容、音声入力をひとつの流れとして扱い、まず状況を理解します。

たとえば、カメラでボトルを映しながら「これいくら？」と聞いたら、AIはまず“何を見ているか”を理解し、そのあとで買い物アプリを開いて探し始める、という流れです。
ここで大事なのは、単なる画像認識ではなく、「今の状況」をまとめて読むこと。AIっぽさが一気に実用寄りになります。

2. Omni Action

これは「動く」役目です。
画面上のどこをタップすべきか、どうスクロールすべきかを判断して実行します。

ここで使われるのが、XMLの画面情報、on-deviceのvisual model、OCRです。
OCRは、画像の中の文字を読み取る技術のこと。広告だらけのアプリ画面みたいに、見た目だけではボタンの位置がわかりにくい場面で役立ちます。

個人的には、ここがいちばん現実的で面白いと思いました。AIは賢くても、実際のスマホ画面って広告やポップアップだらけでかなり意地悪なんですよね。そこをちゃんと突破しようとしているのが良いです。

さらに「behavior cloning」という機能もあります。
これは、一度自分がたどった操作手順を記録しておき、次回からAIがそのルートを再現する仕組みです。しかもAndroid deeplinkを使えば、アプリ内の深いページへ一気に飛べます。
毎回「アプリを開く→メニューを押す→さらに探す」という作業を繰り返さなくていいのは、かなり気持ちよさそうです。

3. Omni Memory

これは「覚える」役目です。
X-OmniClawは、タスクの途中でアプリをまたいでも、セッションが変わっても文脈を保持します。さらに、写真ギャラリーから長期的なsemantic memoryを作るとしています。

semantic memoryは、ざっくり言うと「画像や出来事を意味のあるメモとして覚える記憶」です。
ただ写真を保存するだけではなく、「この場所でこのイベントがあった」「この物体はこれ」といった情報として整理するイメージです。

ここはかなり未来っぽいです。
スマホの写真って、撮った瞬間は大事でも、あとから探すのが大変なんですよね。もしAIがそれを文脈ごと覚えてくれるなら、「昔の写真から関連するものを探して、次の作業に使う」という流れが自然になります。これは単なる便利機能ではなく、スマホの使い方そのものを変える可能性があると思います。

実際に何ができるのか

Oppoはデモ例をいくつか示しています。

カメラで商品を見て、価格を調べる

たとえば、実物の商品をカメラで映すと、AIがそれを識別してTaobaoを開き、検索結果を見て価格をまとめて返す。
ユーザーはほとんど入力しなくていい。これはかなり「AIアシスタント」っぽい使い方です。

画面を見ながら学習を手伝う

数学の問題を画面上で解くのを、AIが横で手伝うデモも紹介されています。
画面を読み取り、問題を処理し、終わったら次へ進む。
家庭教師というより、“スマホの中の補助輪”みたいな感じかもしれません。

ギャラリーから動画を作る

さらに面白いのが、パロット関連の写真を使ってハイライト動画を作る例です。
AIがギャラリーを見て、semantic memoryを使って関連画像を探し、CapCutの動画編集機能をdeeplinkで開き、複数ファイルをまとめて選んで動画化する。
本来なら数分以上かかる作業が、かなり自動化されるわけです。

正直、これが本当に安定して動くなら、かなりすごいです。
スマホって「やればできるけど面倒だからやらない」ことが多いので、その面倒をAIが肩代わりしてくれるのは大きいです。