世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-18

Appleはまだ空間コンピューティングをあきらめていない？LLMの空間理解と手話注釈研究から見える次の一手

Appleの最新研究を眺めると、「Vision Proはもう終わった」と切り捨てるには早すぎる、という空気がはっきり見えてきます。
今回のAppleInsiderの記事では、AppleのMachine Learning Blogに公開された3本の研究を中心に、LLM（大規模言語モデル）を空間認識や手話処理にどう活かすかが紹介されています。

正直、かなり面白いです。というのも、ここでAppleがやっているのは単なる「AIチャットを賢くする」話ではなく、現実の空間を理解し、目の前の物をどう扱うかまで考えるAIを育てようとしているからです。これはVision Proのような空間コンピューティング製品と相性がよすぎる。むしろ、ここを狙わずしてAppleのAI戦略は語れないのではないか、と思います。

まず結論：この記事のキーポイント

Appleは空間コンピューティング関連の研究を継続している
LLM/MLLM（画像や動画も扱うマルチモーダルLLM）の空間理解だけでなく、物の用途や使い方まで評価するベンチマークを作った
手話動画に対して、AIで注釈作業を半自動化する研究も進めている
3D head reconstructionの研究は、Vision ProのPersona機能改善につながる可能性がある
Appleは、AIを「会話」だけでなく現実世界と結びつける方向に強く進んでいるように見える

Appleの狙いは「賢いチャットボット」ではなく「空間をわかるAI」

今回の研究で目立つのは、AppleがAIに求めているのが単なる文章生成能力ではないことです。
Appleは、空間を理解する力や物の役割を理解する力を重視しています。

たとえば、人間は部屋を見たときに「机がここにある」「リモコンはテレビを操作するもの」「洗濯機のこの状態はエラーかも」と自然に判断できますよね。
Appleは、AIにもそういう理解を持たせたいわけです。

この発想、かなりAppleらしいです。
派手に「AIで何でもできます」と言うより、実際の体験をよくするためにAIを地味に鍛える感じがする。こういう方向性は、個人的にはかなり好感があります。

研究1：LLMは「どこにあるか」だけでなく「何のためにあるか」も理解できるのか

最初の研究は、**“From Where Things Are to What They’re For: Benchmarking Spatial-Functional Intelligence for Multimodal LLMs”** というものです。
タイトル通り、AIが「物の位置関係」だけでなく、「その物が何に使われるか」まで理解できるかを評価します。

何が新しいのか

従来の評価方法は、主に

物がどこにあるか
どんな配置か

をチェックするものが中心でした。
でもAppleは、それだけでは足りないと言います。

たしかにその通りで、現実世界で役立つAIには、

これは何の物か
どう使うのか
失敗したときどう診断するのか

までわかってほしいわけです。

Appleが作ったのは、SFI-Bench（Spatial-Functional Intelligence Benchmark）という新しいベンチマークです。
これは、134本の屋内動画スキャンから作られた1,555問の専門家注釈つき質問で構成されています。

ベンチマークの内容もかなり実践的で、

棚に並んだ同じブランドのボトルの最大集合を見つける
洗濯機の現在のプログラムを停止する
テレビのリモコンは何に使うか答える

といった問題が含まれます。

要するに、AIに「見えているものを言い当ててみて」ではなく、**“この場面を本当に理解している？”** と突っ込んでいるわけです。ここが重要です。

結果はどうだったのか

Appleの評価では、Google Gemini 3.1 Proが総合トップ、OpenAI GPT-5.4-Highが2位、Gemini 3.1 Flash Liteが3位でした。

ただし、Apple自身も「まだまだ難しい」と認めています。
特に、global conditional counting という、条件付きで数を数えるような問題が大きなボトルネックになっているとのことです。

これは言い換えると、AIはまだ

空間記憶
物の機能に関する知識
目で見た情報と外部知識の結びつけ

が苦手、ということです。

個人的には、ここはかなり納得感があります。
人間なら一瞬でわかる「この棚の中で同じメーカーのボトルを数える」といった作業も、AIには意外と難しい。AIが“雰囲気”で答えてしまう限界が、こういうテストだと露骨に出るんですよね。

なお、Appleはインターネットにアクセスできるモデルのほうが成績がよかったとも述べています。
つまり、閉じた知識だけで考えるより、外部情報を引けるほうが現実的な理解につながる、ということです。これも実用面ではかなり大事な示唆だと思います。

研究2：手話動画への注釈をAIで手伝う

2本目の研究は、**“Bootstrapping Sign Language Annotations with Sign Language Models”** です。
こちらは、手話動画に注釈をつける作業をAIで効率化できないかを調べています。

注釈って何？

ここでいう注釈は、手話動画に対して

どのタイミングで
どの手話が
どんな意味を持つか

を人手で記録していく作業です。

これ、地味ですがめちゃくちゃ大変です。
しかも手話は、単語をそのまま置き換えるだけではなく、動きや手の形、文脈が絡むので、ラベル付けが簡単ではありません。大量の動画を人間が見るのは、時間もコストもかかります。

Appleのアプローチ

Appleは、pseudo-annotation pipeline という仕組みを提案しています。
ざっくり言うと、手話動画と英語文を入力すると、ありそうな注釈候補をランキングで出してくれる仕組みです。

対象は

glosses（手話を単語単位で表した表記）
fingerspelled words（指文字）
sign classifiers（手話の分類子）

などです。

Appleはこれにより、数百時間分の手話データを手作業で注釈する負担を減らそうとしています。

結果は？

研究では、比較的少ないGPUリソースでも学習できる方法を示し、

FSBoardで 6.7% CER
ASL Citizen datasetsで 74% top-1 accuracy

という結果を報告しています。

さらに、300時間超のASL STEM Wiki と 7.5時間のFLEURS-ASL に対して、手作業注釈や擬似注釈を検証したそうです。

また、Claude Sonnet 4.5を使ったテストでは、glossから英語への変換を行わせて、参照文と比べる実験もしています。
エラーは特に、指文字がない文で起きやすかったとのことです。

これがAppleにとって何につながるのか

この記事では、これがカメラ搭載のAirPods や、Live Translationの手話対応につながる可能性があるのでは、と見ています。
これ、十分ありえそうです。Appleは翻訳機能をどんどん広げたいはずですし、手話対応は技術的にも社会的にもインパクトが大きい。

もし本当に実現したら、かなり意義のある機能になると思います。
単なるガジェットの新機能というより、コミュニケーションの壁を少し下げる方向のAIだからです。

研究3：3D head reconstructionはVision ProのPersona改善に関係あるかも

3本目は、**“Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures”** です。
名前は長いですが、やっていることはわりと直感的です。

複数のカメラで撮った顔画像から、高品質な3D headモデルを作る研究です。

ざっくり何をしているのか

Appleは HeadsUp という方法を開発し、
多視点の撮影データから 3D Gaussian heads を再構成します。

「Gaussian blobs」と言われると難しく聞こえますが、要は3D形状を点やぼかしの集まりとして表現し、それをもとに立体モデルを作るようなイメージです。
細かい数学はさておき、重要なのは顔の立体感や表情の再現性を高める狙いです。

データ規模がかなり大きい

Appleは、10,000人超の被験者を含む内部データセットを使ったとしています。
これは既存の多視点人間頭部データセットより桁違いに大きいとのこと。

この規模感はかなりAppleらしいです。
アルゴリズムだけでなく、大規模データを持っている企業が強いというのを改めて感じます。

何に使えそうか

この記事では、これはVision ProのPersona機能と関連している可能性があると指摘しています。
Personaは、ユーザーの顔を3D的に表現する機能ですが、もっと自然な表情再現や顔のキャプチャ精度向上に、この研究が役立つかもしれません。

さらに、装着感やハードウェア設計の面でも、3D headタイプの研究は意味があるかもしれないとのことです。

これも納得です。
ヘッドセットって、性能だけでなく「顔にどう当たるか」「どんな顔形状に合うか」が地味に重要ですからね。3D head研究は、見た目よりずっと実用品質に直結する領域だと思います。

この記事全体から見えるAppleの本気度

今回の記事の面白さは、AppleがAIを単体のチャット機能としてではなく、空間コンピューティング、翻訳、アクセシビリティ、顔の再現まで含めた基盤技術として扱っている点です。

つまりAppleは、

Vision Proを捨てていない
空間理解を高めたい
現実世界に強いAIを作りたい
そのAIを製品に静かに埋め込みたい

という方向に進んでいるように見えます。

もちろん、これがすぐ製品になるとは限りません。
研究は研究なので、実際のiOSやvisionOSに載るまでには時間がかかるはずです。
でも、方向性としてはかなりわかりやすい。Appleはたぶん、「AIで何をするか」より「AIでユーザー体験をどう自然にするか」を重視しているんだと思います。

そして、その延長線上にあるのが、空間を理解するSiriや、手話対応の翻訳、Vision Proの高精度なPersonaなのではないでしょうか。

まとめ

Appleの今回の研究群は、派手な発表ではないものの、かなり重要です。
なぜなら、AppleがAIを現実空間と結びつける方向に本気で取り組んでいることが見えるからです。

特に印象的だったのは、

空間理解だけでなく「用途理解」まで測ろうとするSFI-Bench
手話注釈をAIで効率化する研究
Vision ProのPersona改善につながりそうな3D head reconstruction

の3点です。

個人的には、AppleのAI戦略は「ChatGPTの対抗馬を作る」よりも、Apple製品全体をじわじわ賢くする方向にあるように見えます。
そのほうがAppleらしいし、たぶん長期的には強い。派手さはなくても、生活に溶け込むAIは最終的にかなり強いはずです。

参考: Apple research examines LLMs spatial understanding, annotation

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work