世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-07-04

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。

今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。

まず、この論文で何をやったのか

この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。

特に大きいのは、ANEの

データの流れ
スループットと消費電力を決める上限
Core MLより下の層にある実際の呼び出し経路
コンパイラとオンディスクのプログラム形式
重み圧縮の方式
kernel driver、firmware、コマンドプロトコル

まで追っている点です。
つまり「速いらしい」「省電力らしい」で終わらず、どう動いているかを層ごとに見ている。ここがこの論文の肝だと思います。

ざっくり言うと、何が新しいのか

ANEはCore MLからしか使えないと思われがちだが、実際にはユーザー空間から直接たどれる経路がある
ただし、その経路は未公開・非推奨・バージョンに弱いので、製品ソフトには向かない
A11〜A18、M1〜M5までの世代差をまたいで、どの演算がどの機種で動くかを整理している
M1とM5では直接計測していて、性能の実測値にも踏み込んでいる
どこまでが計測事実で、どこからが逆コンパイル由来か、さらに予測なのかを明確にラベル付けしている

最後の点はかなり好感が持てます。リバースエンジニアリング系の話は、読んでいて面白い反面、根拠の境目がぼやけやすい。でもこの論文はそこをかなり丁寧に分けているようです。研究として筋がいい。

Appleの「特別なAIチップ」は、実はかなり地味な職人仕事っぽい

ANEという名前だと、何か未来感のある魔法のエンジンを想像しがちです。でも説明を見る限り、やっていることはかなり筋肉質です。固定機能のmatrix accelerator、つまり「行列演算を高速に処理する専用回路」です。

AIの推論って、要するに大量の掛け算と足し算の塊です。これをCPUで全部やるのは遅いし、GPUでやると強いけれど電力を食いやすい。そこでAppleは、よく使う形の計算に特化した専用ハードを積んだわけです。スマホやノートPCでは、この“特化”がものすごく効く。

個人的には、ここがAppleらしさの真ん中だと思います。派手な汎用GPUではなく、「よく出る計算だけ、妙にうまくやる」方向に寄せている。地味だけど強い。しかも省電力を重視するApple製品と相性がいい。

いちばん気になるのは「Core MLの下に何があるのか」

多くの人は、AppleのAI機能はCore ML経由で使うものだと思っています。間違いではないです。実際、アプリ開発者が公式に使う道はそこです。

でもこの論文が面白いのは、その下にある経路まで見に行っていることです。Core MLは表玄関だとすれば、研究者たちは裏口の構造を調べた感じです。もちろん、裏口という言い方は少し乱暴ですが、雰囲気としては近い。

ただし重要なのは、この直接経路は「普通のユーザー空間から呼べる」としつつも、文書化されておらず、サポートもなく、OSのバージョン変更で壊れやすいと明記されていることです。つまり、実験や計測、オンデバイス研究向け。製品に入れるものではない。

この線引きはかなり大事です。技術的に面白いことと、実際に使ってよいことは別ですから。

何を測り、何を推定したのか

論文は、主張の種類をちゃんと区別しています。

measured: 実際に測った
decompile-derived: 逆コンパイルから得た
predicted: そこからの予測

この姿勢は研究として誠実です。AIチップの内部なんて、全部が見えるわけじゃありません。だからこそ、「見えたこと」と「筋道を立てた推測」を分けておくのが重要なんです。

M1とM5では直接測定しているので、世代の違いでどれくらい挙動が変わるかを追えるはずです。しかもA11からA18まで、M1からM5まで対象を広げている。Apple siliconの進化を、かなり実地に近い形でたどっているわけです。

こういう論文が出ると何がうれしいのか

正直、一般の人がこの論文を読んで何かをすぐ作れるわけではないと思います。でも価値はかなりあります。

まず、AppleのAI性能についての理解が、宣伝文句ではなく実際の構造に近づきます。
次に、どこがボトルネックなのか、なぜあるモデルは速くて別のモデルは遅いのか、そういう話を具体的に考えられるようになる。
そして長い目で見ると、Apple siliconの設計思想を読み解く手がかりになります。

個人的には、こういう研究は“地味な割に効く”タイプの仕事だと思います。目立つデモではないけれど、後から効いてくる。ハードウェアの世界では特にそうです。内部構造の理解は、結局いちばん強い。

ただし、ロマンだけで終わらない注意点もある

この論文が示す直接経路は、未公開で、サポートされておらず、将来のOSで壊れる可能性が高い。ここはかなり重要です。

つまり、「すごい発見だ！」で終わるのは簡単ですが、現場で使うには別問題です。Appleが公式に守るのはCore MLであって、研究者が見つけた裏側の経路ではありません。だから、製品ソフトや長期運用の仕組みに入れるのは危険です。

この割り切りは、技術の世界では案外見落とされがちです。動くことと、運用できることは違う。そこをちゃんと分けている点も、この論文の良さだと思います。

読みどころは「性能」より「境界線」かもしれない

タイトルにはArchitecture、Programming、Performanceとありますが、実は一番おもしろいのは、ANEの“できること”と“できないこと”の境界が見えてくるところかもしれません。

どの演算がどのデバイスで使えるのか。
どの層までが公開APIで、どこからが秘密の実装なのか。
どこで性能が頭打ちになるのか。
そして、Appleがどこを安定運用の対象として、どこを内部実装のまま残しているのか。

この境界線は、Appleの製品設計そのものを映しているように見えます。派手に開放するのではなく、利用者に見せる面をかなり絞る。その代わり、内部ではかなり詰めた最適化をしている。ANEはその象徴みたいな存在です。

参考: Apple Neural Engine: Architecture, Programming, and Performance

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work

Ornith-1.0が狙うもの：コードを書くLLMから、作業手順まで育てるLLMへ

DeepReinforceが公開した Ornith-1.0 は、ひとことで言うと「agentic coding」に特化したオープンソースのLLMファミリーです。ここでいう *agentic coding* は、ただコードを1発で出すだけではなく、ターミナルを触ったり、テストを回したり、途中で試行錯誤しながら仕事を進めるタイプのコード生成を指します。実務の開発にかなり近い世界です。面白いのは、このモデルが単に「賢いコード生成器」という話ではないところです。Ornith-1.0は、解法そのものだけでなく、解法を引き出すための“足場”まで自分で作るという発想を取っています。これはかなり野心的ですし、個人的にはかなり好きな方向性です。モデルに「どう考えるか」まで学ばせるわけで、いかにも次の世代っぽい。 Ornith-1.0は、agentic coding向けのオープンソースモデル群サイズは 9B Dense から 397B MoE まで幅広い中核アイデアは、人間が固定の実行枠組みを作るのではなく、モデル自身が枠組みを改善していくこと **

papoo.work