世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-25

IntuitのAI基盤づくりから学ぶ、GenAIスタックの作り方

キーポイント

Intuitは、GenOS（Generative AI Operating System）という共通基盤で、AI機能を全社規模に広げている
その土台には、8,000人の開発者、3,500件超の本番実験を支える仕組みがある
AIエージェント開発では、ワークフロー型から始めて、徐々に自律性を高める考え方が重要
エージェントには失敗モードがあるので、評価（eval）をきちんと設計しないと危ない
評価の方法として、LLM-as-a-judge（LLMに判定役をやらせる）も活用している
未来を見据えるなら、APIは「人間向け」だけでなくtool-ready（AIエージェントが使いやすい）であるべき

まず何の話か、ざっくり言うと

InfoQのこの講演は、IntuitでAI基盤を率いるMerrin Kurian氏が、同社のAI変革をどう支えているのかを語る内容です。
題名は「Powering the Future: Building Your GenAI Infrastructure Stack」。直訳すると「未来を動かす、GenAIインフラスタックの作り方」くらいでしょうか。

ここでいうGenAIは、生成AIのこと。さらにその先にあるのがAI agent、つまり「単に答えるだけでなく、状況を理解してツールを使い、作業を進めるAI」です。
最近よく聞く話ですが、実際に本番運用まで持っていくのはかなり大変です。そこを、Intuitがどう片付けているのかがこの講演の見どころです。

個人的には、こういう話は「AIを使っています」では終わらず、どうやって組織と基盤を整えたのかまで踏み込んでいるのが面白いと思います。AI活用の本丸はモデルそのものより、むしろその周辺の設計にあるからです。

Intuitは何を目指しているのか

Intuitのミッションは、世界中の人々の「prosperity」を後押しすること。
要するに、個人や小規模事業者がもっと稼げて、もっと時間を節約できて、安心してお金の判断ができるようにする会社です。

講演では、Intuitの規模感を示す数字も紹介されています。

1日あたり600億回の機械学習予測
中小企業向けに約62.5万属性
個人向けに約7万属性を活用できる
約2兆ドル規模の請求書処理
1,800万人の米国労働者への給与支払い
約1,000億ドルの税還付処理

数字が大きすぎてピンと来ないですが、要するに「AIを少し試す」会社ではなく、巨大な金融・業務基盤の上でAIを動かしているということです。
ここがかなり重要です。AIは派手ですが、実際に価値を出すのは、こうした既存の業務システムとつながったときです。

IntuitのAIは、ちゃんと“仕事”をしている

講演では、IntuitのAI/エージェントが実際にどう役立っているかも紹介されています。

たとえば：

QuickBooks系のAI agentで80%の再利用・再訪がある
会計用エージェントが、顧客の月あたり12時間の作業を削減
税関連のプロダクトで、年間170万時間の入力作業を削減
支払い関連のエージェントが、請求書の支払いを平均5日早める
自己解決（self-help）の問い合わせ対応が、年間1億1,000万件に到達

これはかなりインパクトがあります。AIの価値って、つい「便利そう」「賢そう」で語られがちですが、実際には時間をどれだけ削れるかが強いです。
「1日5分短縮」みたいな話でも、利用者が何百万人もいればとんでもない価値になりますからね。

エージェントの例がわかりやすい

講演では、QuickBooks Enterprise向けのエージェント例も出ています。

1. 支払いエージェント

顧客とのメールを読み、会話を理解し、添付ファイルまで見て請求書を作る。
ビジネスオーナーは最後に確認して送るだけ。

これはかなり“仕事っぽい”です。
単なるチャットボットではなく、メール → 理解 → 書類作成 → 人が確認という流れになっている。
ここにAIエージェントの本質があると思います。人間の仕事を全部奪うのではなく、面倒な下ごしらえを引き受けるわけです。

2. 財務エージェント

自分のデータをもとに、同業他社と比較し、利益率が低い理由を分析する。
たとえば材料費や人件費が原因だと示し、さらに「次に何をすべきか」まで提案する。

ここで面白いのは、AIが単なる分析表示で終わらず、次のアクション候補まで返すことです。
この一歩先が、いまのGenAIの価値だと思います。
「データを見せる」だけならBIツールでもできますが、「次に何をするべきか」を出せると、仕事の流れが変わります。

ただし、講演でも強調されている通り、AIには人間の知性を足す必要がある。
最終判断は、やはり専門家に相談できる形が大事です。
ここを雑にすると、便利なはずのAIが逆に事故の原因になります。

GenOSとは何か

この講演の中心は、GenOSという基盤です。
正式には Generative AI Operating System。名前は少し大げさですが、実態は「社内のAI機能を広げるための共通プラットフォーム」と考えるとわかりやすいです。

IntuitではこのGenOSを使って、8,000人の開発者にAI機能を広げ、3,500件以上の本番実験を回しているそうです。
ここで重要なのは、AIを“個別プロジェクト”として持つのではなく、共通基盤として配ることです。

これは正直、かなり賢いやり方だと思います。
AI機能を各チームがバラバラに作ると、評価方法もセキュリティも運用もバラバラになります。結果として、後から地獄を見る。
なので、共通の土台を作り、その上で各プロダクトが素早く試せるようにする。これがスケールの王道です。

「fixed, flexible, free」という考え方

元記事の説明でも触れられているのが、fixed, flexible, freeというフレームワークです。

ざっくり言うと、

fixed: 全体で共通に固定する部分
flexible: 各チームや用途に応じて調整できる部分
free: 自由に試せる部分

という考え方です。

これはAI基盤にすごく向いている発想だと思います。
なぜなら、AIはまだ変化が激しいからです。全部をガチガチに固定するとイノベーションが止まる。でも、全部自由にすると品質や安全性が崩れる。
その間をうまく設計するための整理軸が、fixed / flexible / free なのだと理解するとわかりやすいです。

エージェント開発で大事なのは、いきなり自律化しないこと

講演では、Agent Development: Pilot to Production という流れが語られています。
ここでのポイントは、エージェントをいきなり「全部おまかせ」にしないことです。

最初はworkflow、つまり「決められた手順に沿って動くコードの流れ」から始める。
そこから少しずつAIの判断を増やしていく。
この順番はかなり現実的です。

正直、最近のAI界隈は「agentだ」「自律だ」と言いすぎるところがありますが、実運用ではそんなに簡単じゃないです。
むしろ、まずは再現性のあるワークフローを作って、その一部にAIを差し込むほうが成功しやすい。これは地味ですが、実務では強いです。

エージェントには“失敗のしかた”がある

講演の中でも、エージェントのcritical failure modes、つまり重要な失敗パターンに触れています。
エージェントは賢そうに見えても、実際には失敗します。しかも、失敗の仕方がちょっと厄介です。

たとえば、

指示の解釈を間違える
ツールの使い方を誤る
関係ない情報を根拠にしてしまう
長い処理の途中でズレる
自信満々に間違う

みたいなことが起こり得ます。

このあたりは、生成AIを少し触った人なら「あるある」と感じるはずです。
だからこそ、エージェント開発は「作る」より「どう壊れるかを理解する」ほうが大事になってきます。

評価が命、そしてLLM-as-a-judge

講演で特に重要なのが、LLM-as-a-judgeという評価方法です。
これは、別のLLMに「この出力は良いか？」「期待通りか？」を判定させる考え方です。

もちろん、万能ではありません。
LLMがLLMを採点するので、完全な客観性があるわけではない。そこは注意が必要です。
でも、大規模に実験を回すには、かなり有効です。

なぜなら、人間だけで3,500件以上の実験を毎回ちゃんと見るのは無理だからです。
そこで、まずLLMで粗くふるいにかけ、重要なものを人間が見る。
この分業は、現実的でかなり筋がいいと思います。

AIの品質管理って、派手ではないけれど本当に大切です。
私見ですが、今後のAI開発は「どのモデルを使うか」より「どう評価するか」で差がつく場面がどんどん増えるのではないかと思います。

tool-ready API という発想が地味に重要

講演では、未来に向けてtool-ready APIを作るべきだという話も出ています。
tool-ready とは、ざっくり言うと「AIエージェントがツールとして使いやすいAPI」のことです。

人間の開発者向けAPIは、ある程度柔軟であればよいことが多いです。
でもエージェント向けになると話が変わります。
AIは曖昧なものをうまく扱える一方で、予測しやすい構造があるほうが強い。だから、

入力と出力が明確
エラーが分かりやすい
副作用が少ない
何をしたか追跡しやすい

といった設計が重要になります。

これはかなり本質的な話です。
将来、AIがいろんな業務ツールを呼び出すようになると、API設計がそのままAIの使いやすさになります。
つまり、APIは人間だけでなく機械にも親切であるべきなんですね。

この講演から見える、AI基盤づくりの現実

この発表を見て感じるのは、AI時代の基盤づくりは「モデルを入れること」ではなく、組織・評価・API・運用を一緒に設計することだという点です。

Intuitの話は、かなり大きな会社の事例ですが、学べることは中小規模のチームにもあります。

まずはワークフローから始める
共通基盤を作って再利用する
評価の仕組みを先に考える
人間の確認を残す
未来のためにAPIを整える

このあたりは、どの会社にも効くはずです。

個人的には、AI開発の本当の難しさは「賢いモデルを作ること」より「賢さを業務で安全に使える形にすること」にあると思います。
この講演は、その現実的な答えをかなり具体的に示してくれる内容でした。派手さより地に足がついていて、そこがむしろ信頼できるところです。

参考: Powering the Future: Building Your GenAI Infrastructure Stack

同じ著者の記事

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work