世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-28

AIが出した“それっぽい成果”を、リポジトリの真実に戻す話

キーポイント

AI支援の開発では、「コードが動くか」だけでなく「リポジトリ全体が信頼できるか」が重要になる
著者は、AIの出力とリポジトリの実態のあいだに生まれるズレを問題視している
そのズレは、未完了なのに完了したように見える、古い情報が残る、仮置きのコードが本物みたいに残る、などで起きる
著者が作っている Scarab Diagnostic Suite は、AIそのものではなく、AIを使う開発環境を監督・診断するCLIツール
これからは「AIが仕事をできるか」だけでなく、「リポジトリが何を本当に証明できるか」が大事になる、というのが記事の主張

本文

AIを使った開発って、見た目はかなり順調に見えることがあります。
コードはそれっぽくできるし、テストもある。場合によっては、AIエージェントがかなり役に立っているように見える。

でも著者は、そこに落とし穴があると言います。
「AIの出力は良さそうなのに、リポジトリの信頼性は下がっていく」 という失敗モードがある、という話です。

これ、かなり面白い視点だと思いました。
普通は「AIのコードがダメだった」「プロンプトが悪かった」で話が終わりがちです。けれど著者は、もっと根っこの問題を見ています。
つまり、問題は単にコードの良し悪しではなく、プロジェクト全体の“真実”が崩れていくこと なんですね。

「Repo truth」って何なのか

記事の中心にあるのが repo truth という考え方です。
これは直訳っぽく言うと「リポジトリの真実」。

ここでいうリポジトリは、単なるソースコード置き場ではありません。
著者は、リポジトリをこう捉えています。

コード
構成
前提条件
テスト
ドキュメント
実行時の期待値
昔の仮置きコード
中途半端な実装
片付け忘れの技術的負債
「もう終わった」と書かれているが、実は終わっていないもの

要するに、プロジェクトの現状を全部含んだ“生きた記録” です。
だからこそ、AIが何かを生成したときに、その成果がこの記録と食い違うとまずい。

たとえば、AIが「完成しました」と言っても、実際にはテストが足りないかもしれない。
あるいは、古い設定ファイルが残っていて、今の実装と矛盾しているかもしれない。
そうなると、見た目は進んでいても、リポジトリはどんどん信用しにくくなります。

これは実務ではかなり怖いです。
なぜなら、あとから入ってきた人ほど、リポジトリを頼りに判断するからです。
「このコードは本当に安全？」「これはもう消していい？」「このテストは何を保証してる？」
そういう問いに答えられなくなると、開発速度はむしろ落ちるんですよね。ここが本当に重要だと思います。

AIだけを賢くしても足りない

記事では、AI coding の議論がしばしばAIエージェント側に寄りすぎている、と指摘しています。
たとえば、

どうやってコンテキストを増やすか
どうやって指示をうまく書くか
どうやってプロジェクトのルールを覚えさせるか
どうやって複数のAIを連携させるか
どうやって長い計画を立てさせるか

こういう話題は確かに大事です。
でも著者は、それだけでは足りないと言うんです。

AIが十分に賢くても、リポジトリ側に監督の仕組みがなければ、真実は崩れる。
ここがかなり鋭い。
私も、AI支援開発の本当の難しさは「生成」より「維持」にあるのではないかと思います。作るのは速い。でも、その後の整合性を保つのが難しい。

Scarab Diagnostic Suite とは何か

著者が作っているのは Scarab Diagnostic Suite という製品です。
記事の段階ではまだフルローンチの紹介ではなく、基本アイデアを説明しています。

重要なのは、これが コード生成ツールではない ことです。
プロンプト集でもありません。
AIエージェントそのものになるつもりもない。

代わりに、これは CLI installed diagnostic and supervision suite、つまり
コマンドラインから使う診断・監督ツール です。

やることは、AIが作業したリポジトリに対して、次のような役割を持つことです。

チェックする
記録する
警告する
ブロックする
次のステップを案内する

この設計思想はかなり筋がいいと感じました。
AIを“主役”にするのではなく、AIの周囲に安定した土台を置く 発想だからです。
AIは便利だけど、たまに自信満々にズレる。そこを前提にして、リポジトリ側で現実確認をする。かなり現実的です。

何を区別したいのか

著者は、リポジトリが局所的に次のようなものを見分けられる必要があると言います。

実装されたものと主張されているだけのもの
検証済みのものと仮定されているだけのもの
仮組みのものと本物の実装
現在有効なものと古くなったもの
ちゃんと整理されたものとただ並んでいるだけのもの
安全に片付けられるものと危険な片付け
「終わったように見えるもの」と本当に終わったもの

この区別、地味ですが超大事です。
AIは見た目を整えるのが得意なので、**“整って見えるけど実は曖昧”** という状態を作りやすいんですよね。
人間の感覚だと「まあ大丈夫そう」で流してしまう。でも、あとで効いてくるのはたいていそこです。

著者の主張の核心

この記事の結論はシンプルです。

AI coding agent が作業者になる未来では、リポジトリ側にも「真実を保つ仕組み」が必要になる

著者は、これからのAI開発は単にモデルを大きくしたり、より自律的なエージェントを作ったりする方向だけではない、と見ています。
そうした流れはもちろん進むけれど、自律性が増えるほど、周囲の監督レイヤーが重要になる というわけです。

これはかなり納得感があります。
人間の組織でも、優秀な人が増えるほど、記録・監査・レビュー・権限管理が大事になりますよね。
AI開発も同じで、「すごいものを作れる」ことと「それが正しい状態で残る」ことは別問題 なんです。

個人的な感想

個人的には、この文章は「AIで何が作れるか」よりも「AIを使うとき、何を信じるべきか」を問い直している点が面白いと思いました。
最近のAI関連の話は、どうしても“能力”の話に寄りがちです。速い、賢い、長く考えられる、複数で協調できる——たしかに派手です。

でも実務で本当に効くのは、派手さよりも 信頼性 です。
どこまで本当か、どこが未検証か、どこに古い前提が残っているか。
そういう地味な部分を守る仕組みがないと、AIが強くなるほど、逆にチームは不安になるのではないでしょうか。

著者の問題設定は、その不安にかなり正面から向き合っているように見えます。
私はこういう「AIの便利さの裏側にある整合性の問題」を掘る視点、かなり好きです。地味だけど本質的だからです。

まとめると

この記事は、AI支援開発の次の論点を提示しています。
それは、AIの出力を評価するだけでは不十分で、リポジトリ全体の“真実”を守る層が必要だ という考え方です。

Scarab Diagnostic Suite は、そのための診断・監督ツールとして構想されています。
AIを置き換えるのではなく、AIが動く環境のほうを整える。
この発想は、かなり今っぽくて、しかも実務的だと思います。

参考: I’m Building Around the Gap Between AI Output and Repo Truth

同じ著者の記事

Excelのフォントが変わる原因を、.xlsxを解凍して確かめてみた

「テーマフォントが原因」というところまでは、探せば辿り着ける。だが実際にファイルの中で何が参照し合っているのかを見た人は少ない。.xlsxはただのZIPなので、覗くのに5分もかからない。手元の適当なブックで試すなら、拡張子を`.zip`に変えるか`unzip`コマンドを叩くだけでいい。 ``` $ unzip -l sample.xlsx Length Date Time Name --------- ---------- ----- ---- 1234 2026-07-01 09:00 xl/theme/theme1.xml 5678 2026-07-01 09:00 xl/styles.xml ... 2345 2026-07-01 09:00 xl/worksheets/sheet1.xml ``` 犯人は`xl/theme/theme1.xml`にいる。中を`cat`すると、こんな塊が出てくる。 ```xml <a:fontScheme name="Office"> <a:majorFont> <a:latin typeface="

papoo.work

Claude の Effort、実は3段階じゃない——xhigh/maxまで含めた5段階の使い分けとAPI仕様を深掘りする

以前の記事「[Claude の effort ってどう効くの？](https://note.com/modern_ferret431/n/nc8e88b771ab0)」では、Effortパラメータを Low / Medium / High の3段階として紹介した。実際のClaude APIはもう一段深い。現行モデル（Opus 4.8/4.7、Sonnet 5、Fable 5）では low / medium / high / xhigh / max の5段階が存在し、しかも「thinkingの予算」だった旧`budget_tokens`とは効かせ方そのものが違う。本稿ではAPI仕様に基づいて、モデル別の対応状況・挙動の違い・実運用での設計指針を整理する。旧世代（Sonnet 4.5以前）の extended thinking は `thinking: {type: "enabled", budget_tokens: N}` という固定トークン予算の指定だった。「thinkingにいくら使うか」だけを制御する、いわば一次元のノブだ。 Opus 4.6以降ではこれが非推奨化

papoo.work

Claudeの「超過課金」は自動発生しない——note記事の補足と2026年6月の仕様変更

先日、[「Claudeは weekly limit や 5hours limit を突き破ったときのペナルティ料金が半端ない」](https://note.com/modern_ferret431/n/n821d3055d109) という記事が話題になった。Claude CodeやOpusでコードベース解析を回していると、10分足らずで従量課金が発生し得るという警告は実体験として貴重だが、エンジニアが実際に運用判断をする上で誤解しやすいポイントがいくつかある。本記事はその補足として、Anthropic公式ドキュメントに基づき仕組みを整理する。最大の誤解ポイントはここ。Claude Pro/Maxで週次・5時間の利用上限に達しても、Usage credits（超過課金）を明示的に有効化していない限り、追加料金は一切発生しない。上限に達した場合の既定動作は「リセットまで待つ」だけで、勝手にAPI従量課金へ切り替わることはない。有効化するには以下の手順が必要: `Settings > Usage` から Usage credits セクションで Enable をクリック

papoo.work

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work