世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-07-04

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。

これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。

ざっくり言うと何が欲しいのか

このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。

しかも単なる一時的な指定ではなく、次の2段階を想定しています。

リポジトリごとの設定
ユーザー全体のグローバル設定

たとえば、プロジェクト内に .codexignore のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも .env や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。

ここで面白いのは、**“プロジェクトごとの慣習”ではなく、機械的に守れるルールにしたい**ところです。READMEに「秘密情報はコミットしないでください」と書くのはもちろん大事です。でもAI相手だと、それだけでは心もとない。実際に読ませない仕組みのほうが、ずっと筋がいいと思います。

何を避けたいのか

投稿者は例として、node_modules/ は検索対象に残したいけれど、.env、.env.*、.pem、id_、.aws/、.ssh/ のようなものは絶対に読ませたくないと書いています。

このバランス感覚はかなりリアルです。
node_modules/ は普段は巨大で邪魔に見えるけれど、実装の確認で参照したいことはあります。だから「雑に全部除外」ではなく、必要なものは残しつつ、危険なものだけ止めるという発想なんですね。

逆に言えば、AIツールにありがちな「便利そうだから全部見せる」は、セキュリティの観点ではかなり雑です。個人的には、ここを最初にちゃんと設計できるかどうかで、そのツールの信頼度がかなり変わると思います。

なぜ今これが問題になるのか

このIssueには背景として、関連する別のIssueへの言及があります。以前から似た問題、つまり

機密データをモデルへ送ってしまうのを防ぎたい
大きすぎる、あるいは関係ないファイルを除外したい

という2つの用途があったそうです。

一度はその議論が閉じられ、Rust実装の codex-rs 側に寄せる形になったようですが、少なくとも2025年8月28日時点では、同等の機能はまだ見当たらないというのが投稿者の認識です。なので「もう一度議論を立ち上げて、設計を詰め直したい」というのが今回の主旨です。

ここ、かなり健全だと思います。AIツールって、機能が増えるほど「とりあえず動くけど、境界が曖昧」という状態になりがちです。けれど、本当に使われるツールは、便利さだけでなく安全に使える設計が必要なんですよね。

この要望の本質は「安心して使える標準ルール」

このIssueが言っているのは、単に「除外設定がほしい」だけではありません。もっと深く見ると、チームで共有できる、決定的で、再現性のあるルールがほしいという話です。

ここでの「決定的」というのは、毎回結果がぶれないという意味です。
「誰かが説明書を読んで気をつける」のではなく、設定があれば機械が黙って守る。これは大きいです。

特にチーム開発では、個人の注意力に頼るルールはすぐ崩れます。新しく入った人が知らなかったり、急いでいる人がうっかりしたりする。だからこそ、ドキュメントではなく設定ファイルで縛るのは理にかなっています。

しかもユーザー全体のデフォルト設定まで考えているのがいい。
プロジェクト単位だけだと、「このレポジトリには設定がないから大丈夫かな」と毎回確認が必要になります。グローバル設定があれば、最初から守るべきものを広くカバーできます。地味ですが、こういう積み重ねが実運用では効きます。

ちょっと気になる点もある

一方で、こういう機能は作り方を間違えるとややこしいです。
たとえば「除外したつもりなのに、別の経路から読まれてしまう」みたいな抜け道があると意味がありません。あるいは、設定の優先順位がわかりにくいと、今度は使う側が混乱します。

なので重要なのは、単に .gitignore 風の仕組みを作ることではなく、どの範囲で何が禁止されるのかを明確にすることだと思います。
ローカル設定とグローバル設定が両方あるなら、衝突時にどちらが勝つのかもはっきりしていないといけません。

こういう話は地味ですが、セキュリティ系の機能ではむしろ本体です。派手な新機能より、ここを丁寧に作っているプロダクトのほうが長く信用されるはずです。

投稿者の姿勢もわりと好感が持てる

このIssueの投稿者は、ただ要望を投げているだけではなく、自分で実装とテストに協力できると書いています。こういう「欲しい、そして手も動かせる」という姿勢は、オープンソースではかなり強いです。

しかも、関連Issueを踏まえたうえで「議論を再開して設計を収束させたい」と言っている。単なる思いつきではなく、過去の経緯を見たうえで話を前に進めようとしているのがわかります。こういう丁寧な提起は、コミュニティでも歓迎されやすいはずです。

ひとことで言うと

AIエージェントにコードを読ませるなら、見せていい範囲を人間が明確にコントロールできることが欠かせません。
このIssueは、その当たり前だけど後回しにされがちな部分を、ちゃんと機能として入れようという提案です。

派手な機能ではないですが、私はかなり本質的だと思います。
「何を読ませるか」より先に、「何を読ませないか」を決められること。これがあると、AIツールはだいぶ安心して使えるようになります。

参考: A way to exclude sensitive files · Issue #2847 · openai/codex

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work

Ornith-1.0が狙うもの：コードを書くLLMから、作業手順まで育てるLLMへ

DeepReinforceが公開した Ornith-1.0 は、ひとことで言うと「agentic coding」に特化したオープンソースのLLMファミリーです。ここでいう *agentic coding* は、ただコードを1発で出すだけではなく、ターミナルを触ったり、テストを回したり、途中で試行錯誤しながら仕事を進めるタイプのコード生成を指します。実務の開発にかなり近い世界です。面白いのは、このモデルが単に「賢いコード生成器」という話ではないところです。Ornith-1.0は、解法そのものだけでなく、解法を引き出すための“足場”まで自分で作るという発想を取っています。これはかなり野心的ですし、個人的にはかなり好きな方向性です。モデルに「どう考えるか」まで学ばせるわけで、いかにも次の世代っぽい。 Ornith-1.0は、agentic coding向けのオープンソースモデル群サイズは 9B Dense から 397B MoE まで幅広い中核アイデアは、人間が固定の実行枠組みを作るのではなく、モデル自身が枠組みを改善していくこと **

papoo.work