世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-07-04

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み
文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できる
ただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ない
だからこそ、安くなる場面と危ない場面を見極める設計になっている
発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い

まず何をしているのか

pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。

普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。

でも pxpipe はそこに逆張りをします。大量のテキストをPNG画像にして渡すと、モデル側の画像トークンとして扱われる。しかも記事の説明では、画像のトークンコストは「中身の文字量」ではなく「画像サイズ」で決まるとのこと。ここがキモです。びっしり文字が詰まった内容なら、テキストのまま送るより画像にしたほうが安い。かなり乱暴に言えば、「文字を読むAIに、文字じゃなくて写真を見せる」わけです。普通はやらない。でも、やる理由はちゃんとある。

どんなときに効くのか

この手法が効きやすいのは、コード、JSON、ツール出力、ログのような“密度の高いテキスト”です。文字がぎっしり詰まっていて、改行や余白が少ないものですね。こういうデータは、人間には読みにくいけれど、AIにとってもトークン効率が悪いことがある。pxpipeはそこを狙って、詰め込み方のうまい画像として再パッケージする。

READMEでは、約48k文字の system prompt と tool docs が、テキストなら約25k tokens、画像なら約2.7k image tokens になった例が出ています。かなり差があります。実際、Fable 5 では 59〜70% 程度の end-to-end bill 削減が見込める、と書かれていました。もちろん「常にこの数字」という話ではなく、ワークロード次第です。それでも、これだけ大きな差が出るなら、刺さる現場ではかなり刺さるはずです。

個人的には、この発想はかなり好きです。AIの周辺って、どうしても「モデルをもっと賢くする」方向に話が寄りがちですが、pxpipeは“入力の見せ方を変える”ことで勝とうとしている。発想が地味に見えて、実はかなりエンジニアリングっぽい。好き嫌いは分かれそうですが、私はこういう実務臭のある工夫にグッときます。

もちろん、きれいごとではない

面白いのは、作者がこの仕組みの弱点もかなり正直に書いているところです。pxpipeは便利ですが、lossy、つまり情報を少し落とす前提です。ここは重要です。

たとえば、12文字の16進数みたいな、1文字違うと全然別物になる値は危険です。READMEでは、denseな画像化コンテンツの中の 12-char hex 文字列の再現で、Fable 5 では 13/15、Opus 4.8 では 0/15 という結果が出ていました。しかも、読み違えてもエラーにはならず、モデルがそれっぽく補完してしまう「silent confabulation」が起こる。これはかなり怖いです。

要するに、こういうものは画像化してはいけない。ID、ハッシュ、秘密鍵、正確な文字列が命のデータは、テキストのまま扱うべきです。pxpipe側もその点をはっきり認めていて、最近の会話内容や byte-exact が必要な部分はテキストに残す設計になっています。

この潔さは好感が持てます。何でも画像化すればいい、という雑な夢物語ではない。むしろ「どこまでなら画像化してよくて、どこから危険か」をかなりシビアに見ている。こういう誠実さがないツールは、だいたい現場で痛い目を見るので。

どういう仕組みで動くのか

動きはシンプルです。pxpipeは /v1/messages へのリクエストを横取りして、条件に合う長いテキストを画像に変換し、それを含んだ形でAnthropic系のAPIに渡します。画像化されたコンテンツは、幅1928pxの列としてレンダリングされ、1枚におよそ92,000文字を詰め込めると説明されています。

ここでおもしろいのは、全部を機械的に画像化するわけではないことです。pxpipeは、どのリクエストなら得をするかを推定して、損しそうなものはテキストのまま通す。つまり「画像化すれば常に節約」ではなく、「節約できる場面だけ賢く使う」設計です。かなり実務的です。

しかも、レスポンス自体はそのままストリームされます。圧縮しているのは入力側だけで、出力をいじるわけではない。この割り切りもいい。変なことをしない。やることが絞られている。

実験結果はどう見ればいいか

READMEにはベンチマークがいくつか載っています。新規のランダム数値問題では、Fable 5 で text と image の両方が 100% だったり、Opus 4.8 でも 93% を維持したりしています。gist recall、state tracking、confabulation などのテストでも、かなりちゃんと機能している様子です。

ただし、ここで注意したいのは、すべてのモデル・すべてのタスクで同じ結果ではないことです。たとえば Opus 系では、画像化した細かい文字列の読み取りが弱い。だから Opus は opt-in、つまりデフォルトでは使わない扱いになっています。ここはかなり現実的で、無理に“一枚岩の成功”にしていないのがいい。

SWE-bench の結果も出ていますが、これは小規模なパイロットです。10/10 や 14/19 といった数字は魅力的ではあるものの、サンプル数はまだ小さい。だから「すごい!」で終わるより、「実案件で再現したら本当に効くのか」を見たほうがいい。私はこの手のツールを見ると、ベンチマークの見栄えよりも、現場での安定性が気になります。