世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-20

自前LLMを“ちゃんと使える”ようにするPythonフレームワーク「forge」とは？

キーポイント

forge は、self-hosted（自前運用）LLM に対して tool-calling を安定して使わせるための Python framework
ただのラッパーではなく、retry / rescue parsing / step enforcement などの guardrails（安全な補助線） を持つ
WorkflowRunner、Guardrails middleware、Proxy server の3つの使い方がある
Ollama、llama-server、Llamafile、Anthropic に対応
著者は、小さめのローカルモデルでも multi-step agentic workflow をかなり実用に近づけたい、というかなり実戦的な思想で作っている
評価では、トップの self-hosted 構成が 86.5%、難しいケースでも 76% を達成しているとされる

まず、forgeは何を解決したいのか

最近のLLM開発では、「ただ文章を返す」よりも、ツールを呼び出しながら段階的に仕事を進める使い方が主流になってきました。たとえば、

天気を調べる
データベースを検索する
コードを実行する
途中結果を見て次の行動を決める

みたいな流れです。

このとき必要になるのが tool-calling、つまり「LLMが関数や外部ツールを呼ぶ仕組み」です。
ただ、ここが意外と面倒です。モデルは平気で:

JSON を壊す
呼ぶべきツールを呼ばない
途中のステップを飛ばす
長い会話で文脈を壊す

みたいなことをします。
forge は、まさにその “壊れやすさ”を補正するための層 だと考えるとわかりやすいです。

個人的には、ここがかなり重要だと思います。LLMアプリって「モデルが賢ければ終わり」ではなく、実際には周辺の制御がほぼ本体 なんですよね。forge はその現実に真正面から向き合っている印象です。

forgeの特徴をざっくり言うと

README には、forge は次のようなものだと書かれています。

A reliability layer for self-hosted LLM tool-calling.

つまり、自前運用LLMの tool-calling を安定させる reliability layer です。

特に目立つのは次の2つです。

1. Guardrails

guardrails は、日本語で言えば 「暴走防止の補助輪」 みたいなものです。
forge では、以下のような工夫が入っています。

rescue parsing
壊れた出力をできるだけ救済して解釈する
retry nudges
うまくいかなかったら、モデルに再試行を促す
step enforcement
必要な手順をちゃんと踏ませる

これ、地味に見えてかなり大事です。LLMは“それっぽい”返答をするのが上手いので、アプリ側が気を抜くと簡単に事故ります。forge はそこに、かなり実用的な防波堤を置こうとしているわけです。

2. Context management

LLMは一度に覚えておける量に限界があります。
そこで forge は、VRAM-aware budgets や tiered compaction といった仕組みで文脈を整理します。

ざっくり言うと:

GPUメモリやコンテキスト長を意識して
古い会話や不要な情報を
賢く圧縮・整理する

ということです。

これは地味ですが、長時間動くエージェントでは本当に大事です。
会話が長くなると、モデルはすぐに「今何の話だっけ？」状態になるので、文脈整理はエージェントの生命線 と言ってもいいと思います。

3つの使い方がある

forge は、用途に応じて3通りの使い方ができます。

1. WorkflowRunner

これは forge を 正面から使う 方式です。

tool を定義する
backend を選ぶ
structured agent loop を回す

forge がやってくれることはかなり多くて、README では次のように説明されています。

system prompt の管理
tool execution
context compaction
guardrails

つまり、エージェントの面倒ごとをまとめて引き受ける実行基盤 です。

さらに、SlotWorker という仕組みもあります。これは、共有GPUスロットへのアクセスをpriority queueで制御し、必要ならauto-preemptionするもの。
日本語で無理やり言うと、「重要な仕事を優先して、混雑していたら途中で差し替える」 仕組みです。

複数エージェントが1枚のGPUを取り合うような構成では、かなり便利そうです。

2. Guardrails middleware

これは、自分でオーケストレーションループを書いている人向けです。
つまり、ループ全体は自分で管理するけれど、forge の信頼性機能だけ借りたい という使い方ですね。

自分で制御したい
でも壊れた tool call の補正や検証は欲しい
という人に向いています

この設計はかなり好みです。
「全部入りの魔法フレームワーク」ではなく、必要な部分だけ差し込める のは、現場では強いんですよね。

3. Proxy server

これはいちばん手軽そうです。
forge を OpenAI-compatible proxy として使い、既存のクライアントとローカルモデルサーバーの間に挟みます。

たとえば:

opencode
Continue
aider

のようなクライアントが、forge 経由でローカルLLMにアクセスできます。

つまりクライアント側から見ると、賢いモデルに繋いだように見える わけです。
ここはかなり面白いです。既存ツールをそのまま使いながら、裏で reliability layer を足せるのは実用性が高いと思います。

対応バックエンド

forge が対応している backend は以下です。

Ollama
llama-server (llama.cpp)
Llamafile
Anthropic

README では、特に llama-server が推奨されていて、トップの評価構成もそこ上だとされています。
一方で、Ollama はセットアップが簡単で、Llamafile は単一バイナリで依存が少ない。
Anthropic は API を使うのでローカルGPUが不要です。

ここでおもしろいのは、forge が「ローカルだけ」に閉じていない点です。
自前運用を軸にしつつ、必要なら API モデルも使える。これはかなり現実的な設計だと思います。理想論だけじゃなく、実運用をちゃんと見ている感じがあります。

クイックスタートの例が示すもの

README の例は、天気を答える workflow です。

get_weather という関数を作る
Pydantic で引数スキーマを定義する
Workflow に tool として登録する
WorkflowRunner で実行する

ここで大事なのは、ツール定義がきちんと構造化されていることです。
ただ関数を渡すだけでなく、

名前
説明
パラメータ型

を明示します。

これによって LLM は「何をどう呼べばいいか」を理解しやすくなります。
特に Pydantic を使っているのは、Python らしくていいですね。型とスキーマが揃うので、実装者のストレスが減りそうです。

なぜ proxy server が面白いのか

README で特に印象的だったのが、proxy server の考え方です。

forge は、ツールがあるリクエストに対して synthetic respond tool を自動注入します。
これは要するに、モデルに「普通の文章で返して」と言う代わりに、respond(message="...") という tool call をさせる 仕組みです。

なぜそんな回りくどいことをするのかというと、小さめのローカルモデルは、テキスト出力と tool call のどちらを選ぶべきかを安定して判断できない からです。

これはかなり納得感があります。
8Bクラスのモデルに「自由に考えて出力していいよ」と渡すと、出力形式がぶれやすいんですよね。だったら最初から tool-calling モードに誘導する。
この発想は、かなり実戦的だと思います。

しかも、最終的には client には普通のテキストレスポンスに見える。
裏側で tool call を使っていても、外からは透けない。こういう 見えない補助線 は、ユーザー体験をかなり良くするはずです。

評価があるのも信頼感につながる

forge には、26シナリオの eval suite があると書かれています。
しかも、

OG-18 baseline tier
advanced_reasoning tier

という2層構造になっていて、単純なケースと難しいケースを分けて測っているようです。

README では、トップの self-hosted config として:

Ministral-3 8B Instruct Q8 on llama-server
86.5% across forge's 26-scenario eval suite
76% on the hardest tier

が挙げられています。

もちろん、ベンチマークは万能ではありません。
でも、こういうプロジェクトで評価系をちゃんと持っているのはかなり好印象です。
「動きます」だけでなく「どれくらい信頼できるか」を数値で追っているのは、まさにこの種のフレームワークに必要な姿勢だと思います。

どういう人に向いていそうか

forge は、次のような人に向いていそうです。

自前LLMで agent を作りたい人
tool-calling の失敗に悩んでいる人
ローカルモデルを実用レベルに近づけたい人
既存の OpenAI-compatible client をそのまま使いたい人
長時間動く workflow や multi-agent 構成を作りたい人

逆に言うと、「LLMにちょっと質問したいだけ」 なら、ここまでの仕組みは少し大げさかもしれません。
でも、実際に業務やプロダクトで使うなら、このくらいの補助輪がある方が安心です。

個人的な感想

個人的には、forge はかなり“わかっている”プロジェクトだと思いました。
理由は、単に「LLMでツールを呼べます」ではなく、その先にある失敗しやすさまで含めて設計しているからです。

特に好きなのは、

guardrails を前面に出していること
proxy で既存環境に差し込みやすいこと
context management を最初から重要視していること

この3点です。

LLM界隈って、ともすると「モデルが賢くなれば全部解決」という雰囲気になりがちですが、実際には信頼性の工学が大事です。
forge はその現実をかなり真面目に扱っていて、しかも自前運用の文脈に寄せている。ここは地味に貴重だと思います。

一方で、こういうフレームワークは便利な反面、内部の挙動を追わないと「なぜうまくいったのか」が見えにくくなることもあります。なので、導入するなら、ブラックボックスにしすぎず、評価とログをしっかり見る運用が重要ではないでしょうか。

まとめ

forge は、self-hosted LLM を実用的な agent として扱うための reliability layer です。
単なる補助ライブラリではなく、失敗しがちな tool-calling を補正し、長いワークフローを破綻しにくくすることに重点を置いています。

「ローカルLLMは面白いけど、実運用では不安」という人にとって、かなり有望な選択肢になりそうです。
少なくとも私は、こういう“モデルそのもの”ではなく“モデルを支える層”に真剣なプロジェクトが増えるのは、すごく良い流れだと思います。

参考: GitHub - antoinezambelli/forge: A Python framework for self-hosted LLM tool-calling and multi-step agentic workflows

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work