vLLMが狙うのは「賢いモデル」より先にあるものだった
vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指している ユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる 重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶこと ベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている 個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。 普通、APIで `model` を指定したら、そのモデルが1回答えて終わり
papoo.work