vllm 関連記事まとめ（2件）

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

#vllm