閉じたLLM APIで「想定外入力」をどう見つけるか?Redditで語られたOOD detectionの難しさ
OOD detection は、学習時に想定していなかった入力を見つける仕組みのこと 今回の話題は、closed LLM API に対してそれをどうやるのか、という実践的な悩み APIの中身が見えないので、モデルの内部確率や埋め込みを自由に使えないのが厳しい そのため、外から観測できる情報だけで判断する工夫が必要になる こういう問題は、LLMを「賢い会話相手」として使うだけでなく、安全性や運用まで考えると急に重要になる Redditに、`how do you do OOD detection on a closed LLM api?` というタイトルの投稿がありました。 要するに、「中身が見えない閉じたLLM APIに対して、OOD detectionをどうやるの?」という話です。 この質問、地味にかなり面白いです。というのも、LLMを使うときって、つい「答えが返ってくればOK」と思いがちなんですが、実運用ではそれだけでは足りません。 たとえば、医療、法務、社内FAQ、カスタマーサポートみたいな場面では、入力が想定範囲内かどうかを先に見極
papoo.work