黒箱LLMから小型モデルへ知識をどう渡すか、Proxy-KDという発想が面白い
大規模言語モデルの世界は、ここ数年ずっと「でかいモデルが強い」の一強でした。GPT-4のような商用LLMは性能が抜群ですが、中身は見えません。APIの向こう側にいて、内部状態や学習の細部には触れられない。研究する側からすると、これはかなりもどかしい。 この論文 `Knowledge Distillation of Black-Box Large Language Models` は、その厄介な壁をどう越えるかを真正面から扱っています。しかもアイデアがわりと気持ちいい。黒箱LLMの出力を、そのまま小型モデルに押し込もうとするのではなく、proxy model という“仲介役”を挟むのです。 知識蒸留(knowledge distillation, KD)は、強いモデルの知識を小さいモデルへ移すやり方です。たとえば大きな先生モデルが出した答えを手本にして、軽い生徒モデルを育てるイメージです。 ただ、普通の蒸留は先生の内部情報も使えることが多い。どの単語にどれくらい自信があるか、途中でどう考えているか、といった情報ですね。ところが黒箱LLMはそこが見えない。返ってくるのは最終出力だけ
papoo.work