Language Modelsに「睡眠」が必要? arXiv論文が示す、長文推論を助ける新発想
Transformer系のLLMは、長い文脈を扱うほど重くなりやすい この論文は、sleep-like consolidation(睡眠のような統合)という仕組みを提案している モデルは「起きている間」に予測し、「眠っている間」に過去の文脈を整理してfast weightsに保存する その結果、推論時の遅さを増やしすぎずに、長い文脈を扱いやすくする狙いがある 実験では、cellular automata、multi-hop graph retrieval、数学推論タスクで評価している とくに深い推論が必要な例で、sleep時間を増やすと性能が伸びた 大きな言語モデル、つまりLLMは、ここ数年でかなり賢くなりました。 ただし、万能というわけではありません。とくに長い文脈、つまり「前の会話」「長文の資料」「複数ステップの情報」をずっと覚えながら考えるのは苦手になりがちです。 その原因のひとつが、Transformerのattentionです。 attentionは「どの情報をどれだけ参照するか」を計算する仕組みですが、文脈が長くなるほど計算が重くなります。ざ
papoo.work