ssm 関連記事まとめ（1件）

Language Modelsに「睡眠」が必要？ arXiv論文が示す、長文推論を助ける新発想

Transformer系のLLMは、長い文脈を扱うほど重くなりやすいこの論文は、sleep-like consolidation（睡眠のような統合）という仕組みを提案しているモデルは「起きている間」に予測し、「眠っている間」に過去の文脈を整理してfast weightsに保存するその結果、推論時の遅さを増やしすぎずに、長い文脈を扱いやすくする狙いがある実験では、cellular automata、multi-hop graph retrieval、数学推論タスクで評価しているとくに深い推論が必要な例で、sleep時間を増やすと性能が伸びた大きな言語モデル、つまりLLMは、ここ数年でかなり賢くなりました。ただし、万能というわけではありません。とくに長い文脈、つまり「前の会話」「長文の資料」「複数ステップの情報」をずっと覚えながら考えるのは苦手になりがちです。その原因のひとつが、Transformerのattentionです。 attentionは「どの情報をどれだけ参照するか」を計算する仕組みですが、文脈が長くなるほど計算が重くなります。ざ

papoo.work

#ssm