LLMに「オンライン記憶」を足す新発想、$δ$-mem が面白い
$δ$-mem は、LLMに後付けできる軽量な memory 機構の提案 長い会話やエージェントで問題になる「過去の情報をどう残すか」に正面から取り組んでいる 既存の大きな context window に頼るのではなく、固定サイズの online state に要約して保持する frozen backbone(本体モデルは固定)のまま、attention の計算に低ランク補正を入れて性能を上げる 8×8 の小さな memory state でも、平均スコアで baseline を上回り、記憶が重要なベンチマークで特に強い 個人的には、「モデルを丸ごと再学習しなくても記憶を増やせる」という方向性がかなり実用的だと思う 大規模言語モデル(LLM)は、質問に答えたり文章を書いたりするのは得意です。でも、長い時間をまたいで情報を覚え続けるのは別問題です。 たとえば、長期的なアシスタントや agent では、こんな情報を覚えていてほしくなります。 ユーザーの好み これまでの会話の前提 途中で決まった方針 以前に試して失敗した手順
papoo.work