世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-17

LLMに「オンライン記憶」を足す新発想、$δ$-mem が面白い

記事のキーポイント

$δ$-mem は、LLMに後付けできる軽量な memory 機構の提案
長い会話やエージェントで問題になる「過去の情報をどう残すか」に正面から取り組んでいる
既存の大きな context window に頼るのではなく、固定サイズの online state に要約して保持する
frozen backbone（本体モデルは固定）のまま、attention の計算に低ランク補正を入れて性能を上げる
8×8 の小さな memory state でも、平均スコアで baseline を上回り、記憶が重要なベンチマークで特に強い
個人的には、「モデルを丸ごと再学習しなくても記憶を増やせる」という方向性がかなり実用的だと思う

そもそも、LLMの「記憶」がなぜ難しいのか

大規模言語モデル（LLM）は、質問に答えたり文章を書いたりするのは得意です。でも、長い時間をまたいで情報を覚え続けるのは別問題です。

たとえば、長期的なアシスタントや agent では、こんな情報を覚えていてほしくなります。

ユーザーの好み
これまでの会話の前提
途中で決まった方針
以前に試して失敗した手順

これを素朴にやる方法が、context window を広げることです。
context window は、モデルが一度に読める文章の長さのこと。長ければ長いほど過去を詰め込めます。

でも、元記事が指摘している通り、これは万能ではありません。

計算コストが高い
長く入れても、本当に必要な情報がうまく使われるとは限らない
ただ長いだけで、モデルがうまく拾えないことがある

ここ、かなり重要です。
「大量に入れれば賢くなるはず」という発想は直感的ですが、実際のモデルはそんなに素直ではない。人間でも、メモを100ページ渡されても必要な箇所を探せないのと同じです。

$δ$-mem とは何をする仕組みか

この論文の提案は、ひと言でいうと、

LLMの本体はそのまま固定しつつ、外付けの小さな memory で過去情報を圧縮・活用する

というものです。

ポイントは3つあります。

1. 本体モデルは frozen のまま

frozen は「凍結された」、つまり学習済みモデルの重みを基本的に変えないという意味です。
巨大なLLMを全部再学習しなくていいので、かなり扱いやすい。

これは実務的にはすごくありがたいと思います。
モデル本体の再学習は重いし、壊したくない能力も多い。そこに「後付けの記憶モジュール」を足せるなら、導入のハードルがかなり下がります。

2. 過去情報を fixed-size state matrix に圧縮する

$δ$-mem は、過去の情報を固定サイズの state matrix に押し込みます。
つまり、「覚える情報が増えたからメモリも無限に増やす」のではなく、決まった大きさの箱に要約して入れるわけです。

この固定サイズ設計が面白いところです。
無限に保存できるわけではないけれど、実用上は「何でも全部持つ」より「重要な情報を効率よく残す」ほうが強い場面が多いはずです。

3. delta-rule learning で更新する

論文では、この memory を delta-rule learning で更新すると説明されています。
delta-rule は、ざっくり言うと「予測と実際のズレを見て少しずつ修正する学習のやり方」です。

神経科学や連想記憶の文脈でも出てくる考え方で、要するに「間違いを見ながら記憶を書き換える」イメージです。

この設計は、かなり“メモリらしい”です。
LLMに全部を覚えさせるのではなく、使いながらオンラインで記憶を整える。この方向性は自然だし、私はかなり筋がいいと思います。

どうやって attention に効かせるのか

$δ$-mem のもう一つの肝は、memory を単に保存するだけで終わらない点です。

論文の説明では、memory の readout を使って、生成時の backbone の attention computation に low-rank corrections を加えます。

少し分解すると、

attention: どの情報をどれくらい重視するかを決める仕組み
readout: memory から必要な情報を取り出すこと
low-rank corrections: 大きな変更ではなく、少ないパラメータで“ちょい足し補正”する方法

つまり、$δ$-mem は「記憶を別箱に入れて終わり」ではなく、その記憶を attention の振る舞いに直接反映させます。

ここが賢い。
単なる外部メモリ検索だと、モデル本体がその情報をどう使うかが弱くなりがちですが、attention に近いところへ差し込むと、生成の流れそのものに効きやすいわけです。

結果はどうだったのか

元記事の要約では、8×8 の online memory state というかなり小さな状態で、次の結果が出ています。

frozen backbone の平均スコアの 1.10倍
最強の非 $δ$-mem memory baseline の 1.15倍

さらに、記憶が重要なベンチマークではもっと差が広がっています。

MemoryAgentBench: 1.31倍
LoCoMo: 1.20倍

しかも、general capabilities はおおむね保たれているとのことです。
これ、地味に大事です。記憶性能だけ上がって、会話全般の能力が落ちるのはありがちなので、「能力の土台を壊さずに上積みした」というのはかなり良いニュースです。

この研究の何が新しいのか

個人的には、$δ$-mem の新しさは「記憶を足した」こと自体より、記憶の置き場所と更新のしかたにあると思います。

よくある発想は、

context を長くする
外部 database を検索する
追加学習する

あたりです。

でも $δ$-mem は、そのどれとも少し違っていて、

固定サイズの online state
delta-rule による継続更新
attention への直接接続
frozen backbone の維持

という組み合わせで勝負しています。

この「足し算のしかた」がかなり綺麗です。
重い改造ではなく、既存のモデルに小さく、しかし効く形で memory を差し込む。こういう設計は、研究としても応用としても魅力があります。

実用面で期待できそうなところ

この仕組みが本当に広く使えるようになるなら、向いていそうなのはこんな場面です。

長期会話アシスタント
タスクをまたぐ agent
ユーザーごとの好みを覚えるシステム
長い作業ログを扱う支援ツール

特に agent 系では、「いま目の前の文脈」だけでなく、「さっき何をして、何に失敗したか」が効くので、こうした memory 機構はかなり重要です。

一方で、もちろん気になる点もあります。
記事の要約だけを見る限り、どの程度一般化するのか、どんな失敗パターンがあるのか、本当に tiny な state でどこまで持つのか などは、本文を読んで確かめたいところです。
ただ、少なくとも方向性としてはかなり筋が良いと感じます。

まとめ

$δ$-mem は、LLMに「もっと長い文脈」を無理やり食べさせるのではなく、小さな online memory を持たせて、必要な情報を賢く残し、attention に反映するというアプローチです。

この発想の良さは、

モデル本体を壊しにくい
計算コストを抑えやすい
長期的な利用シーンに向いている
記憶が重要なタスクで効果が出やすい

ところにあります。

個人的には、LLM研究の中でも「これは実際に使いたくなる」タイプの工夫だと思いました。
巨大化一辺倒ではなく、記憶をどう設計するかに焦点を当てるのは、今後ますます重要になっていくのではないでしょうか。

参考: δ-mem: Efficient Online Memory for Large Language Models

同じ著者の記事

Excelの文字が勝手に変わる本当の理由 ―― テーマフォントとAptos騒動

「昨日まで普通だったのに、開いたら文字の形も行の高さも違う」。Excelでこれをやられると地味に腹が立つ。ネット上の解説は「値のみ貼り付けを使え」「条件付き書式を消せ」で止まっているものが多いが、それは症状の一部でしかない。原因の大半は、もっと下のレイヤーにある。フォント名がセルに直接書かれていないこと ―― つまりテーマフォントという仕組みだ。 Excelのフォント一覧を開くと、いちばん上に「テーマのフォント」という区切りがあって、`游ゴシック（本文）` `游ゴシック Light（見出し）` の2つが並んでいる。既定の状態では、あなたが打ち込んだセルはこの「本文のフォント」を参照している。具体的な書体名（游ゴシック）を持っているのではなく、「このブックのテーマが本文用に指定している書体、それが何であれ」という*ポインタ*を持っているだけだ。だから、テーマが変わればセルの見た目も一斉に変わる。ページレイアウトタブの「テーマ」や「フォント」を切り替える、別のテーマが設定されたブックにシートをコピーする、あるいはテーマ設定の異なる環境でファイルを開く ―― どれをやっても、一文字

papoo.work

Outlook「送信済みメールが見つからない」を2026年版で仕分ける — Classic / New Outlook / Exchange Online / OAuth / Recoverable Items

「送信は成功したのに、送信済みアイテムに残っていない」——Outlook 定番のトラブルだが、2026年の対処は1年前と大きく変わった。理由は3つ。(1) New Outlook for Windows が Classic Outlook を段階的に置き換え、`.ost` を持たない Web ベース実装に変わりつつあること。(2) Exchange Online の Basic Auth 廃止が長期化し、レガシー IMAP/POP クライアント側の「送信済み」問題が実運用に響いていること。(3) Copilot for Microsoft 365 のインデックス連携と Retention / Litigation Hold の干渉で、「消えた」ではなく「別階層に隔離された」パターンが増えたこと。本稿では2026年時点の原因を頻度・切り分け順に整理する。 > ⚠️ 前提: 「Outlook」といっても実体は Classic Outlook (Win32 / OL2016〜2024 / M365 Apps)、**New Outlook for

papoo.work

ChatGPTの会話履歴が消えた・表示されないを直す【2026年6月版】

「昨日まであった会話が、サイドバーから消えている」——ChatGPT 利用者の定番の不安だ。だが2026年の今は、1年前とは原因も設定画面もすっかり変わっている。最大の変化は、(1) かつての対処の定番だった 「Chat history & training（会話履歴とトレーニング）」トグルが廃止され、データ設定が再編されたこと。そして (2) 「アーカイブ」「一時チャット（Temporary Chat）」「プロジェクト」といった、履歴が“消えたように見える”新しい仕組みが増えたことだ。本稿では2026年時点で本当に効く見極めと対処を、頻度の高い順に整理する。 > ⚠️ 注記: ChatGPT は UI と設定項目の変更が速い。下記は本稿執筆時点（2026年6月）の挙動。「削除」した会話は UI・API・サポートのいずれからも復旧できないのは今も同じ。まずは「本当に削除したのか」を疑うこと。 --- 2026年は「消えた≠削除」が大半。まず アーカイブ / 一時チャット / 別アカウント の3つを疑う **昔の「会話履歴とトレーニング」ト

papoo.work

AIモデルの政治的な“傾き”を地図にしたTrakkrの実験がかなり面白い

AIに「この政策はどう思う？」とか「どの候補者に近い？」と聞くと、返ってくる答えに妙な一貫性を感じることがあります。Trakkrの「Political bias in AI」は、その“なんとなくの印象”を、かなりきっちり測ろうとしたページです。ざっくり言うと、主要なAIモデルに政治・経済・言論・社会に関する刺激の強い質問を何度も投げ、その答えの傾向を地図に落とし込んでいます。しかもWeb検索はオフ。つまり、ネット上の情報を拾った結果ではなく、そのモデル自身がどんな方向に寄りやすいかを見ているわけです。ここがまずおもしろい。 Trakkrは、主要AIモデルの政治的・社会的な“傾き”を可視化している 1回だけでなく、同じ質問を何度も繰り返し、答えのブレも含めて見ている Web検索はオフなので、「ネットがそう言っていた」ではなく「モデル自体がどう答えるか」を測っている 6モデルのうち、4つが左寄りに見えたただし、どのモデルも一枚岩ではなく、質問によってかなり揺れる自分で同じ質問に答えると、どのモデルに近いかも見られるこのページの芯はとてもシンプルです。 AIモデルに、政治や社会の難し

papoo.work

CUDA kernelを走らせると裏で何が起きているのか

「GPUで計算する」と聞くと、なんだか一瞬で魔法みたいに処理が終わる印象があります。でも元記事は、その裏側にある泥臭い手順を、かなり執念深く追いかけています。しかも題材は、たった1行のベクター加算。`a[i] + b[i]` を並列に足すだけの、いちばん地味なCUDAプログラムです。地味だからこそ面白い。GPUという巨大な装置が、どれだけの段取りを踏んでこの1行を実行しているのかが、くっきり見えてきます。 `nvcc` は1つのコンパイラではなく、複数のコンパイラをまとめて動かす“司令塔”です CUDAのコードは、まずPTXという中間表現になり、その後SASSというGPU実機向け命令に変わります `vadd<<<4096, 256>>>(...)` のような記法は、ホスト側で引数を詰める「stub」に置き換えられます GPUカーネルの引数は、constant bank 0 に載って読み出されます実行時には、CPU側のランタイム、`libcuda.so`、ドライバ、PCIe越しのGPUが連携して動きますただ“GPUに投げた”だけに見える処理の背後で、かなり多くの機械的な準備が走って

papoo.work

「安いAIモデル」が高級ブランドを揺さぶる

Open Weight Models は、モデルの中身を公開して配布するタイプのAIで、誰でも自分の環境に近い形で使いやすい。記事の筆者は、DeepSeek V4 の安さを見て、Anthropic や OpenAI の“フロンティアモデル”との価格差があまりに大きいと感じている。その差は、単に「少し高い」ではなく、トークン単価ベースでほぼ50倍にも見える、というのが衝撃点。さらに筆者は、高価格を維持するために「希少性」を演出する動きがあるのでは、と疑っている。将来の競争軸は、単なる Open Weight ではなく、学習データの流れまで公開する「True Open Source」へ移るのではないか、と見ている。 AllenAI の OLMo や、NSF と Nvidia の支援も、その流れの例として挙げられている。この記事で面白いのは、AIの性能そのものより「値段のつけ方」に真正面から噛みついているところです。ふつうAIの話は「賢い」「速い」「便利」で終わりがちですが、ここではかなり露骨に「その高額料金、本当に必要？」と問いかけています。私はここがかなり重要だと思います。A

papoo.work

黒箱LLMから小型モデルへ知識をどう渡すか、Proxy-KDという発想が面白い

大規模言語モデルの世界は、ここ数年ずっと「でかいモデルが強い」の一強でした。GPT-4のような商用LLMは性能が抜群ですが、中身は見えません。APIの向こう側にいて、内部状態や学習の細部には触れられない。研究する側からすると、これはかなりもどかしい。この論文 `Knowledge Distillation of Black-Box Large Language Models` は、その厄介な壁をどう越えるかを真正面から扱っています。しかもアイデアがわりと気持ちいい。黒箱LLMの出力を、そのまま小型モデルに押し込もうとするのではなく、proxy model という“仲介役”を挟むのです。知識蒸留（knowledge distillation, KD）は、強いモデルの知識を小さいモデルへ移すやり方です。たとえば大きな先生モデルが出した答えを手本にして、軽い生徒モデルを育てるイメージです。ただ、普通の蒸留は先生の内部情報も使えることが多い。どの単語にどれくらい自信があるか、途中でどう考えているか、といった情報ですね。ところが黒箱LLMはそこが見えない。返ってくるのは最終出力だけ

papoo.work

AIエージェントに必要なのは「長い会話」より「本当の記憶」だった

大きな context window は、記憶そのものではない それは「一時的に広い机」を持っているようなもので、セッションが終われば消える以前の会話を毎回ぜんぶ送り直すやり方は、長くなるほど重く、遅くなる Retrieval は「必要な資料だけを本棚から持ってくる」仕組み Compression は中身をなるべく保ったまま、入力を小さくする工夫 Summarization は要点だけ残す方法で、元データは別に保存しておくのが安全 AIエージェントを作るときは、モデルに全部覚えさせるより、DBや検索の役割を分けるほうがうまくいく元記事の主張はかなり明快です。 context window が大きいことと、memory があることは別物だ、という話です。ここでいう context window は、AIモデルが一度に読める文章量の上限です。人間でいうと「机の上に広げて見られる書類の量」に近い。広ければ広いほど便利そうですが、だからといって「その机が記憶装置になる」わけではありません。著者のたとえがわかりやすいです。巨大な机を買って、ファイルキャビネット

papoo.work

Qwen-AgentWorldが狙う「LLMで世界をまるごと動かす」発想

大きなAIモデルを見ていると、最近は「文章をうまく作る」だけでは全然足りないんだな、としみじみ思います。次に来るのは、AIが環境の動きまで頭の中で予測する方向です。今回のarXiv論文 Qwen-AgentWorld: Language World Models for General Agents は、まさにそこを真正面から狙っています。ざっくり言えば、これは「言語モデルを使って、エージェントが置かれた世界の変化をシミュレーションする」研究です。チャットの延長ではなく、AIが「この操作をしたら次に何が起きるか」を考えられるようにする。ここが肝です。正直、この発想はかなりおもしろいです。AIを“答える機械”から“先読みする機械”に近づけようとしているので。 Qwen-AgentWorldは、agentic environment をシミュレートする language world model 35B-A3B版と397B-A17B版の2モデルを公開 **7つのドメインをまたいで、long chain-of-thought reasoning による環境予測

papoo.work

中国版「Mythos」登場、その中身はかなり本気だった

Qihoo 360の創業者・周鴻禕氏が、北京のISC.AI 2026で脆弱性発見AI「Tulong Feng」を発表した。彼はこれを、Anthropicのサイバーセキュリティ向けAI「Claude Mythos」に対する中国版だと位置づけた。同じタイミングで、中国のZ.aiは近い性能を持つモデル「GLM-5.2」をMITライセンスで公開し、誰でも無料で使える形にした。セキュリティ評価では、GLM-5.2が一部のベンチマークでClaude Codeを上回ったとされ、コスト面でもかなり安い。ただし、これは「中国がついに米国に追いついた」と単純に言う話ではなく、AIサイバーセキュリティの覇権争いがかなり露骨になってきた、というニュースだと思う。中国のサイバーセキュリティ業界が、かなりはっきり「うちはうちでやる」と言い始めている。Decryptの記事が伝えているのは、そんな空気感だ。話の中心にいるのは、Qihoo 360の創業者・周鴻禕氏。Qihoo 360は中国では有名なセキュリティ企業で、個人向けの保護ソフトや企業向け防御で存在感がある。その周氏が、北京で開かれたISC.AI

papoo.work