AIのコード生成って、見た目はかなり派手です。
数行の指示を入れるだけで、それっぽい関数やアプリの雛形を出してくれる。初めて触ったときは「え、もう人間いらなくない?」と一瞬思うくらいです。
でも、実際に使っているとすぐに分かる弱点があります。
AIは“その場では賢い”けれど、“会話や開発の流れをずっと覚えている”とは限らないんですよね。
たとえば、最初に
と決めたのに、少し話を進めると平気で忘れてしまうことがあります。
この「前に言ったことをちゃんと覚えているか」は、コードを書くAIではかなり大事です。なぜなら実際の開発って、1回で完結するより、前提を積み重ねながら進む作業だからです。
今回のReddit投稿は、まさにその弱点を測るためにAIの memory in coding を評価するベンチマークを作ったという話です。
ベンチマークというのは、簡単に言うと性能を比べるためのテスト問題集みたいなもの。AIの世界では、「どのモデルがどれくらいできるのか」を同じ条件で比べるためによく使われます。
このテーマ、かなり面白いです。
というのも、AI評価ってつい「正解率」や「ベンチマークスコア」ばかり見がちですが、実務ではそれだけでは足りません。
“覚えていられるか”は、単発の正解より地味だけど、実際にはかなり重要なんです。
たとえば人間の開発でも、
「このバグはさっき直した」
「この関数は別用途に使う」
「この仕様は前回の打ち合わせで変わった」
みたいな情報を踏まえて動きますよね。AIも同じで、文脈を保てないと、いくらコードの断片がうまくても、実際の開発アシスタントとしては心もとない。
個人的には、こういうベンチマークはかなり価値があると思います。
派手ではないけれど、**“AIが本当に仕事で使えるか”を測る方向に評価軸をずらしてくれる**からです。
AIのデモは華やかでも、現場では「昨日伝えたルールを覚えてる?」のほうがずっと大事だったりします。そこに光を当てるのは、かなり健全です。
ただし、ここで注意したいのは、元記事の本文は今回確認できる状態ではなかったことです。
そのため、ベンチマークの具体的な設計や結果、対象モデルの比較などの詳細は断定できません。
とはいえ、タイトルから読み取れる範囲でも、「AIのコード生成能力」ではなく「AIのコード記憶力」を測ろうとしている点は、かなり興味深いです。
AIが賢くなるほど、単純な問題はどんどん解けるようになります。
その次に効いてくるのは、たぶんこういう地味な能力です。
つまり、**“知っている”より“忘れない”**が重要になってくる。
これ、コーディングAIの評価としてはかなり本質的ではないでしょうか。
AIはすでに「ちょっとした補助」から「かなり頼れる相棒」に進化しつつあります。
でも本当に相棒と呼べるかどうかは、難しい問題を一発で解けるかより、前に決めたことをちゃんと持ち続けられるかにかかっている気がします。
このベンチマークは、まさにその核心を突こうとしているように見えて、個人的にはかなり好きなテーマです。