Kubernetes上でAIエージェントをベンチマークして見えたこと:速いけど「全体の都合」はまだ苦手
Kubernetesの実際のバグ修正事例を使って、AI coding agentsの実力を比べた 使ったのは3種類の見え方 - RAG-only: 検索結果だけを見る - Hybrid: まず検索して、そのあとローカルのコードも見る - Local clone: リポジトリを丸ごとローカルで見る 結果は、検索の工夫は「見つける力」には効くが、「どう直すべきか」の理解まではあまり助けないというもの AIは「主なバグ」だけ直して満足しがちで、周辺の変更や副作用を見落としやすい 逆に、issue(不具合報告)が丁寧に書かれていると、AIの方式差はかなり縮まった つまり、AIを賢くする鍵はRAGだけではなく、人間側の問題の書き方にもありそうだ、という話 InfoQが紹介しているのは、CNCFブログに掲載された Brandon Foley のベンチマーク研究です。 テーマはシンプルで、「AI coding agents は、現実の Kubernetes バグをどれだけ直せるのか?」というもの。 ここでいう AI coding agent は、ただコード補完するだけのツールではなく
papoo.work