benchmarking 関連記事まとめ（1件）

Kubernetes上でAIエージェントをベンチマークして見えたこと：速いけど「全体の都合」はまだ苦手

Kubernetesの実際のバグ修正事例を使って、AI coding agentsの実力を比べた使ったのは3種類の見え方 - RAG-only: 検索結果だけを見る - Hybrid: まず検索して、そのあとローカルのコードも見る - Local clone: リポジトリを丸ごとローカルで見る結果は、検索の工夫は「見つける力」には効くが、「どう直すべきか」の理解まではあまり助けないというもの AIは「主なバグ」だけ直して満足しがちで、周辺の変更や副作用を見落としやすい逆に、issue（不具合報告）が丁寧に書かれていると、AIの方式差はかなり縮まったつまり、AIを賢くする鍵はRAGだけではなく、人間側の問題の書き方にもありそうだ、という話 InfoQが紹介しているのは、CNCFブログに掲載された Brandon Foley のベンチマーク研究です。テーマはシンプルで、「AI coding agents は、現実の Kubernetes バグをどれだけ直せるのか？」というもの。ここでいう AI coding agent は、ただコード補完するだけのツールではなく

papoo.work

#benchmarking