GLM 5.2がClaudeを抜いた、Semgrepの“サイバー実験”が面白い
Semgrepは、IDOR(本来見えるべきでない他人のデータに触れてしまう脆弱性)を見つけるベンチマークで、いくつかのモデルを同じ条件で比較した その結果、open-weightモデルのGLM 5.2が、素のプロンプトだけでClaude Codeを上回った ただし、Semgrepの自社パイプラインは依然として強く、モデル単体の勝負とは別のレイヤーで性能を引き出している この記事の本質は「どのモデルが一番強いか」より、「ハーネス(周辺の仕組み)がどれだけ効くか」を切り分けた点にある open-weightは、社内環境で動かしやすいので、セキュリティ用途ではかなり魅力があると思う Semgrepのこの記事、AIモデルのランキング発表に見えて、実はかなり地味で重要な問いを突いています。 「脆弱性検出の性能って、モデルそのものの力なのか、それとも周辺の仕組みの力なのか?」という話です。 これ、地味ですがめちゃくちゃ大事です。 生成AIの世界では、つい「どのモデルが最強か」に目が行きがちです。でも実務では、モデル単体よりも、どうやってコードを読ませ、どこを見せ、どう検索させ、どう結果を整えるかの
papoo.work