PaPoo
cover

Sonnetがついに「Opusでいいじゃん」って言われ始めた件、実際どうなのか集めてみた

2026年6月末にSonnet 5が出て以来、あちこちで「もうOpusいらないんじゃないか」という声を見るようになった。正直、この手の「新型は前世代を食う」論は毎回出てくるので話半分に聞いてたんだけど、今回は言ってる人の顔ぶれが違う。エンタープライズの導入事例から個人ブロガーの生々しい愚痴まで、実際にClaude Codeで両方回した人たちの声を拾ってみたら、思ったより解像度の高い話が出てきたので整理する。

ベンチマークだけ見ると「肉薄」は言い過ぎ

まず数字。SWE-bench Proのエージェント型コーディングでSonnet 5は63.2%、Opus 4.8は69.2%。これだけ見ると6ポイント差はまだ結構ある。一方でHumanity's Last Examにツールを持たせた条件だとSonnet 5が57.4%、Opus 4.8が57.9%とほぼ同着。知識労働系のGDPval-AA v2に至ってはSonnet 5の1,618に対してOpus 4.8が1,615で、数字上はSonnet が上回っている場面すらある。

つまり「全部の指標で肉薄した」んじゃなくて、​タスクの種類によって差の出方がバラバラというのが実態に近い。深いマルチファイル改修や高難度の推論ではOpusがまだ確実に強く、逆にツール操作・知識作業寄りのタスクではほぼ差がない。ここを「Sonnetで十分」と「Opusはまだ必要」のどちらか一方に丸めて語ると、たぶんどっちも嘘になる。

Claude Codeを実際に回した人たちの声

Hacker Newsのスレッドで面白かったのは、Opus 4.8への不満の方が具体的だったこと。「2〜3行のPythonで済むのに、わざわざライブラリ一式を作ろうとする」「調査フェーズでjarファイルをデコンパイルしたり、Kubernetes設定を全部読みに行ったり、とにかく大量にコードを読み込む」といった報告があった。これはOpusが賢くないという話ではなく、​やることが大掛かりになりがちで、トークンも時間も食うという、コスパ面での不満に近い。中には「戦略的に問題を見つけてから代替案に移るけど、比較検討して元の案に戻ることがない」という、行動パターンレベルの分析までしている人もいた。

一方でエンタープライズ側の声はまた違う温度感で、10万行規模のネイティブモバイルコードベースをAgent駆動で回している企業から「何か壊れてもAgentが直すので、信頼性の問題は起きていない」という報告も出ている。要はOpusの「重さ」は、規模が大きいコードベースを任せっぱなしにする場面では逆に美点になる、ということなんだと思う。

Redditのr/ClaudeAIでは逆方向の不満が目立った。Sonnet 5をhigh〜xhighのeffortで回すと、コスト面の優位性が消えてOpus 4.8とほぼ同じか、場合によっては高くつくケースがあるらしく、「それなら最初からOpusでよくないか」という声が上がっている。Sonnet 5の値付けの魅力はlow〜medium effort帯にはっきり出るけど、effortを上げるほどその強みが薄まるという、わりと明確な境界線がある。

コードレビューツールのCoderabbitが出している評価データも実務寄りで面白かった。Sonnet 5はSonnet 4.6に比べてバグ検出数そのものはわずかに減るものの、指摘の精度(実際にバグだった割合)は29%前後から38〜40%まで上がっている。つまり「見つける数は減ったけど、無駄な指摘でレビュアーの時間を奪う頻度が減った」ということで、実運用の満足度としてはこっちの方が効くという評価だった。

GitHub Copilot側の早期パートナーからも「これまでのSonnetなら途中で止まっていたような複雑なタスクを最後までやり切る」「指示していないのに自分の出力を確認しにいく」という声が上がっていて、この「言われなくても検算する」挙動は、日本語圏のブロガーの実体験とも一致していた。あるブロガーは30秒足らずでバグ付きスクリプトを直した後、頼んでもいないのに期待値を手計算で照合するところまでやっていて、「これが噂の“言われなくても自分の出力を確認する”ってやつか」と書いていた。

日本語圏の反応は「まだOpusクラスではない」でわりと一致

海外の熱狂に比べて、日本語ブログの評価は総じて慎重だった。Opus 4.7を基準に触っていたユーザーの感想は「日々の作業の実力はかなり上がったが、まだOpusクラスには届いていない」というもので、その代わり「これまでOpusでないと厳しかった作業の6割くらいはSonnet 5で足りるようになった」という体感も添えられていた。数字が肉薄したというより、​Opusを使う必要のある場面自体が減った、という捉え方の方が実感に近いのかもしれない。

セキュリティ関連のタスクについては、Anthropic自身がSonnet 5のサイバーセキュリティ能力はOpusより明確に低いと明記している。これを踏まえて「定型作業はSonnet 5、設計判断やセキュリティが絡む場面だけOpus 4.8に上げる」という二段構えの使い分けを勧める声が複数あった。感覚で使い分けるというより、費用対効果の観点から素直にそうなる、という書き方をしている人が多かった印象。

結局どう捉えればいいか

「SonnetがOpusに肉薄した」というのは、半分正しくて半分は誇張だと思う。ツール操作や知識作業寄りのタスク、low〜medium effortでの日常的なコーディングでは、体感差がほぼなくなったという声が世界中で一致している。一方で、深いマルチファイルの設計判断、セキュリティが絡む領域、xhighまでeffortを積んだ場合の費用対効果では、Opusの優位がまだはっきり残っている。

実務的な結論としては、「まずSonnet 5で回して、精度がボトルネックになる場面だけOpusにエスカレーションする」という運用が、コスト面でも体感の満足度でも一番評判が良かった。逆に「全部Opusでいいや」も「もうOpusは要らない」も、今のところどちらも早計に見える。

同じ著者の記事