世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Codexが「コードを書く道具」から「仕事を進める相棒」に進化した話

OpenAIがCodexを大幅アップデートしました。
今回のポイントをひと言でいうと、Codexが「コード生成ツール」から、開発作業全体を手伝うAIアシスタントへ広がったということです。

正直、これはかなり面白い展開だと思います。
これまでのCodexは「コードを書かせる」イメージが強かったのですが、今回のアップデートでは、コンピューター操作、ブラウザ操作、画像生成、メモリ、プラグイン連携まで入ってきていて、もはや“開発者向けの万能作業台”に近づいています。

記事のキーポイント

Codexがコンピューターを直接操作できるようになった
アプリ内ブラウザーでWebページを見ながら指示できる
画像生成にも対応し、デザイン作業の試作がしやすくなった
90以上のプラグインで他ツールとの連携が強化された
PRレビュー、ターミナル、SSH接続、PDF閲覧など、開発フロー全体を支える機能が増えた
会話の継続やメモリ機能で、長期タスクに強くなった
まずはデスクトップ版Codexアプリで順次提供される

Codexは「コーディング専用」から広がった

この記事の中心は、Codexの大規模アップデートです。
OpenAIによると、Codexは毎週300万人以上の開発者に使われていて、今回の更新で「ソフトウェア開発ライフサイクル全体」を支える存在になるとのことです。

ここでいうソフトウェア開発ライフサイクルとは、ざっくり言うと、

仕様を考える
コードを書く
動作確認する
レビューする
修正する
チームとやり取りする

といった、開発の一連の流れのことです。
つまり、単に「コードを出して終わり」ではなく、作ってから直して、チームで回して、完成に近づけるまでをサポートするわけです。

この方向性はかなり自然です。
実際の開発って、コードを書く時間よりも、調べる・確認する・直す・共有する時間のほうが長いことも多いので、AIがそこに入ってくるのは筋がいいと思います。

1. コンピューターを直接操作できるように

今回の目玉のひとつが、バックグラウンドでのコンピューター操作です。
Codexは画面を認識して、カーソルを動かし、クリックや入力をして、コンピューター上のアプリを操作できます。

簡単に言うと、
「人間がマウスとキーボードでやる作業を、Codexが代わりにやる」
というイメージです。

しかも、Mac上で複数のエージェントが並行して作業できるとのこと。
エージェントとは、指示に従って自律的に動くAIの作業単位だと思えば大丈夫です。

これは地味にすごいです。
特にフロントエンドの反復改善、アプリのテスト、API公開していないアプリの操作などに役立つとされています。
要するに、「人間が手で触るしかなかった作業」にAIが入ってくるわけで、ここはかなり実務的です。

個人的には、こういう“画面を見て操作するAI”は、まだまだ発展途上でも、将来のインパクトが大きい分野だと思います。
うまくハマれば、面倒な作業をかなり減らせそうです。

2. アプリ内ブラウザーで、Webを見ながら指示できる

Codexアプリにはアプリ内ブラウザーが追加されました。
これはアプリの中でWebページを開き、そのページに対して直接コメントを入れたり、指示を出したりできる機能です。

たとえば、

このボタンの見た目を変えて
この部分をもっと分かりやすくして
ここに余白を足して

といった指示を、ページを見ながら伝えられるわけです。

今のところはフロントエンドやゲーム開発に役立つとのことですが、将来的にはlocalhost上のWebアプリだけでなく、ブラウザ全体をCodexが操作できるように拡張する予定だそうです。

これもかなり大きいです。
なぜなら、開発や検証の現場では「ブラウザで見ながら直す」ことが多いからです。
AIがその場で画面を見て、指摘を受けながら修正できるなら、かなり効率が上がるはずです。

3. 画像生成まで同じ流れでできる

Codexはgpt-image-1.5を使って画像を生成し、さらに繰り返し改善できるようになりました。

これによって、たとえば

製品コンセプトのたたき台
フロントエンドのデザイン案
モックアップ
ゲーム用のビジュアル

などを、コードやスクリーンショットと組み合わせて同じワークフロー内で作れるようになります。

これは、開発者だけでなく、デザイナーやプロダクト担当にも刺さりそうです。
というのも、現場では「コード」と「見た目」を行ったり来たりすることが多いからです。
その間をCodexがつなげるなら、試作のスピードはかなり上がるはずです。

4. 90以上の新しいプラグインで、外部ツールと連携

OpenAIは90を超える新たなプラグインも追加しました。
プラグインとは、外部サービスやアプリとつながるための拡張機能のことです。

これにより、Codexはスキル、アプリ連携、MCPサーバーを組み合わせて、いろいろなツールと連携できるようになります。
MCPサーバーは、AIと外部ツールをつなぐための仕組みのひとつ、と考えると理解しやすいです。

記事では、特に便利な例として次のようなものが挙げられています。

Atlassian Rovo：JIRA管理の支援
CircleCI
CodeRabbit
GitLab Issues
Microsoft Suite
Neon by Databricks
Remotion
Render
Superpowers

こうした連携があると、Codexは単独で作業するだけでなく、チームが普段使っている道具の中で動けるようになります。
ここはかなり重要です。AIが賢くても、既存の仕事の流れに入れなければ定着しません。
逆に言えば、普段の業務ツールと自然につながると、一気に実用性が上がります。

5. 開発ライフサイクル全体を見渡せるアプリに

Codexアプリ自体も、かなり使いやすくなっています。

対応しているのはたとえば：

GitHubのレビューコメントへの対応
複数のターミナルタブの実行
SSH経由でのリモートdevbox接続（アルファ版）
PDF、スプレッドシート、スライド、ドキュメントのリッチプレビュー
サマリーペインで計画、情報源、成果物を追跡

ここでいうSSHは、遠隔のコンピューターに安全に接続するための仕組みです。
devboxは、開発用の作業環境だと思えばよいです。

要するにCodexは、
「コードを書く場所」ではなく、「作業全体を見渡す場所」
になってきています。

これはかなり実務向きです。
私の感想としては、AIツールが本当に役立つかどうかは、賢さだけでなく「周辺の情報をどれだけ一緒に扱えるか」で決まると思います。
その意味で、PDFやスライド、レビューコメントまで見られるのはかなり強いです。

6. 会話を再利用して、長期タスクを続けられる

今回のアップデートでは、自動化機能も強化されました。
既存の会話スレッドを再利用できるので、これまでの文脈を保ったまま作業を続けられます。

さらに、Codexは今後の作業を自分でスケジュールして、自動的に再開できるようになりました。
これにより、数日から数週間にわたる長期タスクにも対応できるとのことです。

ここはAIエージェントっぽさがかなり強い部分です。
単発の質問応答ではなく、「未完了の仕事を持ち越して進める」感じですね。

実際、チームでは次のような用途に使われているそうです。

未対応のPull Requestへの対応
タスクのフォローアップ
Slack、Gmail、Notionなどの内容把握

このへんは、開発だけでなく普通のビジネス業務にも応用できそうです。
むしろ「開発者向け」と言いつつ、仕事全般の自動化に踏み込んでいる印象があります。

7. メモリ機能で、好みや履歴を覚える

さらに、メモリ機能のプレビューも始まります。
これによりCodexは、ユーザーの好み、修正履歴、集めるのに時間がかかった情報などを記憶できるようになります。

つまり、毎回「前も同じこと言ったけど……」と説明し直さなくてよくなる可能性があるわけです。
これはかなり便利そうです。人間相手でもそうですが、AI相手でも毎回ゼロから説明するのはしんどいですからね。

OpenAIによれば、これによって、今後のタスクをより速く、以前は細かいカスタム指示が必要だった品質でこなせるようになるとのことです。

もちろん、メモリ機能は便利な一方で、どこまで覚えるのか、何を残すのかは気になるところです。
ここは今後の使い勝手とプライバシーのバランスが重要になりそうだと思います。

8. 次にやるべきことも提案してくれる

Codexは、いま中断している作業の続きとして、次に取り組むべきタスクを提案できるようにもなっています。

たとえば、プロジェクトや接続されたプラグイン、メモリの内容をもとに、

どう始めればいいか
どこから再開すべきか
何が優先なのか

を提案してくれるわけです。

記事の例では、Googleドキュメント内の対応が必要なコメントを見つけて、Slack、Notion、コードベースから関連情報を集めたうえで、優先順位付きのアクションリストを出せるとしています。

この機能、地味に見えてかなり本質的です。
実際の仕事は「何を作るか」より「次に何をやるべきか」を決めるのがしんどいので、そこを支援してくれるのはありがたいです。
AIが“作業の実行者”だけでなく“段取り役”にもなってきた、という感じがあります。

提供状況は？

今回のアップデートは、ChatGPTにサインインしているデスクトップ版Codexアプリのユーザーに順次提供されます。

また、

コンテキストに応じた提案機能
メモリを含むパーソナライズ機能

は、Enterprise、Edu、EU、英国ユーザー向けに近日中に利用可能になる予定です。

さらに、コンピューター操作機能はまずmacOSで提供され、EUと英国にも近日中に展開予定とのことです。

もしすでにターミナルやエディターでCodexを使っているなら、今回のようなワークフロー全体での使い方も試してみてほしい、というのがOpenAIのメッセージです。

まとめ: Codexは「AIエディタ」から一段進んだ

今回のCodexアップデートは、単なる機能追加ではなく、AIの役割そのものを広げる更新だと感じます。

これまでは「コードを書くのが速くなる」ことが主な価値でした。
でも今回は、

画面を操作する
ブラウザを見ながら直す
画像を作る
チームツールとつながる
長期作業を続ける
次の行動を提案する

ところまで来ています。

つまりCodexは、開発者の手元にいる賢い補助輪から、仕事全体を一緒に進める相棒へ変わりつつある、ということです。

もちろん、実際にどこまで使えるかは今後の完成度次第です。
でも方向性としてはかなり強いですし、個人的には「AIが本当に仕事を変えるのは、こういう地味だけど面倒な周辺作業を吸収し始めたとき」だと思います。

参考: （ほぼ）あらゆる作業に対応する Codex

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ