世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

OpenAI「GPT-5.5 System Card」をやさしく読む：新モデルの安全性と狙い

キーポイント

GPT-5.5は、現実の仕事をこなすための新しいモデルとして紹介されている
コード作成、オンライン調査、情報分析、文書やスプレッドシート作成などを想定している
以前のモデルより、早めにタスクの意図をつかみ、少ない指示で動き、ツールをうまく使うのが特徴
OpenAIは、公開前に広範な安全性評価とPreparedness Frameworkに基づくテストを実施した
advanced cybersecurity と biology については、狙いを絞った red-teaming（悪用される前提の模擬攻撃テスト）も行っている
約200の早期利用パートナーから実利用のフィードバックも集めた
GPT-5.5は、これまでで最も強い安全対策とともに提供される
GPT-5.5 Pro についても、同系統のモデルとして安全性結果をかなり近いものとして扱っているが、parallel test time compute を使う設定のため、別途評価するケースもある
この記事は、主に公開前の安全評価の結果や方針をまとめた System Card で、モデルの性能自慢というより「どう安全に出すか」が中心

まず、System Cardって何？

OpenAIの System Card は、ざっくり言うと「このモデルは何ができて、どんなリスクがあって、どう安全に出すのか」をまとめた説明書です。
新しいAIが出ると、つい「何点取れるの？」「どれだけ賢いの？」に目が行きがちですが、実は本当に大事なのはそこだけではありません。

AIは便利になるほど、悪用の可能性も上がります。たとえば、

詐欺っぽい文章を大量に作る
サイバー攻撃の手助けをする
危険な生物学関連の知識を整理してしまう

といったリスクです。
なのでSystem Cardは、性能よりもむしろ**“安心して使えるようにどう設計したか”**を知るための資料だと考えるとわかりやすいです。

個人的には、AIの発表資料の中でSystem Cardが一番「本音」が見えやすい部分だと思っています。派手さはないけれど、実務的にはかなり重要です。

GPT-5.5はどんなモデル？

OpenAIによると、GPT-5.5は複雑で現実的な仕事をこなすためのモデルです。例として挙げられているのは、次のような作業です。

codeを書く
online research をする
情報を分析する
documents や spreadsheets を作る
複数の tools を行き来して仕事を終わらせる

ここで注目したいのは、単に「文章がうまいAI」ではなく、仕事の流れ全体をこなすAI を目指している点です。
つまり、1回質問して答えるだけでなく、必要なら調べ、考え直し、道具を使い、最後までやり切る方向に進んでいるわけです。

OpenAIは、GPT-5.5は以前のモデルよりも、

タスクの意図を早く理解する
細かい指示が少なくて済む
toolsをより効果的に使う
自分の作業を確認する
終わるまで継続する

と説明しています。

これは地味にかなり大きい変化です。
AIは賢くても、こちらが毎回「こうして、ああして、それもやって」と細かく指示しないと動かないと、結局人間の負担が減りません。そこが軽くなるなら、実務での使い勝手はかなり上がると思います。

安全性評価はかなり本格的にやっている

OpenAIは、GPT-5.5に対して公開前にfull suite of predeployment safety evaluations、つまり公開前の安全性テスト一式を実施したとしています。

さらに、同社の Preparedness Framework にも基づいて評価したとのことです。
これは簡単にいうと、AIがどれくらい危険なことを起こしうるかを、あらかじめ段階的に見積もる枠組みです。

加えて、特にリスクが高いと考えられる分野については、targeted red-teaming も行ったと書かれています。

red-teamingって何？

red-teaming は、ざっくり言えば「悪用する側の目線で、わざと攻めて弱点を探すテスト」です。
セキュリティ分野ではおなじみの考え方で、AIに対してもかなり重要です。

OpenAIが挙げている重点分野は、

advanced cybersecurity
biology

です。

つまり、サイバー攻撃に転用されうる高度な能力や、生命科学・生物学に関わる危険な知識の扱いについて、特に注意して評価したということです。
この2分野が重点になるのは、まあ納得感があります。AIが賢くなるほど、「便利」から「危ない」への距離も近くなるので、ここはかなりシビアに見るべきところです。

早期パートナーからの実利用フィードバックも集めた

OpenAIは、公開前に約200のearly-access partners からフィードバックを集めたとしています。
早期アクセスのパートナーとは、正式公開前に先に使ってもらい、実際の仕事でどう動くかを見る相手のことです。

これは研究室内のテストだけでは見えない、実務ならではの問題を拾うために重要です。
たとえば、

指示の解釈がズレる
ツール連携が不安定
長いタスクで途中失速する
現場のワークフローに合わない

といったことは、実際に使ってもらわないと見えにくいです。

個人的には、この「200のパートナー」という数字そのものより、実運用を見ながら調整している姿勢が大事だと思います。AIはベンチマークの点数だけでは語れませんからね。

GPT-5.5 Proも同じく扱うが、少し別物として見るところもある

本文では、GPT-5.5の安全性結果を、基本的にはGPT-5.5 Pro の良い代理指標として扱うとしています。
GPT-5.5 Pro は同じ基盤モデルですが、parallel test time compute を使う設定とのことです。

parallel test time computeって何？

日本語でかなり雑に言うと、推論時に複数の候補や計算を並行して回して、よりよい答えを探す方式だと考えるとわかりやすいです。
要するに、ちょっと“考え込み方”が違うモデル構成です。

そのためOpenAIは、GPT-5.5 Proについては基本的に同じ土台のモデルと見なしつつも、その設定がリスクや必要な安全策に影響しうる場合は別途評価するとしています。

これはかなり妥当だと思います。
同じエンジンでも、運転モードが違えば挙動は変わります。AIもまったく同じで、「中身が同じだから安全性も同じ」とは言い切れません。

このSystem Cardの重要ポイントは「強い能力」と「強い防御」のセット

この文書でいちばん印象的なのは、GPT-5.5が単に高性能という話ではなく、能力の向上と安全対策をセットで出している点です。

AI業界では、能力を上げるのはわりとわかりやすいです。
でも、能力が上がると同時に、悪用の余地も広がる。ここが面倒で、そして面白いところです。

OpenAIは、GPT-5.5を

先に意図をつかむ
少ない指示で動く
ツールをうまく使う
自分で確認する
仕事を最後まで進める

という“使えるAI”として見せつつ、同時に安全性評価をかなり重く扱っています。

このバランス感は、今後のAI製品にとってかなり重要なテーマになるはずです。
「賢いけど危ない」では困るし、「安全だけど役に立たない」でも意味がない。そこをどう両立するかが、まさに勝負どころだと思います。

この記事から読み取れること

このSystem Card自体は短い案内文ですが、そこから見える流れははっきりしています。

GPT-5.5は、単体の会話AIというより仕事を進める実務向けモデル
そのぶん、安全性評価がより重要
とくに cybersecurity と biology は要注意分野
公開前に、かなり広い範囲でテストしている
実際の利用現場からのフィードバックも取り込んでいる

要するに、OpenAIは「賢くなりました」で終わらせず、どう安全に社会へ出すかをかなり強く意識している、ということです。

個人的には、こういうSystem Cardがちゃんと出るのは良いことだと思います。
完璧ではないにせよ、「何をやったのか」「どこに注意しているのか」が見えるだけで、使う側の判断材料になりますから。

まとめ

GPT-5.5 System Cardは、新モデルの性能紹介というより、安全性と運用上の考え方を説明する文書です。
GPT-5.5は、複雑な実務タスクをこなし、ツールを使いながら最後まで仕事を進めることを狙ったモデルであり、OpenAIは公開前にかなり本格的な安全評価を実施しています。

とくに印象的なのは、advanced cybersecurity と biology に対する重点的な red-teaming、そして約200の早期パートナーからの実利用フィードバックです。
AIが「便利」になるほど「危ない」も近づくので、こうした慎重さはむしろ当然だし、今後ますます重要になるはずです。

参考: GPT-5.5 System Card

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ