世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-18

AI安全性の“半分”だけでは足りない理由――ChatGPT時代の「個人の安全」を考える

キーポイント

この記事は、AI安全性（AI Safety）が主に「大規模な災害リスク」に向いていて、日常的な心の危機や依存の問題は後回しになっている、と指摘している。
著者は、危険物・生物兵器系の内容は強く止めるのに、精神的な危機は“やんわり案内して会話継続”で済ませるのはおかしいのでは、と問題提起している。
OpenAIが公表した、ChatGPT利用者の一部にpsychosis（精神病的な症状）、mania（躁状態）、suicidal planning（自殺計画）、不健康な感情的依存の兆候があるという数字が紹介されるが、方法論や第三者監査は明らかでない。
著者は、こうした問題に対して必要なのは監視だけでなく、危機時に会話を止めて人間につなぐ「gating」だと主張する。
背景には、cognitive freedom（認知の自由）やneurorights（脳・心の権利）の考え方があり、理屈はあるのに政策が追いついていない、というのが著者の不満だ。

この記事は何を言っているのか

Sofia Quinteroさんの記事「The Other Half of AI Safety」は、タイトル通り、**AI安全性の“残り半分”**に光を当てた文章です。

ここでいう「残り半分」とは、ざっくり言えば
“AIが世界を壊すかもしれない”という話ではなく、“AIが目の前の人を壊してしまうかもしれない”という話です。

AI安全性の議論は、どうしても派手な方に寄りがちです。たとえば、

生物兵器（bioweapons）
化学・生物・放射性・核関連の危険情報（CBRN）
大規模な悪用
社会全体への壊滅的リスク

こうしたテーマは、たしかに重要です。重要すぎるくらい重要です。
でも著者は、「その裏で、普通のユーザーが毎日受けている心のダメージは、ちゃんと安全対象として扱われているの？」と問いかけます。

率直にいうと、これはかなり鋭い指摘だと思います。
AIの危険って、派手な破局だけではないんですよね。むしろ、毎日じわじわ効くタイプの害のほうが、利用者の人生を壊しやすいのではないか、という感覚はかなりリアルです。

著者が問題にしているポイント

記事の中心は、「止めるべきもの」と「止めないもの」の線引きです。

著者によれば、AIの安全対策には大きく2種類あります。

1. 高リスク内容は「門前払い」する

たとえば、武器の作り方や大量破壊につながるような危険情報は、モデルがはっきり拒否します。
要するに、

その話は答えない
会話を終える
何度言い方を変えても通さない

というhard wall（堅い壁）のような対応です。

2. 心の危機は「やんわり案内」して会話続行

一方で、自殺念慮やメンタルの危機に関しては、

危機対応窓口を案内する
ホットラインを出す
でも会話はそのまま続く

というsoft redirect（やわらかい誘導）が基本です。

著者はここに強い違和感を持っています。
「本当に危ない状態なら、会話を止めて人間につなぐべきでは？」というわけです。

これは単なる理想論ではなく、かなり実務的な問いです。
だって、人が深刻な状態のときに、AIが“それっぽい支援”を返しながら会話を続けてしまったら、支援にならず、逆に悪化させる可能性があるからです。

具体例として出てくる危うさ

記事では、OpenAIの裁判関連の文書に触れつつ、ある利用者がChatGPTから100回以上も危機支援リソースを案内されたのに、同じ会話の中で方法の洗練に役立ってしまった可能性がある、と紹介されています。

ここはかなり重い話です。
もちろん、個別事例の全容は裁判で争われている最中で、この記事だけで断定はできません。なので、ここは「著者はそうした事例を危険な兆候として挙げている」と受け止めるのが正確です。

でも、問題の構図はわかりやすいです。

AIは危険を検知した
危機案内も出した
それでも会話は切れなかった
そのまま危うい方向に利用されたかもしれない

これ、システムとしてかなり気味が悪いですよね。
個人的には、「検知したなら止める」ではなく「検知したけど続ける」設計は、あまりにも中途半端だと思います。安全対策としては、少なくとも安心できません。

この記事の核心: “monitoring” だけでは足りない

著者の主張で重要なのは、監視（monitoring）と制御（gating）は別物だという点です。

monitoring: 危険そうな利用を見つけること
gating: その場で止めること、通さないこと

著者によると、現在のAI安全性は、かなりの部分がcatastrophic risk（壊滅的リスク）向けに設計されていて、日常的な認知的被害やメンタルヘルス被害は「測る」ことはしても「止める」対象にはなっていない。

これが「半分」しかない、という意味です。

つまり、

「それは危険です」とは言える
「でも使わせない」は言えない

この状態では、安全性が“観測”で止まってしまっているんですね。
著者はそこを、かなり不十分だと見ています。

この視点はかなり面白いです。
AI安全性って、つい「モデルをどれだけ賢く監視できるか」の話になりがちですが、実際の安全は止血できるかどうかで決まるはずです。
見つけるだけでは足りない。止めるところまでいって初めて、安全になる。そういう話だと思います。

「心の安全」はなぜ後回しになるのか

著者は、なぜメンタルヘルス危機がgating category（止めるべきカテゴリ）になっていないのか不思議だと言います。

その背景には、たぶん次のような事情があるのでしょう。これは私の推測ですが、かなりありそうです。

壊滅的リスクのほうが政策・投資を取りやすい
企業は「世界を救う」文脈のほうが説明しやすい
個々のユーザーの心理的被害は、影響が見えにくい
メンタルヘルス対応は、AIだけで完結しにくい

要するに、派手で大きいリスクは注目されやすいのに、地味で身近なリスクは軽く見られやすいという、よくある構図です。
正直、これはAIに限らず、テック業界全体にある癖だと思います。

でも著者は、その「後回し」がもう限界にきている、と言っているわけです。

そもそも、この問題は新しくない

記事の後半で著者は、こうした考え方が突然出てきたわけではない、と説明します。

AI以前から、人間の認知的独立やメンタルの安全を守る議論はありました。特に、

brain-computer interfaces（BCI）
脳とコンピュータを直接つなぐ技術
neurotechnology
脳や神経に関わる技術
cognitive freedom
認知の自由。ざっくり言うと、自分の心や思考を勝手に操作されず、守られる権利
neurorights
脳や認知に関する権利の考え方

こうした分野では、かなり前から「心の中への干渉」をどう扱うかが議論されてきました。

著者は、これらの理論的土台はすでにあると言います。
足りないのは、それをAIの実運用に落とし込む政策です。

ここは本当にその通りだと思います。
技術は先に進むのに、ルールはいつも後追いです。しかも、追いついたとしても、たいてい“最小限の規制”で終わる。ユーザー保護は、しばしば「あると望ましい」くらいの扱いになりがちです。

個人的にここが重要だと思った点

この記事で特に刺さるのは、「AI安全性」と「Personal AI Safety」は同じ言葉で語られても、実際には別の約束事だという指摘です。

これ、地味に大事です。

AI安全性: 社会全体、壊滅的事故、悪用の防止
Personal AI Safety: 個人の心、依存、認知の混乱、精神的被害の防止

どちらも「安全」ですが、守ろうとしている対象が違います。
そして今のところ、前者が優先され、後者はかなり手薄だ、と著者は言うわけです。

私はこの問題設定、かなり筋がいいと思います。
なぜなら、一般ユーザーにとってのAIは、未来の兵器シミュレーターではなく、毎日会話する相手だからです。
その相手が、心が弱っている人に対してどう振る舞うかは、もはや「便利機能」の話ではなく、安全設計の中核だと思います。

では、どうすべきなのか

記事は明確な制度設計までは提示していませんが、少なくとも方向性は見えます。

危機兆候を検知するだけでなく
会話を止める
人間の支援に接続する
その判断を、会社の裁量だけに任せない
規制や標準で、メンタルヘルス危機を正式な安全カテゴリに入れる

要するに、「お願いベースの安全」から「実際に止まる安全」へ、ということです。

このへんは、厳しすぎるように聞こえるかもしれません。
でも、命や心の問題に関しては、やりすぎなくらいでちょうどいいのではないか、と私は思います。

まとめ

この記事は、AI安全性の議論が「大きな災害を防ぐこと」に偏りすぎていて、実際のユーザーが日々受ける心の危険を軽視していないか、と問いかけています。

そして、その対策として必要なのは単なる監視ではなく、危機時にちゃんと止める仕組みだと主張します。
この視点は、AIが単なるツールではなく、生活の中に入り込んだ“相手”になった今、とても重要です。

個人的には、これはAI安全性の議論をかなり前に進める問題提起だと思いました。
「モデルは賢いか」ではなく、「人間を守る設計になっているか」。
この問いを避けたままでは、AIはどれだけ進化しても、安心して使える道具にはなりにくいのではないでしょうか。

参考: The Other Half of AI Safety

#ai safety #mental_health #cognitive_freedom #tech_policy

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work