AIの偏り、いわゆる bias の話は、もう何年も前からずっと付きまとっている厄介な問題です。
でも今回のMITの研究は、その中でもかなり実務的で、「それ、現場で困るやつだよね」と言いたくなるタイプの改善だと思いました。
元記事が扱っているのは、AI vision model、つまり画像を見て内容を理解するAIの偏りです。
たとえば病院で、皮膚の病変画像を見て「これは危険か、そうでないか」を判断するモデルを使う場面を考えてみてください。もしそのモデルが特定の肌の色に偏っていたら、本来は見逃してはいけない患者を見落とすかもしれません。これは単なる精度の問題ではなく、かなり直接的な安全性の問題です。
ここで重要なのは、偏りの原因は訓練データだけではない、という点です。
モデルのarchitecture、つまりAIの内部構造そのものも偏りを含んだり、むしろ偏りを増幅したりすることがある。ここがややこしい。データをきれいにしても、モデルの作り方次第でまだ偏る。AIは本当に油断ならないです。
今回の論文では、既存の偏り除去法としてよく使われる projection debiasing の問題点が説明されています。
projection debiasing をざっくり言うと、モデルの内部表現から「望ましくない偏り」を投影して取り除く方法です。
たとえば、あるベクトル空間の中で偏りに対応する方向を切り出して、その成分を消すイメージです。数学的にはスマートに見えます。かなり「いかにもAIっぽい」やり方でもあります。
でも問題は、そこからです。
MITのWalter Gerych氏は、「それをやると、周りのものまで一緒にぎゅっと押しつぶしてしまう」と説明しています。
つまり、偏りだけを消したつもりでも、他の関係まで変わってしまう。その結果、別の偏りが強まることがある。これが記事でいう Whac-A-Mole dilemma です。
Whac-A-Mole、あのゲームです。
1つのモグラを叩くと、別の穴から別のモグラが出てくるやつ。まさにそれ。偏りを1つ潰すと、別の偏りが顔を出す。かなり絶妙に嫌な現象です。
MITのMarzyeh Ghassemi氏は、たとえば臨床スタッフの画像検索で人種バイアスを減らそうとした結果、今度は性別バイアスが強まる、といったことが起こりうると指摘しています。
これ、かなり現実的な話だと思います。偏り対策って、やり方を誤ると「良かれと思ってやったのに別の問題を増やした」という最悪のパターンになりがちなんですよね。
そこで登場するのが WRING、正式には Weighted Rotational DebiasING です。
名前からしてちょっと研究者の気合いを感じますが、やっていることはかなり筋がいいです。
WRINGは、モデルの高次元空間の中で、偏りの原因になっていそうな座標の向きを別の角度に回すような形で調整します。
要するに、偏りに関わる見え方だけを変えて、モデルが特定グループを区別しにくくする。その一方で、他の関係性はできるだけ壊さないようにする、という発想です。
ここが面白いところで、WRINGは「偏りをまるごと消す」よりも、「偏りにだけ効く部分を狙って回す」感じに近い。
個人的には、かなり洗練された考え方だと思います。AIの内部表現って、しばしばブラックボックス扱いされますが、その中の構造を少しずつ丁寧にいじっていく感じがあるからです。
WRINGのもう1つの強みは、post-processing approach であることです。
これは、モデルの学習が終わったあとに適用できる、という意味です。
つまり、すでに莫大なお金と計算資源をかけて学習した大規模モデルを、わざわざ最初から学習し直さなくていい。
これはかなり大きいです。現代のAIは、再学習するだけでコストが跳ね上がるので、「あとから直せる」はそれだけで強い。
Gerych氏も、今ある巨大モデルに手を入れるために再学習を強いるのは現実的ではなく、WRINGはvery efficient で minimally invasive だと説明しています。
この「最小限の侵襲」という表現、医療っぽくて面白いです。実際、医療AIの文脈で使われることを考えるとぴったりだと思います。
記事によると、研究チームはWRINGで、特定の対象概念に対する偏りを大きく減らしながら、他の領域で偏りを増やさない ことを確認したそうです。
ここが一番重要です。偏り対策は「減ったように見える」だけではダメで、副作用が少ないこと が本当に大事だからです。
この点でWRINGは、少なくとも記事の範囲では、projection debiasing の弱点にうまく対抗しているように見えます。
私はこういう「万能ではないが、実害の大きい弱点をちゃんと潰す」研究、かなり好きです。派手さはそこまでなくても、現場ではこういう改良が効くんですよね。
とはいえ、WRINGにも限界があります。
現時点では、主に CLIP のようなモデルに向いているとのことです。
CLIPは、画像とテキストを結びつけて理解する VLM (vision-language model) の一種で、検索や分類に使われます。
たとえば「loyal dogs」といった言葉で画像を探したときに、どんな犬を連想するか、といった使い方ができるわけです。
一方で、記事では ChatGPT-style の生成モデル への拡張が次のステップだと述べられています。
ここは大きな挑戦になりそうです。検索系・分類系と、文章を生成するモデルでは内部の振る舞いがかなり違うので、同じ手法をそのまま持っていくのは簡単ではないはずです。ですが、もしここまで広がるなら、WRINGの価値はかなり大きくなるのではないかと思います。
この手の研究は、単に「AIを公平にする」話ではありません。
もっと実務的には、医療・採用・検索・監視・教育 みたいな、誤りがそのまま人間への不利益になる領域で、AIを安心して使うための土台づくりです。
しかも偏りは、1つ消せば終わりではない。
むしろ消したつもりで別の偏りが育つことがある。だからこそ、Whac-A-Mole dilemma という表現はかなり本質を突いていると思います。AIの偏り対策って、たまに「正解を当てる」より「副作用を出さない」ほうが難しいんですよね。
WRINGの面白さは、そこに対して「全部を引っこ抜く」のではなく、「回転させてズレを作る」という、かなり繊細なアプローチを取っていることです。
派手ではないけれど、こういう工夫が実装面では効いてくる。MITらしい、ちゃんと地に足のついた研究だと感じました。
WRINGは、AI vision model の偏りを減らすための、かなり賢い新しい方法です。
「偏りを消したら別の偏りが増える」という厄介な問題に対して、より副作用の少ない形で対処しようとしている点がポイントです。
まだCLIP系に限られるなど課題はありますが、
“偏り除去は、ただ消せばいいわけじゃない” という当たり前だけど重要な事実を、きちんと技術で前進させた研究だと思います。
参考: Solving the “Whac-a-mole dilemma”: A smarter way to debias AI vision models