ふつう、AIを意思決定に使うと聞くと「AIが答えを出して、人間がそれを信じる」というイメージを持つ人が多いと思います。
でも今回のコーネル大学の研究は、ちょっと発想が逆です。
このツールは、AIが人間の判断を採点するというより、人間の判断に矛盾がないかを点検するためのものです。
たとえば、就職候補者の比較、大学院の選択、映画賞の候補の順位づけのように、単純な「良い・悪い」では決めにくい場面で使うことを想定しています。
個人的には、ここがかなりおもしろいと思いました。
AIが人を置き換えるのではなく、人間の考えを整理するための鏡みたいに働くわけです。これは、AIの使い方としてかなり健全ではないかと思います。
記事の出発点は、実はとても身近です。
研究の中心人物である Abe Davis 助教授は、毎年たくさんの創作課題を採点するなかで、「評価基準があっても、人によってブレる」という問題に直面したそうです。
これ、めちゃくちゃわかります。
採点や評価って、表向きは公平そうに見えても、実際には

で結果がかなり変わります。
人間は、複数の候補を直接比較するときは意外と安定した判断がしやすい。
でも、1〜10点でそれぞれを絶対評価しろと言われると、急にあやふやになる。これは日常感覚としてもすごく納得できます。
「Aの方がBより明らかに良い」は言えても、「Aは7.3点、Bは7.1点」と言われると、正直そこまで自信ないですよね。
このシステムの流れは、かなりシンプルです。
たとえば車を選ぶ場面を考えます。
ここで大事なのは、AIが「正解」を勝手に決めるのではなく、矛盾を見つけて人間に再考を促す点です。
たとえば「価格が一番大事」と言っていたのに、実際の選択では高価な車ばかり選んでいたら、AIがそれを指摘する。
その結果、ユーザーは
ことになります。
この「言語化させる」プロセスが重要だと思います。
人は、なんとなくの好みや感情で選ぶことが多いですが、重要な判断ではそれだと危ない。AIがそこを突っついてくるのは、ちょっと耳が痛いけれど、たしかに役立ちそうです。

研究者たちは、このツールが一貫性と偏りの両方に関わると説明しています。
たとえば、本人は「性能重視」と思っていたのに、実際には赤い車をつい選んでいる。
この場合、本人が気づいていない好みが判断に混ざっている可能性があります。
ツールは、そうしたズレを見せてくれるので、ユーザーは
「いや、やっぱり色も大事だった」
と認めて基準に追加したり、
「それはただの思い込みだった」
と修正したりできます。
このあたり、かなり興味深いです。
人間の判断って、理屈だけでは動いていないので、こういうツールは「あなた、本当は何を大事にしているの?」と静かに聞いてくる感じがある。ちょっと心理カウンセリングっぽさすらあります。
重要なのは、このツールはAI機能をオフにもできることです。
記事では、AIを使うのが適切でない敏感な場面では無効化できるとしています。
これはかなり大事な設計だと思います。
「AIが便利だから全部任せる」ではなく、AIを使う範囲を人間がコントロールできるようにしている。
意思決定支援ツールとしては、ここを外すと一気に危うくなります。
研究チームは2つのケーススタディでテストしました。
4人の参加者に短編映画を並べてもらったところ、ツールを使うことで、
「なんとなく好き・嫌い」から
「具体的な基準に基づく評価」
へ考え方が移ったと報告されています。
別の実験では、4人の teaching assistant(TA)が、以前のコンピュータグラフィックス授業の学生課題10件を順位づけしました。
その結果は学生の成績と一致し、さらに4人のTAの間でもかなり高い一致が見られたそうです。
つまりこのツールは、単に「それっぽく見える」だけではなく、再現性のある評価にもつながりそうだ、ということです。
評価の世界では、ここがすごく大きい。人によって結論がブレないのは、地味だけど超重要です。
私が面白いと思ったのは、AIが「答えを出す」よりも、「人間の考えの穴を見つける」役になっている点です。
世の中のAI議論って、どうしても
でも実際は、こういう思考の補助輪として使う方が、ずっと現実的で、しかも人間にも優しいのではないかと思います。
特に、採点、採用、推薦、選考、審査のような「説明責任が必要な判断」では相性が良さそうです。
もちろん、AIが偏りを見つけるからといって、それ自体が完全に公平とは限りません。
どの基準をどう設定するかで結果は変わるはずですし、AIが質問する順番によっても人間の答えは影響を受けるかもしれません。
なので、万能ツールと見るのは危険です。
ただ、それでも「人間の曖昧さを減らす補助」としては、かなり筋がいいと感じます。
研究者の Davis 氏は、今の授業でもこのツールを使っているそうですが、AIはオフにしているとのこと。
つまり、現場では「完全自動化」ではなく、あくまで判断を支える仕組みとして使っているわけです。
記事の最後でも、これは
高いリスクがある判断
つまり、失敗したときの代償が大きい場面に向いているとされています。
たしかに、そういう場面では「とりあえず印象で決める」より、
を丁寧に確認する価値があります。
そう考えると、このツールは「AIに決めさせる装置」というより、人間の判断をちゃんと人間らしくする装置なのかもしれません。
参考: Humans are bad at making complex decisions. AI can call them out