今回紹介するのは、Berkeley AI Research Blogの記事
「Scaling Up Reinforcement Learning for Traffic Smoothing: A 100-AV Highway Deployment」 です。
ざっくり言うと、高速道路の渋滞を自動運転車の賢い運転で“なだらかにする” 試みの話です。
ポイントは、ただ車を自動運転化するのではなく、交通全体の流れを良くするように学習させた ところにあります。
これ、かなり面白いです。
自動運転というと「人間の代わりに安全に走る」イメージが強いですが、この研究は一歩進んでいて、**“自分だけうまく走る”のではなく、“周囲も含めて得をする走り方”を学ばせる** のが主眼です。ここが実にAIっぽいし、同時に交通工学っぽくもあります。

みなさんも高速道路で、理由もないのに急に進んだり止まったりするあの嫌な渋滞、経験があるはずです。
英語ではこれを stop-and-go waves と呼びます。日本語なら「渋滞の波」くらいが近いでしょうか。
この波が厄介なのは、最初は小さなブレーキや速度差だったものが、後ろに伝わるうちにどんどん増幅する ことです。
つまり、人間の反応遅れと微妙な加減速の連鎖が、渋滞の波を育ててしまう わけです。
記事では、こうした波が
と説明しています。
これはかなり納得感があります。個人的にも、高速道路の「意味不明な減速」は、交通のストレスの大部分を占めていると思います。事故の原因がなくても起きるのが本当に厄介なんですよね。

渋滞対策といえば、たとえば
のように、道路側の仕組みで制御する方法があります。
でもこれらは、お金がかかるし、中央集権的な管理が必要 です。
そこでこの研究が目をつけたのが AV(Autonomous Vehicle、自動運転車) です。
自動運転車が少しだけ賢く走れば、周囲の人間ドライバーの行動まで変わって、交通全体がよくなるのではないか。
この発想自体は昔からあるのですが、今回のポイントは Reinforcement Learning(強化学習) を使って、その“賢い走り方”を実際に学習させたことです。

強化学習は、ざっくり言うと
「試して、失敗して、うまくいく行動を増やす学習法」 です。
ゲームAIでよく使われる手法ですが、ここでは車の制御に使っています。
AVは、周囲の交通を見ながら、渋滞の波を弱めつつ、燃料も節約する ように学習します。
この研究では、テネシー州ナッシュビル近くの I-24 の実走行データを使って、現実に近いシミュレーションを構築しています。
ここが重要です。
AIは机上の空論だけではうまくいきません。特に交通は、ほんの少しの挙動の違いが結果を大きく変えるので、本物に近いシミュレーション がかなり大事です。
シミュレーションの中では、実際に高速道路で見られる stop-and-go wave を再現し、その後ろを走るAVがそれをどうなだめるかを学びます。

この研究のAVは、意外なほどシンプルな情報だけで動きます。
使う情報は主に次の3つです。
つまり、特別なインフラや高度な通信に頼らず、車載センサーだけで動ける設計 です。
これはかなり実用寄りです。派手な未来感は薄いかもしれませんが、実際にはこういう「地味に導入しやすい」設計のほうが強いと思います。
出力は、
のような形で、AVの挙動を決めます。

強化学習では reward(報酬) の設計が勝負です。
何を良しとするかを数式に落とし込むわけですが、ここが雑だとAIは変な抜け道を見つけます。
この研究で目指したのは、次の5つの両立です。
これ、欲張りに見えますが、実際はかなり現実的です。
というのも、交通制御は「燃費だけ良ければOK」ではないからです。あまりに不自然な運転をすると、周囲の人間ドライバーが怖がったり、逆に流れを乱したりします。
記事でも、燃料消費だけを強く最適化すると、AIが高速道路の真ん中で止まるような“妙な省エネ行動”を学んでしまう と説明されています。
これは笑い話みたいですが、強化学習では本当に起こりうる話です。AIは人間が暗黙に理解している「常識」を知らないので、目的関数に書いてないことは平気で無視します。

そこで、動的な最低・最高車間距離を入れて安全性を確保し、さらに AVの後ろを走る人間車両の燃料消費 も罰則対象にして、自己中な最適化を防いでいます。
このへんの設計は、かなり現場感があります。
シミュレーション結果はかなり印象的です。
AVは、人間ドライバーより少し大きめの車間距離を保つ傾向を学びました。
これによって、前方の急な減速を「吸収」しやすくなるわけです。バネのダンパーみたいな役割ですね。
その結果、最も混雑した条件では、
とされています。

ここは素直にすごいです。
少数派のAVが“交通の空気を整える”だけで、全員が得をする。まさにインフラ不要のソフトウェア改善です。
もし本当に普及すれば、社会的インパクトはかなり大きいのではないかと思います。
シミュレーションで良さそうなら、次は現実です。
研究チームは、学習済みのRLコントローラを 100台の車両 に載せて、I-24の朝のラッシュ時に走らせました。
この大規模実験は MegaVanderTest と呼ばれ、記事によれば これまでで最大の mixed-autonomy traffic-smoothing 実験 です。
mixed-autonomy とは、自動運転車と人間運転車が混在している状態 のことです。
実験では、いきなり路上に出したわけではなく、ちゃんと段階を踏んでいます。

この慎重さは好感が持てます。
自動運転や交通制御は、実験が面白くても安全面で雑だと一気に話が怪しくなるので、こういう多層の検証は必須です。
各車両には Raspberry Pi が接続され、そこに小さな neural network(ニューラルネット)が載っています。
そして、そのコントローラが車載の adaptive cruise control(ACC、追従型クルーズコントロール) を制御します。
ここでのACCは、下位の安全コントローラとして機能し、RLが直接むちゃくちゃなことをしないように支えています。
この「AIに全部やらせず、既存の安全機構の上に乗せる」設計は、とても現実的だと思います。
実験期間中は、高速道路沿いに設置した多数の overhead camera(上空カメラ)でデータを収集し、computer vision(画像認識)で何百万もの車両軌跡を抽出したそうです。
結果として、

という傾向が観測されました。
記事では、AVの後方に近いほど、平均燃料消費が低い ことも示されています。
つまり、自動運転車がうまく振る舞うと、その後ろの人間ドライバーまで恩恵を受けるわけです。
さらに、全車両の speed-acceleration 空間を見ると、混雑を表すクラスタがAV存在下で小さくなっていたとのこと。
ざっくり言えば、ぐちゃぐちゃした運転が少し整う ということです。
実測ベースでは、15〜20%程度のエネルギー節約の傾向 が見られたと記事は述べています。
ここは「完全に断言」ではなく、データ取得や推定が難しいことも踏まえた表現になっていて、誠実だなと思いました。現場データは理想的な実験よりずっと難しいですからね。
私がこの研究で面白いと思うのは、自動運転を“個人の便利機能”から“社会の流れを改善する装置”に拡張している 点です。

普通は、自動運転車というと
あたりが主な価値です。
でもこの研究は、少数の賢い車が、周囲の人間運転まで含めて交通全体を改善できる ことを示そうとしています。
これが実現すれば、AVの価値は「その車の持ち主だけのもの」ではなくなります。
道路は共有資源なので、こういう「周囲に良い外部効果を生むAI」はかなり相性がいいはずです。
一方で、もちろん課題もあります。記事の最後でも触れられているように、シミュレーションをさらに高速化・高度化する余地が大きい です。
また、実際の社会実装には、
など、越えるべき壁がたくさんあります。
それでも、100台規模で実走行まで持っていったのはかなり大きいです。
研究としても工学としても、「理論上いい」から「現実でも効くかもしれない」へ踏み込んだ感じがあります。

この研究が示しているのは、AIが高速道路を魔法のように空にする話ではありません。
そうではなく、渋滞の波を弱めて、無駄なブレーキと加速を減らす ことで、少しずつ全体を良くするアプローチです。
派手さはないけれど、こういう技術のほうが社会実装されると大きい。
個人的には、AIの価値は「完全自動化」よりも、こうした 見えにくい摩擦を減らすこと にこそあるのではないかと思います。
そして何より、少数の車が周囲の流れを改善できる というのは、かなり希望のある話です。
道路は全員で使うものなので、賢い車が一部でも増えれば、みんなの通勤ストレスが少し軽くなるかもしれません。
参考: Scaling Up Reinforcement Learning for Traffic Smoothing: A 100-AV Highway Deployment