世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-21

jankが独自IRを手に入れた話：Clojure風言語を本気で速くするための土台づくり

キーポイント

jank が 独自の custom IR（中間表現） を導入した
これまでの LLVM IR では、Clojure 的な意味をうまく表せず最適化しづらかった
新しい IR は Clojure の semantics に寄せた高レベル設計 で、最適化の余地を増やす狙いがある
IR は SSA形式 と CFG（制御フローグラフ） で表現され、解析しやすい
まずは recursive fibonacci をベンチマークに、jank を JVM 版 Clojure に近づける作戦
この記事時点ではまだ最適化パスは本格稼働していないが、土台は整った

まず何が起きたのか

Clojure系の言語を作っている jank が、自前の IR（Intermediate Representation / 中間表現） を持つようになった、というのがこの記事の主題です。

IRというのは、ざっくり言うと「ソースコードをそのまま機械語にする前に、一度コンパイラが扱いやすい形に変換したもの」です。
ちょっと難しく聞こえますが、要するに 翻訳の途中にある“整理された下書き” みたいなものだと思えばだいぶイメージしやすいです。

作者の Jeaye Wilkerson 氏は、これまで jank の最適化の多くを LLVM に任せていたけれど、LLVM IR は低レベルすぎて Clojure の本質を表しきれない、と説明しています。
ここ、かなり重要です。Clojure には var、transient、persistent data structures、lazy sequences など、独特の仕組みがたくさんあります。でも LLVM は CPU にかなり近い世界の表現なので、そういう言語固有の意味を見抜いて「ここは削れる」「ここはまとめられる」と判断するのが苦手なんですね。

個人的には、ここはすごく筋のいい判断だと思います。
「汎用の最適化器に全部おまかせ」ではなく、「言語の性格に合わせた形で途中表現を設計し直す」 方向は、速くしたい言語処理系ではかなり強いからです。

IRって何がうれしいの？

記事では IR のメリットを大きく3つ挙げています。

複数のCPU向けに変換しやすい
x86_64 や arm64 など、最後に落とす先を変えやすくなる。
最適化しやすい
SSA形式みたいに、変数への代入が1回だけになる表現だと、値の追跡がしやすくなる。
言語の意味に合わせて設計できる
汎用IRではなく、jank専用に作れば、jankの強みをそのまま最適化の材料にできる。

この「言語専用にする」というのが今回の肝です。
一般論としては汎用性が高い設計のほうが再利用しやすいですが、速さを狙うなら、わざわざ一般化しないほうが強い ことはよくあります。jank はまさにその道を選んだわけです。

どういうIRなのか

記事では、次のようなシンプルな関数を例にしています。

(defn greet [name]
  (if (= "jeaye" name)
    (println "Are you me?!")
    (println (str "Hello, " name "!"))))

これを jank の IR にすると、関数名、lift された var、定数、ブロック、命令列がはっきり分かれた形になります。
ここでのポイントは、IR が Clojureの「意味」に近い単位 で表されていることです。

たとえば：

var-deref は「var の参照を取り出す」
dynamic-call は「動的に関数を呼ぶ」
branch は条件分岐
ret は return

みたいに、Clojureっぽい動作がちゃんと IR に出てきます。
これが LLVM IR だと、もっと機械寄りの、抽象度の低い表現になってしまいます。そこでは「これは println の呼び出しだ」といった文脈が見えにくい。最適化のしやすさが全然違う、というわけです。

SSAとCFGって何？

ここは専門用語ですが、かなり大事なので簡単に説明します。

SSA形式

SSA（Single Static Assignment） は、1つの変数に1回しか代入しない 形式です。
同じ名前に何度も値を入れ直さないので、「この値はどこから来たのか」を追いやすくなります。

これはコンパイラにとってかなりありがたいです。
値の流れが明快になるので、不要な計算の削除や、同じ値の再利用などがやりやすくなります。

CFG

CFG（Control Flow Graph） は、プログラムの流れを ブロックごとにグラフとして表したもの です。
1つの基本ブロックの最後には、branch や jump、ret のような終端命令が1つだけある、という構造になっています。

要するに、コードを「上から順に読む文章」ではなく、分岐や合流が見える地図 として扱えるようにする仕組みです。
これも最適化にはめちゃくちゃ便利です。

実際のコード生成はどうなった？

記事では、IR から生成された C++ の例も載っています。
見てわかるのは、IR の変数名と C++ 側の変数名が対応していて、var-deref が ->deref() になり、dynamic_call が jank::runtime::dynamic_call になるなど、かなり素直に変換されていることです。

これ、地味だけどすごく大事です。
なぜなら、IR と生成コードの対応が素直だと、デバッグもしやすいし、あとから最適化パスを挟むのもやりやすい からです。コンパイラ開発では、こういう「見通しのよさ」が最終的に大きな差になります。

まだ最適化は本番ではない。でも、ここからが本番

面白いのは、この記事の時点では まだ IR 上の最適化パスは走っていない ことです。
それでも作者は、まずは「IR パイプラインを main にマージする」ことを優先した、と書いています。

これはかなり現実的な判断だと思います。
コンパイラ開発って、理想を追いすぎるといつまでも完成しません。まず土台を入れて、そこからベンチマークを1つずつ潰していくほうが、結局は前に進みます。

作者は今後、ベンチマークを1つ選んで、それを速くするための最適化を積み上げる という方針を取るようです。
このやり方はかなりわかりやすいですし、何より成果が見えやすい。私は好きです。

最初のターゲットは recursive fibonacci

最初のベンチマークは、あの定番の 再帰的 fibonacci です。

(defn fibonacci [n]
  (if (<= n 1)
    n
    (+ (fibonacci (- n 1))
       (fibonacci (- n 2)))))

fibonacci は「お約束すぎる」ベンチマークに見えるかもしれません。
でも作者は、これが単純な見せ物ではなく、いくつもの重要な要素を含んでいると説明しています。

数値演算と比較
多くのプログラムは数値を扱うので、ここが遅いと困る。
再帰
Lisp 系では再帰がよく出てくる。効率よく扱えるかは重要。
ガベージ生成とGC
ゴミをたくさん出すと回収コストが増える。できるだけ無駄を減らしたい。
ランタイムの邪魔を減らすこと
計算したいだけなのに、プロファイラに余計なものがたくさん映るのは困る。

この4点、かなり本質的だと思います。
ベンチマークというと「単なる数字遊び」に見えがちですが、実際には 言語実装の弱点を炙り出すレンズ なんですよね。

ベースラインは JVM 版 Clojure

記事では、まず JVM 版 Clojure を基準にしています。
環境は、5年前の x86_64 デスクトップ、AMD Ryzen Threadripper 2950X、NixOS、OpenJDK 21。
fibonacci 35 はおよそ 200ms とのこと。

ここで面白いのが、作者が当初 lein repl で計測したら 2800ms 近く出てしまった、という話です。
これは lein repl が JVM の最適化に影響するらしく、ベンチマーク環境の違いがものすごく大きいことを示しています。

この手の話は本当に油断できません。
ベンチマークはコードだけでなく、起動方法や実行環境でも大きく変わる。だからこそ、比較条件を揃えるのが大事なんですね。

jank はここからどう速くなるのか

この記事の段階では、まだ「IRを作った」段階で、肝心の最適化パスはこれからです。
ただ、作者の狙いはかなり明確です。

まず IR を整える
次にベンチマークを1つ選ぶ
そのコードに必要な最適化を入れる
それを繰り返して JVM 版 Clojure に追いつく、できれば超える

この進め方は地味ですが、かなり強いです。
一気に全部を賢くしようとするより、測れるものを1個ずつ改善する ほうが、コンパイラ開発では成功しやすいと思います。

個人的な感想

私はこの一手、かなり好きです。
「jank が速くなるぞ」という話以上に、**“言語の意味に近い層で最適化できるようにする”** という設計思想が面白い。

LLVM はすごいですが、万能ではありません。
特に動的言語や Lisp 系のように、実行時の意味が重要な言語では、低レベルに落としすぎると見えるはずのものが見えなくなります。
だからこそ、jank のように 自分たちの言語にぴったり合う中間表現を持つ のは、かなり本気の戦略だと感じます。

もちろん、IRを自前で持つと開発コストは上がります。
互換性も安定性も、汎用IRを使う場合より大変になるでしょう。けれど、その代わりに得られる最適化の自由度は大きい。この記事は、そのトレードオフをちゃんと受け入れて前に進んでいる感じがして、読んでいて気持ちよかったです。

まとめ

jank は、Clojure風の言語として速さを本気で狙うために、独自の IR を導入しました。
LLVM に任せきりにせず、Clojure の意味に近い形でプログラムを表現することで、これまで見えなかった最適化のチャンスを掘り起こそうとしているわけです。

まだ最適化はこれからですが、土台はかなり整ってきた印象です。
recursive fibonacci を皮切りに、jank が JVM 版 Clojure にどこまで迫るのか、続きが楽しみな展開だと思います。

参考: jank now has its own custom IR

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work