世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-04

Stanford CS336「Language Modeling from Scratch」紹介：LLMを“最初から作る”授業が本気すぎる

キーポイント

StanfordのCS336は、language modelをゼロから作ることを軸にした春学期の授業です。
ただ使い方を学ぶのではなく、データ収集・Transformer構築・学習・評価・配備前の検証まで一通りやるのが特徴です。
5-unitでかなり重め。Python力、PyTorch、deep learning、systemsの基礎が強く求められます。
課題は5本あり、Basics / Systems / Scaling / Data / Alignment and Reasoning RL と、かなり実戦的です。
2人の教員は Tatsunori Hashimoto 氏と Percy Liang 氏。内容の濃さからして、かなり本気の設計だと感じます。

「Language Modeling from Scratch」って、何がそんなに特別なの？

Stanford CS336は、タイトル通りlanguage modeling from scratch、つまり「言語モデルを最初から作る」ことに挑む授業です。

ここでいう language model は、ChatGPTのような文章を理解・生成するAIの土台です。
最近はAIサービスとして触る機会が増えましたが、実際にその中身がどう作られているかをちゃんと追う機会は意外と少ない。CS336はそこを、かなり真正面から攻めています。

元記事の説明によると、この授業では

pre-training のためのデータ収集とクリーニング
Transformer モデルの構築
training
evaluation
実運用前の検証

まで、モデル開発の一連の流れを学生自身に体験させる設計です。

個人的には、ここがかなり面白いと思いました。
AIの授業というと「既存モデルを使ってアプリを作る」方向に寄りがちですが、この授業は逆で、**“そもそも中身はどう動いてるの？”をやり切る**タイプです。
OSの授業で「OSを作る」みたいなノリ、という説明がまさにしっくりきます。

どんな人向けの授業なのか

はっきり言うと、やさしい入門コースではありません。
前提知識としてかなり多くのことが求められています。

必須に近い前提

Pythonに習熟していること
deep learning と systems optimization の経験
PyTorch に慣れていること
memory hierarchy などの基本的な systems 概念
線形代数・微積分
確率・統計
machine learning の基礎

さらに、授業は5-unitで、しかも「implementation-heavy」、つまり実装量がかなり多いと明記されています。
元記事でも「他のAI授業より書くコード量は少なくとも桁違い」と言っていて、ここはかなり覚悟が必要そうです。

正直、この手の授業は「内容が面白い」だけでは乗り切れません。
体力、時間管理、デバッグ力がかなり重要だと思います。
逆に言えば、本気でやれば「モデルがどう作られ、どう速くなり、どう伸びるか」をかなり深く理解できそうです。

授業の構成：課題がそのまま“LLM開発の工程表”になっている

CS336の課題は5つあり、それぞれが language model 開発の異なる局面に対応しています。
この設計がとてもきれいです。単なる宿題の寄せ集めではなく、ひとつの大きな開発プロジェクトを分割したような構成になっています。

Assignment 1: Basics

tokenizer
model architecture
optimizer

など、標準的な Transformer language model を訓練するための基本部品を実装します。
まず土台を自分の手で作るところから始まるのがいいですね。
便利なライブラリに隠れて見えにくい部分を、ちゃんと見せる意図があるのだと思います。

Assignment 2: Systems

ここはかなり“攻め”ています。

profiling / benchmarking
advanced tools を使った分析
Triton を使って FlashAttention2 を自作実装
memory-efficient で distributed な training code を構築

要するに、速く・大きく・効率よく動かすための課題です。
AIの性能はモデルの賢さだけでなく、GPUでどう回すかに大きく左右されます。
この授業が systems を重視しているのは、今のAI開発の現実をかなり正しく反映していると思います。

Assignment 3: Scaling

model initialization
weight / activation dynamics
Transformer 各部品の役割理解
training API を使った scaling law の推定

ここでは、モデルをただ作るだけでなく、なぜ大きくすると伸びるのか、どこで挙動が変わるのかを考えます。
scaling law というのは、雑に言えば「モデルの大きさやデータ量を増やすと性能がどう変わるか」の法則です。
このあたりは、現代AIの“成長戦略”そのものなので、かなり重要です。

Assignment 4: Data

Common Crawl の raw dump を pretraining data に変換
filtering
deduplication

つまり、データをきれいにして、使える形にする課題です。
AIってモデルの話ばかり注目されがちですが、実際にはデータの質がめちゃくちゃ大事です。
ここを授業で真正面から扱うのは、すごく健全だと思います。

Assignment 5: Alignment and Reasoning RL

supervised finetuning
reinforcement learning
数学問題を解く reasoning を学習
optional で DPO などの safety alignment

最後は、モデルを単に文章生成するだけでなく、人間の意図に合わせる、あるいは安全に整える方向へ進みます。
LLMの世界では「強くする」だけでは終わらず、どう振る舞わせるかが本当に重要です。
ここまで含めているのは、今のAI研究・開発の潮流をかなりよく捉えているな、と思います。

講義スケジュールもかなり濃い

講義は Monday/Wednesday 3:00-4:20pm、場所は Skilling Auditorium。
録画は YouTube playlist で見られます。

スケジュールを見ると、内容はかなり広くて、

tokenization
PyTorch
resource accounting（FLOPs、memory、arithmetic intensity）
architectures
attention alternatives
mixture of experts
GPUs / TPUs
kernels / Triton
parallelism
scaling laws
inference
evaluation
data sources / datasets
filtering / deduplication / mixing / synthetic data
SFT / RLHF
RLVR
multimodality

まで扱っています。

ざっくり言うと、
「モデルを作る」→「速く動かす」→「大きくする」→「データを整える」→「人に合わせる」
という流れになっていて、授業全体の設計思想がかなり一貫しています。

個人的には、講義タイトルだけでもお腹いっぱいです。
でも、この詰め込み感は嫌いじゃないです。むしろ、本気でLLMを理解したい人にはかなり魅力的ではないでしょうか。

実装中心だからこそ、GPU環境の案内まである

元記事では、自習用に使えるGPU computeの選択肢まで案内されています。
Modal、Lambda Labs、RunPod、Nebius、Together などが挙がっていて、B200 GPU の参考価格も載っています。

これはつまり、授業が「ローカルPCだけでは無理」になりやすいことの裏返しです。
特に Assignment 2、4、5 あたりは、GPUを使った実験がかなり重要そうです。

ただ、面白いのは「まず CPU で正しさを確認してから GPU に行くのがおすすめ」と書かれている点です。
この助言は地味ですが超重要。
速さを追う前に、まず正しく動くか確認する。これは実装系の授業でも現場でも鉄則です。

Honor Code もかなり厳格

Stanfordらしく、Honor Code の記述も明確です。

study group はOK
ただし各自が自分の課題を理解して提出すること
AI tools は、低レベルなプログラミング質問や高レベル概念の質問には使えるが、問題を直接解く用途は禁止
IDE の AI autocomplete も、できれば切ることを推奨
既存コードを見ないこと

このあたりは、かなりストイックです。
最近はAI補助が便利すぎるので、学習体験が薄まりやすい。
その意味で、CS336は「楽に終わらせる」より、深く理解することを優先しているのが伝わってきます。
私はこの方針、わりと筋が通っていると思います。学ぶべき中身が非常に多い授業だからです。

この授業の何がそんなに価値あるのか

CS336の価値は、単に「難しい」ことではありません。
むしろ、LLMを支える複数の要素を、ひとつの流れとしてつかめる点にあると思います。

普通は、

NLPの授業では model の概念
systems の授業では speed や memory
data の話は別
alignment はさらに別

と分かれがちです。
でも実際の language model 開発では、これらは全部つながっています。
データが悪いと学習が崩れるし、実装が遅いと大規模実験が回らないし、alignment を無視すると使いにくい。
CS336は、その全部を一本のストーリーにまとめているのが強みです。

だからこの授業は、単なる「AIの知識」を増やすというより、
“LLMを作るとはどういう仕事なのか” を身体で理解する授業
と言ったほうが近いかもしれません。

まとめ

Stanford CS336「Language Modeling from Scratch」は、名前の通りlanguage model を一から作ることに徹底的にフォーカスした授業です。
tokenizer、Transformer、training、data pipeline、systems optimization、scaling law、alignment までを、課題と講義で一気通貫に学べる構成になっています。

正直、かなりハードそうです。
でも、そのぶん得られる理解は相当深いはずです。
LLMの仕組みを「使う側」から一歩進めて、「作る側」の視点で知りたい人には、かなり魅力的な授業だと思います。