Transformerの“もたつき”を減らす新発想、CODAの正体をわかりやすく解説
CODAは、Transformerの一部処理を GEMM + epilogue という形にまとめて実行するGPU kernel abstraction ねらいは、メモリを何度も往復する無駄を減らして、実行効率を上げること 特に normalization、activation、residual update、reduction など、計算量は少ないのにデータ移動が多い処理が対象 GEMM本体の流れは固定し、epilogue側に scaling、reductions、pairwise transformations、accumulation といった小さな部品を組み合わせる設計 標準的なTransformer blockの attention以外の前向き・逆伝播のほぼ全部 をカバーできる、と論文は主張している 人手でもLLMでも書ける設計で、しかも高性能が出るのが面白いところ Transformerと聞くと、みんなまず attention を思い浮かべると思います。実際、巨大なモデルの心臓部です。でもこの論文が面白いのは、**本丸そのものよ
papoo.work