gemm 関連記事まとめ（1件）

Transformerの“もたつき”を減らす新発想、CODAの正体をわかりやすく解説

CODAは、Transformerの一部処理を GEMM + epilogue という形にまとめて実行するGPU kernel abstraction ねらいは、メモリを何度も往復する無駄を減らして、実行効率を上げること特に normalization、activation、residual update、reduction など、計算量は少ないのにデータ移動が多い処理が対象 GEMM本体の流れは固定し、epilogue側に scaling、reductions、pairwise transformations、accumulation といった小さな部品を組み合わせる設計標準的なTransformer blockの attention以外の前向き・逆伝播のほぼ全部 をカバーできる、と論文は主張している人手でもLLMでも書ける設計で、しかも高性能が出るのが面白いところ Transformerと聞くと、みんなまず attention を思い浮かべると思います。実際、巨大なモデルの心臓部です。でもこの論文が面白いのは、**本丸そのものよ

papoo.work

#gemm