GPUアクセラレーションされたRNN:minGRUとminLSTMのCUDA実装

2025-09-21

このブログ投稿は、カリフォルニア工科大学CS179:GPUプログラミングコースの最終プロジェクトの詳細を説明しており、Feng et al.の論文「Were RNNs All We Needed?」の主張を検証しています。このプロジェクトでは、簡略化されたminGRUとminLSTMモデル、およびカスタムCUDA並列スキャンアルゴリズムを実装しました。結果は、長いシーケンスに対してGPUによる大幅な高速化を示し、RNNの再帰を並列化できるという論文の中心的な発見を検証しています。しかし、短いシーケンスでは、CUDAカーネルの起動オーバーヘッドがパフォーマンスの向上の一部を打ち消しました。GPUカーネルのプロファイリングにより、最終的な射影層が主なボトルネックであることが明らかになり、単一のcuBLAS GEMM呼び出しによるさらなる最適化を示唆しています。

開発