データ転送の発行順序制御によるGPUプログラムの高速化

Info

小野 和馬, 竹嶌 良, 津邑 公暁 : "データ転送の発行順序制御によるGPUプログラムの高速化", 信学技報 (SWoPP2015) ,pp85--90 (Aug. 2015) 予稿

Abstract

理論演算性能の高いGPU に汎用計算を行わせるGPGPU が注目を集めている.このようなGPU プログラミング用に,NVIDIA 社は並列計算アーキテクチャモデルとしてCUDA を提供している.CUDA では,データ並列な処理を並行実行させるハードウェアサポートに加え,処理順依存のない,異なる関数を並行実行させるサポートも備えている.しかし,関数の効率的な並行実行のためには,プログラマは関数の実行順を適切に制御しなくてはならない.この問題を緩和する手法の1 つとして,Kernel Reordering が提案されている.しかしこの手法では制御対象にデータ転送を含めておらず,関数のみの実行順序を制御するため,本来並行実行可能なデータ転送と関数とが逐次実行される可能性がある.そこで本稿では,Kernel Reordering を改良し,関数だけではなくそれに付随するデータ転送も含めて実行順序を制御する手法を提案する.