論文名稱(中文):Accelerate Reed-Solomon Codes on GPUs
論文名稱(外文):應用GPGPU加速Reed-Solomon Erasure Code的編解碼
Reed-Solomon Codes是一種在cloud storage system中被廣泛使用的redundancy solution。與replication這一傳統的redundancy solution相比,它在保證系統fault tolerance的同時,又能有效降低storage overhead。然而,Reed-Solomon Codes的編解碼複雜程度高,需要消耗大量的運算時間。在這篇論文中,我們採用GPU作爲accelerator,並探討了一些利用GPU來加速Reed-Solomon Codes編解碼的技巧。我們也用CUDA完成了GPU版本的Reed-Solomon Codes的實作,並對它的performance進行evaluate。作爲比較,我們也在Intel Xeon CPU上測試我們目前所知的最佳CPU實作——Jerasure的performance,最終,我們優化後的GPU版本可以獲得14倍以上的加速比。
1 Introduction 1
2 Related Works 3
3 Background 5
3.1 Reed-Solomon Coding Mechanism . . . . . . . . . . . . . . . . . . . . 5
3.2 Brief Introduction of Galois Field . . . . . . . . . . . . . . . . . . . . 6
4 Accelerating Operations over Galois Field 8
4.1 GPU Implementation: Loop-based or Table-based? . . . . . . . . . . 8
4.1.1 Overview of the Loop-based Method . . . . . . . . . . . . . . 8
4.1.2 Overview of the Table-based Methods . . . . . . . . . . . . . . 9
4.1.3 Comparison between the Loop-based and the Log&exp Table-
based Method . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 Further Improvement of the Log&exp Table-based Method . . . . . . 13
5 Accelerating Matrix Multiplication 17
5.1 Square-Tiling Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Generalized Tiling Algorithm . . . . . . . . . . . . . . . . . . . . . . 19
5.3 Further Improvement of Tiling Algorithm . . . . . . . . . . . . . . . . 21
6 Accelerating Decoding Matrix Generation 23
7 Reducing Data Transfer Overhead 26
7.1 Using Pinned Host Memory . . . . . . . . . . . . . . . . . . . . . . . 26
7.2 Using CUDA Streaming . . . . . . . . . . . . . . . . . . . . . . . . . 28
8 Experiment 31
8.1 Experiment Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8.2 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8.3 Overall Performance Evaluation . . . . . . . . . . . . . . . . . . . . . 32
8.3.1 Step-by-step Improvement . . . . . . . . . . . . . . . . . . . . 33
8.3.2 GPU vs. CPU . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
8.4 Accelerating Operations over Galois Field . . . . . . . . . . . . . . . 34
8.4.1 GPU Implementation: Loop-based or Table-based? . . . . . . 34
8.4.2 Further Improvement of the Log&exp Table-based Method . . 35
8.5 Accelerating Matrix Multiplication . . . . . . . . . . . . . . . . . . . 36
8.6 Reducing Data Transfer Overhead . . . . . . . . . . . . . . . . . . . . 39
8.6.1 Using Pinned Host Memory . . . . . . . . . . . . . . . . . . . 39
8.6.2 Using CUDA Streaming . . . . . . . . . . . . . . . . . . . . . 40
9 Conclusion 42
