Block Sparse Attention 研究总结
本人近半年来对Block Sparse Attention(块稀疏注意力)的研究总结(持续更新中)。按时间顺序,主要分为如下三部分:
- PyTorch 自定义 CUDA 算子——以矩阵乘法为例
- 基于 Triton 的 Block Sparse Attention 及踩过的坑
- PyTorch 自定义基于 CUDA 的 Block Sparse Attention 算子
环境
- Ubuntu 20.04
- CUDA 11.3
- PyTorch 1.10.0+cu113
- Triton 1.1.1