PyTorch团队重写「分割一切」模型,比原始实现快8倍
-
Torch.compile:PyTorch 模型编译器, PyTorch 2.0 加入了一个新的函数,叫做 torch.compile (),能够通过一行代码对已有的模型进行加速; -
GPU 量化:通过降低运算精度来加速模型; -
SDPA(Scaled Dot Product Attention ):内存高效的注意力实现方式; -
半结构化 (2:4) 稀疏性:一种针对 GPU 优化的稀疏内存格式; -
Nested Tensor:Nested Tensor 把 {tensor, mask} 打包在一起,将非均匀大小的数据批处理到单个张量中,例如不同大小的图像; -
Triton 自定义操作:使用 Triton Python DSL 编写 GPU 操作,并通过自定义操作符注册轻松将其集成到 PyTorch 的各种组件中。
-
将 nn.LayerNorm 或 nn.GELU 等操作序列融合成一个单一的 GPU 内核; -
融合紧跟在矩阵乘法内核之后的操作,以减少 GPU 内核调用的数量。
(来源:机器之心)