如何利用 PYTHON 进行 GPU 加速计算？

在架构方面，CPU 仅由几个具有大缓存内存的核心组成，一次只可以处理几个软件线程。相比之下，GPU 由数百个核心组成，可以同时处理数千个线程。

NumPy 已成为在 Python 中实现多维数据通信的实际方法。然而，对于多核 GPU，这种实施并非最佳。因此，对于较新的针对 GPU 优化的库实施 Numpy 数组或与 Numpy 数组进行互操作。

NVIDIA® CUDA® 是 NVIDIA 专为 GPU 通用计算开发的并行计算平台和编程模型。CUDA 数组接口是描述 GPU 数组（张量）的标准格式，允许在不同的库之间共享 GPU 数组，而无需复制或转换数据。CUDA 数组由 Numba、CuPy、MXNet 和 PyTorch 提供支持。

CuPy 是一个利用 GPU 库在 NVIDIA GPU 上实施 NumPy CUDA 数组的库。

Numba 是一个 Python 编译器，可以编译 Python 代码，以在支持 CUDA 的 GPU 上执行。Numba 直接支持 NumPy 数组。

Apache MXNet 是一个灵活高效的深度学习库。可以使用它的 NDArray 将模型的输入和输出表示和操作为多维数组。NDArray 类似于 NumPy 的 ndarray，但它们可以在 GPU 上运行，以加速计算。

PyTorch 是一种开源深度学习框架，以出色的灵活性和易用性著称。Pytorch Tensors 与 NumPy 的 ndarray 类似，但它们可以在 GPU 上运行，加速计算。