Hopper 如何通过 FP8 进行加速？

NVIDIA Hopper 架构首次发布了速度更快的低精度 AI 训练方法。Hopper Transformer Engine 能够自动分析工作负载，尽可能采用 FP8 并以 FP32 累积结果。

在进行计算密集度较低的推理工作，比如在生产中运行 AI 模型时，TensorFlow 和 PyTorch 等主要框架通过支持 8 位整数实现快速性能，因为这样就不需要使用小数点来完成工作。

好消息是，NVIDIA GPU 支

阅读全文 → 2022-12-05

NVIDIA Omniverse的应用程序近期有哪些更新？

NVIDIA Omniverse™ 最新公测版近期已发布。新版本对核心参考应用和工具进行了更新，可供开发者、创作者和想要构建元宇宙应用的新手使用。

Omniverse 平台的每一个核心组件都进行了更新，使其在跨应用协作工作流中的运行变得更加快速、方便和灵活。

借助全新 NVIDIA Ada Lovelace 架构的支持，并得益于 NVIDIA 仿真模拟技术的发展，Omniverse 全新公测版侧重于最大程度地简化“从多个第三方

阅读全文 → 2022-12-05

当前遥感科学的研究前沿是什么？补充问题：当前遥感科学的研究前沿是什么？（不是指技术开发的前端或新技术，而是遥感的研究前沿（科学前沿）。）

就目前我所接触来看：

1 多源数据融合，例如主被动数据联合反演

2 多角度遥感无人机多角度

3 激光雷达植被建模

4 三维植被辐射传输模型

5 反演理论

6 模型的改进几何光学辐射传输

7 深度学习相关去云去雾时间序列预测更新：智慧遥感，实时化。

例如用户要求做某处观测，可以快速调动相关卫星观测。遥感深度学习的目标识别，分类分割等

阅读全文 → 2022-12-02

与AI芯片（未来的具有AI算力的CPU、Arm和FPGA）相比较，有何可取之处？

关于芯片和 AI加速卡的区别，主要是应用场景的不同，比如在嵌入式相机或者前端应用里，一般可能会直接用芯片的方案。但在后端，比如在工控机里面有很多路的视频，或者很多路、很大量的图片做高效的处理时，一般是用加速卡的方式来做。

阅读全文 → 2022-12-02

深度学习液冷GPU的内存似乎不够大，如何协调这个问题？

这个问题一方面说是问题，一方面说也不是问题。因为现在GPU的内存不是很大，但是我觉得对具体案例来说，要对数据流进行优化，比如做循环时，怎么对循环的过程进行GPU的并行数据化，尽量整块进行GPU的写入。另外一个是可能不需要双精度的问题，把数据转换成单精度的来计算或者是半精度，从而节省内存。

阅读全文 → 2022-12-02

介绍下TAO里关于内存访问密集型layer的优化？

这里的优化原则就是对于访问密集型计算可以进行一定fusion，用于减少访存量。当然也没有那么简单，比如把相应的kernel结合在一起，如果底层没有Kernel支持，我们会有CUDA代理的支持类，自动产生相当于跟fuse的多样的pattern可以匹配的一个Kernel。

阅读全文 → 2022-12-02

首页上一页 118 119 120 121 122 123 124 125 126 127 下一页尾页