Hopper 如何通过 FP8 进行加速? NVIDIA Hopper 架构首次发布了速度更快的低精度 AI 训练方法。Hopper Transformer Engine 能够自动分析工作负载,尽可能采用 FP8 并以 FP32 累积结果。 在进行计算密集度较低的推理工作,比如在生产中运行 AI 模型时,TensorFlow 和 PyTorch 等主要框架通过支持 8 位整数实现快速性能,因为这样就不需要使用小数点来完成工作。 好消息是,NVIDIA GPU 支 阅读全文 → 2022-12-05
NVIDIA Omniverse的应用程序近期有哪些更新? NVIDIA Omniverse™ 最新公测版近期已发布。新版本对核心参考应用和工具进行了更新,可供开发者、创作者和想要构建元宇宙应用的新手使用。 Omniverse 平台的每一个核心组件都进行了更新,使其在跨应用协作工作流中的运行变得更加快速、方便和灵活。 借助全新 NVIDIA Ada Lovelace 架构的支持,并得益于 NVIDIA 仿真模拟技术的发展,Omniverse 全新公测版侧重于最大程度地简化“从多个第三方 阅读全文 → 2022-12-05
当前遥感科学的研究前沿是什么?补充问题:当前遥感科学的研究前沿是什么?(不是指技术开发的前端或新技术,而是遥感的研究前沿(科学前沿)。) 就目前我所接触来看: 1 多源数据融合,例如主被动数据联合反演 2 多角度遥感 无人机多角度 3 激光雷达植被建模 4 三维植被辐射传输模型 5 反演理论 6 模型的改进 几何光学 辐射传输 7 深度学习相关 去云 去雾 时间序列 预测更新:智慧遥感,实时化。 例如用户要求做某处观测,可以快速调动相关卫星观测。遥感深度学习的目标识别,分类分割等 阅读全文 → 2022-12-02
与AI芯片(未来的具有AI算力的CPU、Arm和FPGA)相比较,有何可取之处? 关于芯片和 AI加速卡的区别,主要是应用场景的不同,比如在嵌入式相机或者前端应用里,一般可能会直接用芯片的方案。但在后端,比如在工控机里面有很多路的视频,或者很多路、很大量的图片做高效的处理时,一般是用加速卡的方式来做。 阅读全文 → 2022-12-02
深度学习液冷GPU的内存似乎不够大,如何协调这个问题? 这个问题一方面说是问题,一方面说也不是问题。因为现在GPU的内存不是很大,但是我觉得对具体案例来说,要对数据流进行优化,比如做循环时,怎么对循环的过程进行GPU的并行数据化,尽量整块进行GPU的写入。另外一个是可能不需要双精度的问题,把数据转换成单精度的来计算或者是半精度,从而节省内存。 阅读全文 → 2022-12-02
介绍下TAO里关于内存访问密集型layer的优化? 这里的优化原则就是对于访问密集型计算可以进行一定fusion,用于减少访存量。当然也没有那么简单,比如把相应的kernel结合在一起,如果底层没有Kernel支持,我们会有CUDA代理的支持类,自动产生相当于跟fuse的多样的pattern可以匹配的一个Kernel。 阅读全文 → 2022-12-02