卷积神经GAN网络中生成器和判别器是不是必须是相似的网络结构?如果结构不相似,需要做那些改变才能让GAN网络正常的博弈。 生成器和判别器的结构可以不一样,生成器在于生成数据,判别器在于给出真假判断,无需要一样或者相似的结构。涉及到正常的博弈,Ian Goodfellow在14年提出GAN的模型时,其实是优化的JS-divergence,不过后来提出的W-GAN优化Wasserstein distance。这样在生成分布和真是分布manifold不重合的时候照样还有梯度,照样可以让生成器可以优化。 阅读全文 → 2022-10-10
GPU以及建立在GPU基础上的人工智能算法,其应用对象往往是具体的数值;但是如果问题对象是一些符号,是否有有效的算法可以解决问题?(比如中学里面的因式分解问题等) 在符号计算尤其是公式推导里,GPU已经用的很好了。比如说在物理学或者用的比较多的Mathematica,不仅能推导因式分解,包括矩阵运算,矢量运算都有,并且也提供了各种各样的类似于软件包的形式,支持GPU的加速。如果是从符号运算上来讲,我自己的经验是计算量不是很大。反而是遇到一些在符号运算解决不了的时候,如数字求解过程中需要花费的时间是比较长的,而这些过程尤其是像微分过程、矩阵求解和线性代数的求解是可以通过GPU来进行加速的。 阅读全文 → 2022-10-09
深度学习高性能GPU的加速和编程用到了哪些物理原理,现在的理论瓶颈有哪些?技术突破点在哪里? GPU相对CPU来讲,编程优势还是很明显的,第一架构效果特别明显,第二成本比较低,并且现在国内与国际应用生态已经很丰富了,不管GPU各类的数学库,还是各类开源的软件包,以及商业包来讲,生态已经做的很好。不足的地方是设计上的问题,比如内存是有限的,另外一个是和CPU之间的数据通讯,英伟达提出的NVlink能够部分缓解CPU和GPU之间的数据通讯,跨界数据的交换。 阅读全文 → 2022-10-09
用fp16的safe和unsafe op的区分的原则是什么? safe以及unsafe op的区分有这样几个考量,一是op是否能够借助Tensor Core这种4X4的矩阵乘法以及累加来达到加速的功能,另外就是FP16本身的数值表达范围比较有限。所以有一些操作比如指数计算的结果可能会超出FP16的表达范围造成Overflow,我们认为这种操作是unsafe的,所以说主要是计算以及数值表达上的考量。 阅读全文 → 2022-10-09
深度学习算法或高性能计算解决方案对先验故障样本依赖性有多大,在缺少故障或缺陷样本情况下的表现如何,实际在工业场景下是如何解决先验样本少的情况的? 深度学习是很依赖于一些训练数据的,算法在数据越多的情况下会越来越好。但在缺少先验样本的情况下,也是可以做的,那怎么解决这个问题呢?可以使用一些小样本的训练技巧。除了用小样本的方法外,也可以人工制造一些类似数据,比如可以去把这个缺陷区域有什么特点,人工的进行一些贴图,人工制造一些类似的缺陷,从而提升算法的效果。我们还可以用一些合理的数据增广手段减少算法对于缺陷样本的依赖。 阅读全文 → 2022-10-09
短视频推荐算法引擎应用场景中,如何解决多卡负载利用率低的瓶颈?硬件还是软件优化? 可以将其分2为块,第一块是在硬件上,就是在CPU和GPU的配比上可以做一些考虑。包括像之前GTC上百度介绍的一些内容,其实会涉及到整个大embedding table怎么去做多级的cache。软件上并不是所有的模型拿过来在同一个机器上效果都是一样的,比如在真正的运行部分,它的比例不太一样,那这时候GPU上的利用率肯定是不一样的;优化它在GPU上的利用率一方面可能会让算法变得越来越复杂,另外又回到硬件的问题上,你可以去考虑在硬件CPU、GPU配比的情况下,能不能做一 阅读全文 → 2022-10-09