softmax和sigmoid在多分类任务中的优劣

多个sigmoid与一个softmax都可以进行多分类.如果多个类别之间是互斥的，就应该使用softmax，即这个东西只可能是几个类别中的一种。如果多个类别之间不是互斥的，使用多个sigmoid。

阅读全文 → 2023-02-27

sigmoid和relu的优缺点

Relu优点：（1）relu函数在大于0的部分梯度为常数，所以不会产生梯度弥散现象.。而对于sigmod函数，在正负饱和区的梯度都接近于0，可能会导致梯度消失现象。（2）Relu函数的导数计算更快，所以使用梯度下降时比Sigmod收敛起来要快很多。

Relu缺点：Relu死亡问题。当 x 是小于 0 的时候，那么从此所以流过这个神经元的梯度将都变成 0；这个时候这个 ReLU 单元在训练中将死亡（也就是参数无法更新），这也导致了数据多样化的丢失（因为数据一旦使得梯度为 0，也就说明这些数据已不起作用

阅读全文 → 2023-02-27

数据增强有哪些方法？

翻转，旋转，缩放,裁剪，平移，添加噪声，有监督裁剪，mixup，上下采样，增加不同惩罚

解决图像细节不足问题（增强特征提取骨干网络的表达能力）

阅读全文 → 2023-02-27

样本不平衡的处理方法有哪些？

①欠采样 - 随机删除观测数量足够多的类，使得两个类别间的相对比例是显著的。虽然这种方法使用起来非常简单，但很有可能被我们删除了的数据包含着预测类的重要信息。

②过采样 - 对于不平衡的类别，我们使用拷贝现有样本的方法随机增加观测数量。理想情况下这种方法给了我们足够的样本数，但过采样可能导致过拟合训练数据。

③合成采样（ SMOTE ）-该技术要求我们用合成方法得到不平衡类别的观测，该技术与现有的使用最近邻分类方法很类似。问题在于当一个类别的观测数量极度稀少时该怎么做。比如说，我们想用图片分类

阅读全文 → 2023-02-24

神经网络中会用到批量梯度下降（BGD）吗？为什么用随机梯度下降（SGD）?

1）一般不用BGD

2）a. BGD每次需要用到全量数据，计算量太大

b. 引入随机因素，即便陷入局部极小，梯度也可能不为0，这样就有机会跳出局部极小继续搜索（可以作为跳出局部极小的一种方式，但也可能跳出全局最小。还有解决局部极小的方式：多组参数初始化、使用模拟退火技术）

阅读全文 → 2023-02-24

深度学习中有什么加快收敛/降低训练难度的方法？

瓶颈结构

残差

学习率、步长、动量

优化方法

预训练

阅读全文 → 2023-02-24

首页上一页 72 73 74 75 76 77 78 79 80 81 下一页尾页