不平衡数据是否会影响深度学习神经网络的分类效果？

当数据集不平衡时（如一个类的样本比另一个类还多），那么神经网络可能就无法学会如何区分这些类。在这个实验中，我们探讨这一情况是否存在。同时我们还探讨了过采样是否可以减轻问题带来的影响，这是一种流行的补救措施，该措施使用少数类中抽样替换的样本。

方法：我们生成两个二维的结果（结果未在这里显示，表明相同的结果适用于更高维）高斯，每个产生属于一个类别的数据。两个高斯具有相同的协方差矩阵，但它们的意思是在第 i 个维度上相距 1/i1/i 单位。每个训练数据集由 1,200 个数据点组成，但我们将类别不平衡从 1:1 变为 1:99。测试数据集以 1:1 的比例保持固定，以便于性能比较，并由 300 个点组成。我们还会在每种情况下显示决策边界。