深度神经网络（DNN）有哪些的弱点或明显的问题？

作为一个研究过程中粗略的学过一些相应知识的人，尝试回答一下。

主要问题1：DNN模型本身不可解释你的DNN为什么要N层？

每一层都是做什么用的？神经元之间为什么要连接或者不连接？每个神经元又在做什么？有没有可能增加或者减少某个神经元甚至神经层数达到类似甚至更好的效能？

主要问题2：无法测试你要如何“测试”一个DNN网络？

是跑几个测试集就行，还是要像传统软件一样达到某个覆盖率？如果测试用例运行时发现某个神经元激活的次数极低，是不是意味着这个神经元可以删除？你跑的结果的准确度和偏差值是多少才是可接受的，为什么100%甚至99.9%明明是一个最理想的结果却在学术上无法接受？

主要问题3：数据集如何选取数据集才是合理的？

比如某个DNN训练使用MNIST2库（28*28的灰度图，每个图都是黑色的底上有一个白色的手写阿拉伯数字），是合理的吗？如果一张同样大小的灰度图但是上面的白色图案是随机的，是合理输入吗？如果是白底黑字，是合理输入吗？如果你说是，为什么它不进入MNIST2库？类似的图片要占多大的比例才是合理的？如果你说不是，你如何保障你的DNN在实际应用中不会处理“不合理”的图片？或者换个例子，假设一个DNN是要用来辨识图片中的东西是不是猫，那么你要用多少张英短的图片？多少张三花的图片？多少张毕加索风格的？多少张动画片风格的？多少张狗，多少张鸟，多少张直升机，多少张尼亚加拉大瀑布？为什么要，为什么不要？