为什么神经网络工作得这么好?

我们的物种很大程度上要归功于对生拇指。但如果进化给了我们额外的经验,事情可能不会有太大改善。每只手一个拇指就足够了。


对于执行类人任务的领先人工智能系统神经网络来说却并非如此。随着它们变得越来越大,它们掌握的东西也越来越多。这让围观者感到惊讶。基本的数学结果表明,网络只需要这么大,但现代神经网络的规模通常远远超出了预测的要求——这种情况被称为过度参数化。


对神经网络规模的标准预期来自于对神经网络如何记忆数据的分析。但要理解记忆,我们必须首先了解网络的作用。


神经网络的一项常见任务是识别图像中的对象。为了创建一个能够做到这一点的网络,研究人员首先为其提供许多图像和对象标签,训练它学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的对象。换句话说,训练使网络记住数据。更值得注意的是,一旦网络记住了足够的训练数据,它还能够以不同程度的准确度预测从未见过的物体的标签。后一个过程称为泛化。


网络的大小决定了它可以记忆的量。这可以用图形来理解。想象一下将两个数据点放置在xy平面上。您可以将这些点与由两个参数描述的线连接起来:线的斜率及其与垂直轴相交时的高度。如果其他人得到了这条线以及原始数据点之一的x坐标,他们只需查看这条线(或使用参数)就可以算出相应的y坐标。该线已经记住了两个数据点。


神经网络做类似的事情。例如,图像由数百或数千个值来描述——每个像素一个值。这组许多自由值在数学上相当于高维空间中的点的坐标。坐标的数量称为维数。


蓝海大脑 京ICP备18017748号-1