为什么神经网络工作得这么好？

我们的物种很大程度上要归功于对生拇指。但如果进化给了我们额外的经验，事情可能不会有太大改善。每只手一个拇指就足够了。

对于执行类人任务的领先人工智能系统神经网络来说却并非如此。随着它们变得越来越大，它们掌握的东西也越来越多。这让围观者感到惊讶。基本的数学结果表明，网络只需要这么大，但现代神经网络的规模通常远远超出了预测的要求——这种情况被称为过度参数化。

对神经网络规模的标准预期来自于对神经网络如何记忆数据的分析。但要理解记忆，我们必须首先了解网络的作用。

神经网络的一项常见任务是识别图像中的对象。为了创建一个能够做到这一点的网络，研究人员首先为其提供许多图像和对象标签，训练它学习它们之间的相关性。之后，网络将正确识别它已经看到的图像中的对象。换句话说，训练使网络记住数据。更值得注意的是，一旦网络记住了足够的训练数据，它还能够以不同程度的准确度预测从未见过的物体的标签。后一个过程称为泛化。

网络的大小决定了它可以记忆的量。这可以用图形来理解。想象一下将两个数据点放置在xy平面上。您可以将这些点与由两个参数描述的线连接起来：线的斜率及其与垂直轴相交时的高度。如果其他人得到了这条线以及原始数据点之一的x坐标，他们只需查看这条线（或使用参数）就可以算出相应的y坐标。该线已经记住了两个数据点。

神经网络做类似的事情。例如，图像由数百或数千个值来描述——每个像素一个值。这组许多自由值在数学上相当于高维空间中的点的坐标。坐标的数量称为维数。