深度学习处理图像，能否用除了卷积的其他算法（如傅立叶变换）提取信息?

当前这波深度学习潮出现之前（大概十年前），人们确实在用各种各样人工设计的方法提取图像的特征。比如各种描述物体边缘和纹理的算法。

你当然可以通过傅立叶变换来提取信息。问题在于在你的任务中，图像的频谱特征有多明显。图像和声音不太一样，日常的声音一般在频域的特征比较明显；但对于图像而言，一般在空域的特征比较明显。比如你对一只狗的照片求傅立叶变换，那么这只狗的五官、躯干、爪子，以及背景的树木、房子、天空的信息全都在频域叠加在一起，一团乱。但在空域上却是五官分明、躯干和爪子分明、前景背景分明。除非说你的任务是要处理某些很特别的图片，比如说光的干涉条纹，那傅立叶变换倒可能有一些优势。

目前除了卷积神经网络以外，用来提取图像特征的流行做法就是vision transformer(ViT)了，不过在我看来ViT的前几层就是个变相的卷积神经网络，在这里就不展开了。