深度学习处理图像,能否用除了卷积的其他算法(如傅立叶变换)提取信息?

当前这波深度学习潮出现之前(大概十年前),人们确实在用各种各样人工设计的方法提取图像的特征。比如各种描述物体边缘和纹理的算法。

你当然可以通过傅立叶变换来提取信息。问题在于在你的任务中,图像的频谱特征有多明显。图像和声音不太一样,日常的声音一般在频域的特征比较明显;但对于图像而言,一般在空域的特征比较明显。比如你对一只狗的照片求傅立叶变换,那么这只狗的五官、躯干、爪子,以及背景的树木、房子、天空的信息全都在频域叠加在一起,一团乱。但在空域上却是五官分明、躯干和爪子分明、前景背景分明。除非说你的任务是要处理某些很特别的图片,比如说光的干涉条纹,那傅立叶变换倒可能有一些优势。

目前除了卷积神经网络以外,用来提取图像特征的流行做法就是vision transformer(ViT)了,不过在我看来ViT的前几层就是个变相的卷积神经网络,在这里就不展开了。


蓝海大脑 京ICP备18017748号-1