由 Mallat教授提出的小波散射网络是一种结构与卷积神经网络高度相似的一 种特征提取网络,散射网络是以小波滤波器为卷积核,对图像进行卷积的多层架构网络,这种架构很大程度上保证了相对来说的平移不变性和形变稳定性, 同时又给了该架构严格的数学以及信号处理领域的理论支撑。目前,小波散射网络在纹理识别等方面表现优秀,而其计算量少、识别效率高的特点则能够有效填补上那些缺乏训练数据,需要快速达到识别效果的领域的空缺。
近年来,由 Yann Lecun 教授所提出的卷积神经网络在计算机视觉领域取得了长足的进展,在广泛的分类和回归任务上俱有出色的表现。 面部识别等领域目前的最优算法皆是基于卷积神经网络建立的。卷积神经网络以其感受野以及权值共享的独特设计思想在大大节省算法复杂度的同时保证了有效提取特征的能力。在 2012 年后,计算机算力的发展为卷积神经网络提供了腾飞的基础。然而,其理论上的不足使得大多数的卷积神经网络设计者都没有明确的设计方向,将其视作一个黑箱来使用,既满足不了科学研究的需求,也造成了设计决策上的方向不清晰,直接导致了设计者对于用于特征提取的卷积层数、卷积核的选取皆处于摸索状态。同时,卷积神经网络架构在平移不变性与旋转不变性等性质上的固有不足使得它只能通过数据增强,定位后检测等手段来弥补架构的不足,这极大地增加了算法的复杂度,训练耗时。
由于以上原因,对卷积神经网络的理论解释的尝试也从未停止。目前, 比较盛行的研究方向除了通过图像研究的可视化手段(中间激活态/特征图可视化、空间滤波器组可视化、原始图像中各组分热力图)外,还有从生物学角度、信号处理角度来解释这一框架,并对其形式做出模仿,从而从输入信号中提取可以被理解、被解释的特征。以图像识别为例,特征提取的层次一般分为三个层次:提取信息的概貌、纹理,从信息中抛掉一些冗余信息, 即图像的位移、放大缩小、旋转;提取具体物体的信息,能够不受图像中物体的简单形变、颜色变化、以及位置变化的影响;提取高度抽象化的特征,能够从图像里获取物体的本质信息,如能够从不同类型的椅子中提取它们属于椅子 这部分的共有特征。就目前而言,第二、第三层次的特征提取在可视化中的表现依然是不明晰的,但第一层的特征提取已经有了比较好的解释理论,小波散射网络即是解释之一。
相比于卷积神经网路在小样本上表现的不足与其理论解释的缺乏,Mallat教授提出的小波散射网络在小样本下表现良好,且有很好的物理解释能力。 与此同时,绝大多数的卷积神经网络的前几层卷积核都是类小波/类Gabor 窗 的,这意味着散射网络本身的结构与浅层卷积神经网络高度相似,继而,浅层的卷积神经网络的特性在一定程度上可以以散射网络的结构特性去解释。
在 Mallat 的小波散射网络的基础上,诸多研究者开展了进一步的研究,通过对小波核的替换,将散射网络与其他机器学习、深度学习算法相结合,达到了较理想的识别效果。2018 年,T.Wiatowski等人基于小波散射网络的数 学性质出发,将小波散射网络进行了推广,允许所有具有弱允许性的小波框架皆可作为小波核,推广了散射网络的应用范围。然而,几乎所有的小波框架都是通过尺度伸缩获得的,这相当于局限了散射网络卷积核的类型,相当于限制了每层卷积层的权重取值范围。考虑到小波散射网络的架构本身固有的优点, 在保有其理论解释能力的同时扩充散射网络的卷积核选择范围是有必要的。
小波散射网络的卷积核一律为小波,是由尺度变换生成的滤波器组,不同的小波代表不同的滤波器组,获取的特征也不同。本质上来说,卷积核的性质决定了整个网络获取特征的能力。在传统的特征提取思路中,更是以针对某类 图像的特性来选择相应的滤波器。因此,选定一个具有优良性质的卷积核非常重要。其中,Gabor型的卷积核有显著的优势,而Gabor 窗则可以视作一类理想的卷积核,原因如下:Daugma证明了哺乳动物视皮层中的简单细胞是通过固定的二维高斯调制来建模的,这与Gabor窗的特性是一致的。 而 Hinton在他所提出的深度置信网络的快速算法中将V1视觉皮层的简单细胞的感受域形容为局部的,定向的,带通的滤波器,这与 Gabor 滤波器也是类似的。因此,选取时频Gabor窗来作为卷积核具有生物上的依据。 早于 Mallat 的散射网络出现之前,就有诸多研究者使用高斯窗口的短傅里叶变换,即 Gabor 变换作为图像分类问题的特征提取器。但是这类特征提取器极少用于多层架构的特征提取网络上,将 Gabor 滤波器作为卷积核的神经网络也极少能见到。
与卷积神经网络的相类似的是,小波散射网络使用的也是非线性与线性相组合的形式来构成每一层的特征提取,即通过取模和卷积的多层架构获取特征信息。这类多层架构网络的卷积核是确定的,无需通过BP算法调整权重,也 就是说无需训练来获取参数。在涉及信号处理领域的时频分析,以及计算机视觉方面的各种识别问题(例如:手写体识别,纹理识别等),甚至生命科学领域 (如生物神经信号的分析、检测与预测等)方面,它取得了骄人的成果。 在时频分析领域,Mallat 将梅尔频率倒谱系数中的离散余弦变换替换为小波散射变换,在音频信号分类上有很好的表现。Mallat 又将小波散射理论应用到平稳随机过程,并将其应用于金融时间序列和湍流的能量耗散一类研究上。 2014 年,Mallat 使用能够计算不变信号描述符的Haar小波散射变换,采用加法,减法和绝对值的深级联实现、迭代计算正交 Haar小波变换,并将降维的监督分类算法用在加扰图像上。 2018 年,借助严格的数学推导和理论证明,T.Wiatowski 等人证明小波散射的性质以及优越性,并将其理论进行了推广,把原始的小波框架泛化为所有满足弱允许条件的框架。
小波散射网络作为一类新颖且具有深刻理论与应用价值的算法,在近年来的诸多领域都有了成熟的应用。诸多研究者将其与卷积神经网络、深度置信网络等机器学习手段相结合,有了成熟的结果,T.Wiatowski 等人更是利用数学工具对小波散射网络进一步进行挖掘,得到了符合弱小波允许条件的小波框架, 为小波散射网络的卷积核选取提供了更多的选择。但是,总的来说,卷积核的选取依然是被局限在了小波这一类型中,对于散射网络这一框架并没有进行有效的开发与拓展。
小波散射变换原理
Mallat在小波变换的基础上建立了小波散射变换,它所使用的滤波器本质上来说就是尺度函数与其相对应的一组小波函数所对应的滤波器组合,可记作
其中
对应的是尺度函数,其对应的滤波器也就是低通滤波器。而
毫无疑问就是小波函数组,对应的是带通滤波器,理论上来说,这些函数所张成的空间应是相互正交的,而空间的直和也就对应了整个L^2空间。也就是说,这些函数应是整个空间的完备正交基,他们所对应的滤波器应铺满整个频域。小波散射网络是一个多层架构网络,而其每
这类的特征并不具有平移不变和微小形变稳定性的特征,为了进一步提取具有理想性质的特征,对它进行平均,即对它进行一个低通滤波,表示公式为
这即是时频散射变换的表达式。可以看到,当其处于第零层时,可以直接将其理解为对信号进行一次低通滤波,即为
小波散射变换的目的在于获取第一层次的特征信息, 即免疫平移、轻微形变的信息。而低通的滤波器能够获取输入信号的概貌,获取反映其整体大尺度特征的信息,以图像为例,由低通滤波器选取的信号对于图像的平移、伸缩、旋转等局部变化有良好的不变性。因此,小波散射变换获取了这一部分的信息。 相应的,高频部分的信号则对于信号的平移、伸缩、轻微形变类的变化具有协变性。换而言之,带通滤波器选取的信号成分受平移、伸缩、旋转等变化的影响较大,越是高频处的滤波选取越易受这些变化的影响。高频信息中包含着对提取共性特征不利的成分。 但是,仅获取低频信息就意味着把包含重要信息成分的高频部分丢弃掉, 这对于特征提取来说是一种损失。可以认为,散射变换最重要的目的就是在获取高频信息的同时,丢弃掉其对平移、形变敏感的部分。散射变换对此采取了 如下的形式:
加模的操作使得提取的
损失了相位因素,可以认为这对特征分类是有利的。低通滤波则继续抽取变化后的信号的低频部分,保证了信息的平移和形变稳定性。最后,在 W 代表的滤波器组合固定表示一类小波核滤波器的情况,为了更好地在表示公式上体现散射变换的特征,把表示公式改写为
总的来说,小波散射变换的形式可以归结为,对信号做尺度不同的小波变换,对其进行取模,继而对变换结果做一个低通滤波,所得即是所提取的特征。 从数学上的理解来看,由于同一小波的正交特性,不同特征间应是不具有相关性,每一个各代表了图像一部分的特征信息,所有层特征的组合即可认为是散射网络从中获取的特征之和。不同于卷积神经网络,散射网络每一层的特征提取器是多个而非单一特征提取器,且每一层用的都是同一套特征提取器。这与其他的多层架构网络也不同。同时,不同于卷积神经网络只用最后一层的输出,即将经过所有特征提取器的信息来作为最后的特征输出,散射网络在所有层都有输出,最后将这些输出的特征组合来作为总的输出特征。最后也是最显著的一点,散射网络不是前馈式网络,它的所有卷积核都是预先选定的,换句话说,在对图像进行特征提取之前,它所要提取的目标特征就是确定的。这样做的好处在于,省略了训练的过程,可以根据理论提取到具有目标性质的特征, 计算量大大减少的同时也具有了结果的理论解释,这是一种介于传统图像识别和深度学习之间的算法。