/

经典CNN模型 - AlexNet,

AlexNet

5个卷积层,3个全连接层
特点:

  1. 使用了非线性激活函数:ReLU
  2. 防止过拟合的方法:Dropout,数据扩充(Data augmentation)
  3. 其他:多GPU实现,LRN归一化层的使用

输入input的图像规格:$224×224×3$(RGB图像),实际上经过预处理变为$227×227×3$

  • 卷积层C1
    • 该层的处理流程是: 卷积—>ReLU—>池化—>归一化。
    • 卷积,输入是$227×227$,使用96个11×11×3的卷积核,步长为4,得到的FeatureMap为55×55×96。(227-11)/4+1=55
    • ReLU,将卷积层输出的FeatureMap输入到ReLU函数中。
    • 池化,使用3×3步长为2的池化单元(重叠池化,步长小于池化单元的宽度),输出为27×27×96 (55-3)/2+1=27
    • 局部响应归一化,使用k=2, n=5, $\alpha = 10^{-4}, \beta = 0.75$进行局部归一化,输出的仍然为$27×27×96$,输出分为两组,每组的大小为$27×28×48$
  • 卷积层C2
    • 该层的处理流程是:卷积—>ReLU—>池化—>归一化
    • 卷积,输入是2组27×27×48。使用2组,每组128个尺寸为5×5×48的卷积核,并作了边缘填充padding=2,卷积的步长为1. 则输出的FeatureMap为2组,每组的大小为27×27×128((27+2×2-5)/1+1=27)
    • ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
    • 池化运算的尺寸为3×3,步长为2,池化后图像的尺寸为(27-3)/2+1=13,输出为13×13×256
    • 局部响应归一化,使用k=2, n=5, $\alpha = 10^{-4}, \beta = 0.75$进行局部归一化,输出的仍然为$13×13×256$,输出分为2组,每组的大小为13×13×128
  • 卷积层C3
    • 该层的处理流程是: 卷积—>ReLU
    • 卷积,输入是,使用2组共384尺寸为的卷积核,做了边缘填充padding=1,卷积的步长为1.则输出的FeatureMap为
    • ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
  • 卷积层C4
    • 该层的处理流程是: 卷积—>ReLU
    • 该层和C3类似。
    • 卷积,输入是,分为两组,每组为.使用2组,每组192个尺寸为的卷积核,做了边缘填充padding=1,卷积的步长为1.则输出的FeatureMap为,分为两组,每组为
    • ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
  • 卷积层C5
    • 该层处理流程为:卷积—>ReLU—>池化
    • 卷积,输入为,分为两组,每组为。使用2组,每组为128尺寸为的卷积核,做了边缘填充padding=1,卷积的步长为1.则输出的FeatureMap为
    • ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
    • 池化,池化运算的尺寸为3×3,步长为2,池化后图像的尺寸为 ,即池化后的输出为
  • 全连接层FC6
    • 该层的流程为:(卷积)全连接 —>ReLU —>Dropout
    • 卷积->全连接: 输入为,该层有4096个卷积核,每个卷积核的大小为。由于卷积核的尺寸刚好与待处理特征图(输入)的尺寸相同,即卷积核中的每个系数只与特征图(输入)尺寸的一个像素值相乘,一一对应,因此,该层被称为全连接层。由于卷积核与特征图的尺寸相同,卷积运算后只有一个值,因此,卷积后的像素层尺寸为,即有4096个神经元。
    • ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
    • Dropout,抑制过拟合,随机的断开某些神经元的连接或者是不激活某些神经元
  • 全连接层FC7
    • 流程为:全连接—>ReLU—>Dropout
    • 全连接,输入为4096的向量
    • ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
    • Dropout,抑制过拟合,随机的断开某些神经元的连接或者是不激活某些神经元
  • 输出层
    • 第七层输出的4096个数据与第八层的1000个神经元进行全连接,经过训练后输出1000个float型的值,这就是预测结果。