AlexNet

5个卷积层，3个全连接层
特点：

使用了非线性激活函数：ReLU
防止过拟合的方法：Dropout，数据扩充（Data augmentation）
其他：多GPU实现，LRN归一化层的使用

输入input的图像规格：$224×224×3$（RGB图像），实际上经过预处理变为$227×227×3$

卷积层C1
- 该层的处理流程是：卷积—>ReLU—>池化—>归一化。
- 卷积，输入是$227×227$，使用96个11×11×3的卷积核，步长为4，得到的FeatureMap为55×55×96。(227-11)/4+1=55
- ReLU，将卷积层输出的FeatureMap输入到ReLU函数中。
- 池化，使用3×3步长为2的池化单元（重叠池化，步长小于池化单元的宽度），输出为27×27×96 (55-3)/2+1=27
- 局部响应归一化，使用k=2, n=5, $\alpha = 10^{-4}, \beta = 0.75$进行局部归一化，输出的仍然为$27×27×96$，输出分为两组，每组的大小为$27×28×48$
卷积层C2
- 该层的处理流程是：卷积—>ReLU—>池化—>归一化
- 卷积，输入是2组27×27×48。使用2组，每组128个尺寸为5×5×48的卷积核，并作了边缘填充padding=2，卷积的步长为1. 则输出的FeatureMap为2组，每组的大小为27×27×128((27+2×2-5)/1+1=27)
- ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
- 池化运算的尺寸为3×3，步长为2，池化后图像的尺寸为(27-3)/2+1=13，输出为13×13×256
- 局部响应归一化，使用k=2, n=5, $\alpha = 10^{-4}, \beta = 0.75$进行局部归一化，输出的仍然为$13×13×256$，输出分为2组，每组的大小为13×13×128
卷积层C3
- 该层的处理流程是：卷积—>ReLU
- 卷积，输入是，使用2组共384尺寸为的卷积核，做了边缘填充padding=1，卷积的步长为1.则输出的FeatureMap为
- ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
卷积层C4
- 该层的处理流程是：卷积—>ReLU
- 该层和C3类似。
- 卷积，输入是，分为两组，每组为.使用2组，每组192个尺寸为的卷积核，做了边缘填充padding=1，卷积的步长为1.则输出的FeatureMap为，分为两组，每组为
- ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
卷积层C5
- 该层处理流程为：卷积—>ReLU—>池化
- 卷积，输入为，分为两组，每组为。使用2组，每组为128尺寸为的卷积核，做了边缘填充padding=1，卷积的步长为1.则输出的FeatureMap为
- ReLU，将卷积层输出的FeatureMap输入到ReLU函数中
- 池化，池化运算的尺寸为3×3，步长为2，池化后图像的尺寸为 ,即池化后的输出为
全连接层FC6
- 该层的流程为：（卷积）全连接 —>ReLU —>Dropout
- 卷积->全连接：输入为,该层有4096个卷积核，每个卷积核的大小为。由于卷积核的尺寸刚好与待处理特征图（输入）的尺寸相同，即卷积核中的每个系数只与特征图（输入）尺寸的一个像素值相乘，一一对应，因此，该层被称为全连接层。由于卷积核与特征图的尺寸相同，卷积运算后只有一个值，因此，卷积后的像素层尺寸为，即有4096个神经元。
- ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
- Dropout,抑制过拟合，随机的断开某些神经元的连接或者是不激活某些神经元
全连接层FC7
- 流程为：全连接—>ReLU—>Dropout
- 全连接，输入为4096的向量
- ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
- Dropout,抑制过拟合，随机的断开某些神经元的连接或者是不激活某些神经元
输出层
- 第七层输出的4096个数据与第八层的1000个神经元进行全连接，经过训练后输出1000个float型的值，这就是预测结果。