2.1 经典网络(Classic networks)
Last updated
Last updated
LeNet-5可以识别图中的手写数字,是针对灰度图片训练的,所以图片的大小只有32×32×1。该LeNet模型总共包含了大约6万个参数,典型的LeNet-5结构包含CONV layer,POOL layer和FC layer,顺序一般是CONV layer->POOL layer->CONV layer->POOL layer->FC layer->FC layer->OUTPUT layer,即:
随着网络越来越深,图像的高度和宽度在缩小,从最初的32×32缩小到28×28,再到14×14、10×10,最后只有5×5,通道数量一直在增加,从1增加到6个,再到16个
这个神经网络中还有一种模式就是一个或多个卷积层后面跟着一个池化层,然后又是若干个卷积层再接一个池化层,然后是全连接层,最后是输出
AlexNet包含约6000万个参数。当用于训练图像和数据集时,AlexNet能够处理非常相似的基本构造模块,这些模块往往包含着大量的隐藏单元或数据,AlexNet比LeNet表现更为出色的另一个原因是它使用了ReLu激活函数
VGG,也叫作VGG-16网络。VGG-16网络没有那么多超参数,是一种只需要专注于构建卷积层的简单网络。首先用3×3,步幅为1的过滤器构建卷积层,padding参数为same卷积中的参数。然后用一个2×2,步幅为2的过滤器构建最大池化层。VGG网络的一大优点是简化了神经网络结构
假设要识别这个图像,在最开始的两层用64个3×3的过滤器对输入图像进行卷积,输出结果是224×224×64,因为使用了same卷积,通道数量也一样
接下来创建一个池化层,池化层将输入图像进行压缩,减少到112×112×64。然后又是若干个卷积层,使用128个过滤器,以及一些same卷积,输出112×112×128。然后进行池化,池化后的结果是56×56×128。再用256个相同的过滤器进行三次卷积操作,然后再池化,然后再卷积三次,再池化。如此进行几轮操作后,将最后得到的7×7×512的特征图进行全连接操作,得到4096个单元,然后进行softmax激活,输出从1000个对象中识别的结果
VGG-16的数字16指在这个网络中有13个卷积层和3个全链接层
总共包含约1.38亿个参数,这种网络结构很规整,都是几个卷积层后面跟着可以压缩图像大小的池化层,池化层缩小图像的高度和宽度。同时,卷积层的过滤器数量变化存在一定的规律,由64翻倍变成128,再到256和512。主要缺点是需要训练的特征数量非常巨大
随着网络的加深,图像的高度和宽度都在以一定的规律不断缩小,每次池化后刚好缩小一半,而通道数量在不断增加,而且刚好也是在每组卷积操作后增加一倍。即图像缩小的比例和通道数增加的比例是有规律的