CNN图像识别原理
卷积神经网络(CNN)的结构模仿了眼睛的视觉神经的工作原理。对于眼睛来说,大量的视觉神经分工协作,各自负责一小部分区域的视觉图像,再将图像的各种局部特征抽象组合到高层的视觉概念,传送到大脑使人类产生视觉。卷积神经网络也是类似,它包含了至少一层卷积层,由多个卷积核对图像的局部区域进行特征提取,最后进行合成。
原始输入数据(图中的input)为二维图像,横轴和纵轴分别是图像的高度和宽度的像素点,为了识别该图像,模型依次完成以下步骤:
- 第一层卷积层(图中的conv1)进行卷积运算。该层由若干卷积核组成,每个卷积核的参数都是通过反向传播算法优化得到的。卷积核的目的是通过扫描整张图片提取不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级。在卷积层之后都会使用非线性激活函数(如RELU,tanh 等)对特征进行非线性变换。
- 第一层池化层(图中的pool1)进行池化运算。通常在卷积层之后会得到维度很大的特征,池化层可以非常有效地缩小参数矩阵的尺寸,从而减少最后全连层中的参数数量。使用池化层既可以加快计算速度也有防止过拟合的作用。一般池化层将特征切成几个区域,取其最大值或平均值,得到新的、维度较小的特征。池化层其实是在对具有高维特征的图片进行特征降维(subsample)。
- 第二层卷积层和第二层池化层(图中的conv2 和pool2) 进行进一步的特征提取和特征降维,得到更加高层和抽象的特征。
- 全连接层(图中的hidden4 和full connection) 把卷积核池化得到的特征展平为一维特征,用来进行最后的训练和预测。
总结而言,卷积层进行特征提取,池化层进行特征降维以防止过拟合。
用卷积神经网络处理序列数据
从上面我们已经知道卷积神经网络(convnet)在计算机视觉问题上表现出色,原因在于它能够进行卷积运算,从局部输入图块中提取特征,并能够将表示模块化,同时可以高效地利用数据。这些性质让卷积神经网络在计算机视觉领域表现优异,同样也让它对序列处理特别有效。时间可以被看作一个空间维度,就像二维图像的高度或宽度。
对于某些序列处理问题,比如金融时间序列数据,这种一维卷积神经网络的效果可以媲美RNN[循环神经网络],而且计算代价通常要小很多。最近,一维卷积神经网络[通常与空洞卷积核(dilated kernel)一起使用]已经在音频生成和机器翻译领域取得了巨大成功。除了这些具体的成就,人们还早已知道,对于文本分类和时间序列预测等简单任务,小型的一维卷积神经网络可以替代RNN,而且速度更快。