配色: 字号:
学界—用于视觉对象分类的高性能神经网络
2017-11-17 | 阅:  转:  |  分享 
  
学界|用于视觉对象分类的高性能神经网络2017-11-11机器海岸线选自arXiv作者:DanC.Ciresan,UeliMeier,JonathanMasci,LucaM.GambardellaandJ?urgenSchmidhuber等机器海岸线编译

参与:方建勇论文链接:https://arxiv.org/pdf/1102.0183摘要:我们提出一个快速的完全可参数化的卷积神经网络变体的GPU实现。我们的特征提取器既没有经过精心的设计,也没有预先连线,

而是以监督的方式学习。我们的深层次体系结构在对象分类(NORB,CIFAR10)和手写数字识别(MNIST)的基准测试中取得了最好的结果,错误率分别为2.53%,19.51%,0.35%。由简单的向后传播训练,深网相较浅的为优,学习速度惊人,NORB在veepochs内完全训练。MNIST的测试错误率分别在1,3和17个训练次数后下降到2.42%,0.97%和0.48%。1介绍

人类的视觉系统有效地识别局部化杂乱的场景中的物体。然而,对于人造系统而言,由于视点依赖的对象变异性以及许多对象类型的高级变异性,这仍然是困难的。深层次神经模型大致上模仿了哺乳动物视觉皮层的本质,而社区共识是这类任务中最有希望的架构之一。最成功的分层对象识别系统都是从输入图像中提取局部特征,将图像补丁与过滤器进行卷积。过滤器的响应然后重复进行子采样和清理,产生深度前馈网络架构,其输出特征向量最终被分类。最早的分级神经系统之一是Neocognitron(福岛,1980),它启发了许多更新的变种。

应用于自然图像片的无监督学习方法倾向于产生类似围绕o-center-on-surround的过滤器,方向敏感的条形探测器,Gabor滤波器(Schmidhuber等,1996;Olshausen和Field,1997;Hoyer和Hyv?arinen,2000)。这些发现与视觉皮层的实验研究相结合,证明了在所谓的标准物体识别模型(RiesenhuberandPoggio,1999;Serreetal。,2007;MutchandLowe,2008)中使用这样的过滤器是合理的,与卷积神经网络(CNN)(LeCun等,1998;Behnke,2003;Simard等,2003)的结果相反,其权重(lter)随机地被初始化并且以监督的方式被改变传播(BP)。

尽管过去几十年硬件取得了进步,但计算速度仍然是CNN体系结构的一个限制因素,其特征在于许多通常由反复试验设置的构建模块。为了系统地测试各种体系结构对分类性能的影响,我们在图形处理单

元(GPU)上提出了一个快速的CNN实现。以前CNN的GPU实现(Chellapilla等人,2006;Uetz和Behnke,2009)是硬编码以满足GPU硬件约束,而我们的实现是灵活的并且完全在线(即,技术报告No.IDSIA-01-112每张图片后重量更新)。它允许在几天内而不是几个月内训练大的CNN,以便我们可以通过探索大参数空间(Pinto等,2009)和重复实验的误差分析来研究各种结构参数的影响。我们评估了手写数字基准MNIST(LeCun等人,1998)和两个图像分类基准:NORB(LeCun等人,2004)和CIFAR10(Krizhevsky,2009)

的各种网络。2卷积神经网络CNN是层次神经网络,其卷积层与子采样层交替,让人联想到初级视觉皮层中的简单和复杂的细胞(WieselandHubel,1959)。CNN在如何实现卷积和子采样层以及如何训练网络方面有所不同,本研究所考虑的CNN架构来自Simard等人的论文(2003)。在每个CNN层之后,可以使用一个可选的最大汇集层(Schereretal,2010),这里

我们给出这个独立实现的完整描述(图1)。

图1:卷积神经网络的体系结构。在这种情况下,卷积层完全连接。两个卷积层都使用5×5的内核和1的跳过因子。

图2:向后传播三角地带。显示来自两个连续图层的两个地图之间的连接。Ln1中的地图具有29×29个神经元;Ln中的地图有13×13个神经元。它们通过5×5的内核K相连。假定Sx=1和Sy=1的跳过因子。箭头和颜色描绘了Ln1中的神经元与它们在Ln中的源之间的对应关系。

表1:MNIST测试集上的错误率对于具有M个图的2至6个卷积层的随机连接CNN以及具有N个神经元的可选完全连接层。使用了各种粒度和跳跃因子。

表2:NORB测试集上的一个隐藏层CNN的平均错误率和N的标准偏差。

表3:CIFAR10测试集上八个隐藏层CNN的N次运行的平均错误率和标准偏差(详见文本)。第一个网络每个卷积和最大汇聚层有100个映射,而第六个,第七个和第八个分别具有每个隐藏层200,300和400个映射。IP-图像处理层:边缘-33Sobel和Scharr滤镜;帽子-1313正面和负面对比提取过滤器。3结论

我们提出了高性能的基于GPU的CNN变体,通过在线梯度下降训练,具有稀疏的随机连通性,计算更有效,生物学上比完全连接的CNN更合理。主要优势包括最先进的综合能力,极大的灵活性和速度。所有结构CNN参数,如输入图像大小,隐藏层数,每层图的数量,内核大小,跳跃因子和连接表等都适用于任何特定的应用。我们将我们的网络应用于数字识别(MNIST),3D物体识别(NORB)和自然图像(CIFAR10)的基准数据集。在MNIST上,最好的网络在NORB2.53%和CIFAR1019.51%上的识别测试错误率达到了0.35%,我们的结果是提高所有三个基准。目前,本文讨论的特定CNN类型似乎是最佳的

自适应图像识别器,只要有足够大的标记数据集即可,不需要无监督的预训练。良好的结果需要大而深的连接CNNs,在计算上禁止CPU,但在当前的GPU上是可行的,我们的实现比编译器优化的CPU版本快10到60倍。本文为机器海岸线编译,转载请联系fangjianyong@zuaa.zju.edu.cn获得授权。?------------------------------------------------

献花(0)
+1
(本文系方建勇首藏)