这是一篇来自Sayak Paul的预测,这个哥们长期混迹于各个开源社区,积极参与各大公司的开发者大会。目前在一家初创企业工作,简历非常丰富,非常积极在社区推广自己。但是不管怎么说,他在计算机视觉领域也是一直在一线工作。他对未来计算机视觉的发展方向有五个预测,虽然不一定准确,但是我们可以借助这个进行思考。 趋势一:资源节约型的模型(Resource-Efficient Models)如今,最先进的计算机视觉的模型越来越多,难以在边缘设备如手机等运行。这些大模型虽然效果很好,但是成本巨大,且时延很高。在没有云基础设施的支撑下很难被使用。因此,需要一些低资源消耗的模型进行生产部署。主要方向包括: 稀疏训练:通过丢弃某个低于阈值的网络参数或者是放弃某些维度的互相作用,以加快网络的训练。虽然可能会丢失一些精度,但是可以降低成本,减少训练时间。 训练后的推理:在模型训练后,降低参数精度,通过量化感知训练,补偿降低精度造成的信息损失。 知识蒸馏:训练一个高性能的教师模型,然后通过训练另一个较小的学生模型来提炼其 "知识",以匹配教师所产生的标签。 趋势二:基于生成式深度学习的创意创造应用主要是利用生成对抗网络来创造一些“没有”的内容。包括提高图像分辨率、领域转移(如最近很火的人类图片卡通化)、为遮挡的区域生成新的画面(在PS软件中应用)以及根据标题生成图像等。基于某些信息创造新的内容在很多的领域都有很好的应用。这也是CV的一个重要的应用趋势。 趋势三:自监督学习自监督学习是一种不使用任何标签的数据进行学习的模型。也就是类似无监督学习。有监督的学习固然是好,但是成本也很高。雇佣人员对图像进行标注非常耗费成本,尽管业界已经开源了很多的图像分类的数据集,但是现实中,CV面临的任务很多,无法穷举。因此,使用自监督学习模型对无标签的数据进行训练是一个很好的方向。 趋势四:Transformers和Self-Attention会继续发展注意力机制与Transformers最早都是来自NLP的进展。实践证明,这两个方向在NLP任务中取得了巨大的成功。现在在CV领域也出现了类似的机制,如GC Blocks、SE Networks等。但是效果不如在NLP里面显著。但是,通过量化成对的point之间的互动来调整模型参数其实应该也是一个正确的方向。因此,作者认为,在CV里面,这两个将会是未来的方向。 趋势五:稳健的视觉模型与其它模型类似,CV的模型会受到很多因素的影响。在过去一段时间也有很多案例证明,对输入做一些小的变化,人类依然可以准确的感知图像。但是CV的模型很容易出现很大的偏差。CV模型很容易受到各方面的影响,包括:
解决方向:
详情: |
|