分享

计算机视觉的五个趋势

 止观观止 2021-11-18

这是一篇来自Sayak Paul的预测,这个哥们长期混迹于各个开源社区,积极参与各大公司的开发者大会。目前在一家初创企业工作,简历非常丰富,非常积极在社区推广自己。但是不管怎么说,他在计算机视觉领域也是一直在一线工作。他对未来计算机视觉的发展方向有五个预测,虽然不一定准确,但是我们可以借助这个进行思考。

计算机视觉的五个趋势

趋势一:资源节约型的模型(Resource-Efficient Models)

如今,最先进的计算机视觉的模型越来越多,难以在边缘设备如手机等运行。这些大模型虽然效果很好,但是成本巨大,且时延很高。在没有云基础设施的支撑下很难被使用。因此,需要一些低资源消耗的模型进行生产部署。主要方向包括:

稀疏训练:通过丢弃某个低于阈值的网络参数或者是放弃某些维度的互相作用,以加快网络的训练。虽然可能会丢失一些精度,但是可以降低成本,减少训练时间。

训练后的推理:在模型训练后,降低参数精度,通过量化感知训练,补偿降低精度造成的信息损失。

知识蒸馏:训练一个高性能的教师模型,然后通过训练另一个较小的学生模型来提炼其 "知识",以匹配教师所产生的标签。

趋势二:基于生成式深度学习的创意创造应用

主要是利用生成对抗网络来创造一些“没有”的内容。包括提高图像分辨率、领域转移(如最近很火的人类图片卡通化)、为遮挡的区域生成新的画面(在PS软件中应用)以及根据标题生成图像等。基于某些信息创造新的内容在很多的领域都有很好的应用。这也是CV的一个重要的应用趋势。

趋势三:自监督学习

自监督学习是一种不使用任何标签的数据进行学习的模型。也就是类似无监督学习。有监督的学习固然是好,但是成本也很高。雇佣人员对图像进行标注非常耗费成本,尽管业界已经开源了很多的图像分类的数据集,但是现实中,CV面临的任务很多,无法穷举。因此,使用自监督学习模型对无标签的数据进行训练是一个很好的方向。

计算机视觉的五个趋势

趋势四:Transformers和Self-Attention会继续发展

注意力机制与Transformers最早都是来自NLP的进展。实践证明,这两个方向在NLP任务中取得了巨大的成功。现在在CV领域也出现了类似的机制,如GC Blocks、SE Networks等。但是效果不如在NLP里面显著。但是,通过量化成对的point之间的互动来调整模型参数其实应该也是一个正确的方向。因此,作者认为,在CV里面,这两个将会是未来的方向。

计算机视觉的五个趋势

趋势五:稳健的视觉模型

与其它模型类似,CV的模型会受到很多因素的影响。在过去一段时间也有很多案例证明,对输入做一些小的变化,人类依然可以准确的感知图像。但是CV的模型很容易出现很大的偏差。CV模型很容易受到各方面的影响,包括:

  1. 输入的扰动
  2. 深度模型容易捕捉高频区域,对常见的破坏影响很大,包括模糊、对比度、缩放等破坏
  3. 面对训练数据之外的数据无法有效工作

解决方向:

  • 基于对抗性的训练来增强抗干扰能力
  • 一致性正则化(Consistency regularization):即模型在有噪声的情况下可以保持一致的输入,如RandAugment, Noisy Student Training, FixMatch等
  • 对异常数据进行检测

详情:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多