重磅干货,第一时间送达
过去 12 个月见证了计算机视觉的快速发展,从支持基础设施到跨行业的新应用,再到研究中的算法突破,再到 AI 生成艺术的爆炸式增长。本篇文章带大家一起回顾一下这些令人兴奋的发展。本文将通过五个部分来回顾计算机视觉领域在2022年的发展。 1. Transformer统治计算机视觉 Transformer 模型在 2017 年在Attention is All You Need论文中被提出,之后广泛用于深度学习领域,为各种 NLP 任务设定了标准,并开创了大型语言模型 (LLM) 的时代。Vision Transformer (ViT) 于 2020 年底推出,标志着这些基于自我注意的模型在计算机视觉环境中的首次应用。 今年,研究将 Transformer 模型推向了计算机视觉的前沿,在各种任务上实现了最先进的性能。例如:DETR、SegFormer、Swin Transformer和ViT。这个GitHub总结了相当于的基于Transformer的网络。感兴趣的小伙伴可以关注一下。 https://github.com/Yangzhangcst/Transformer-in-Computer-Vision 随着计算机视觉的成熟,越来越多的机器学习开发工作专注于整理、清理和扩充数据。数据质量正在成为性能的瓶颈,行业正朝着数据模型协同设计的方向发展。以数据为中心的机器学习会越来越受欢迎。这一努力的掌舵者是新一波的初创公司——合成数据生成公司(gretel、Datagen、Tonic)和评估、可观察性和实验跟踪工具(Voxel51、Weights & Biases 、CleanLab)——加入现有的标签和注释服务(Labelbox、Label Studio、CVAT、Scale、V7 ) 的努力。在生成对抗网络 (GAN) 的改进和传播模型的快速发展和迭代之间,AI生成的艺术正在经历只能被描述为复兴的过程。借助Stable Diffusion、Nightcafe、Midjourney和 OpenAI的DALL-E2等工具,现在可以根据用户输入的文本提示生成令人难以置信的细微图像。Artbreeder允许用户将多个图像“培育”成新作品,Meta的Make-A-Video从文本生成视频,而RunwayML在创建动画和编辑视频方面改变了游戏规则。其中许多工具还支持修复和outpainting,可用于编辑和扩展图像范围。随着所有这些工具彻底改变 AI 艺术能力,争议几乎是不可避免的,而且已经有很多。9 月,一张AI 生成的图像赢得了一场美术比赛,引发了关于什么才算是艺术,以及所有权、归属和版权如何适用于这类新内容的激烈讨论。估计这个讨论会越来约激烈。除了 AI 生成的艺术作品,2022 年还见证了多种模式交叉领域的大量研究和应用。处理多种类型数据(包括语言、音频和视觉)的模型和管道正变得越来越流行。这些学科之间的界限从未如此模糊,异花授粉也从未如此富有成果。这种上下文冲突的核心是对比学习,它改进了将多种类型的数据嵌入同一空间的方法,开创性的例子是 Open AI 的对比语言-图像预训练 ( CLIP ) 模型。这样做的一个结果是能够根据文本或其他图像的输入对图像集进行语义搜索。这刺激了矢量搜索引擎的繁荣,Qdrant、Pinecone、Weaviate、Milvus和其他引擎引领潮流。同样,模态之间的系统连接正在加强视觉问答和零镜头和少镜头图像分类。计算机视觉现在在从体育和娱乐到建筑、安全、农业等各个领域都发挥着重要作用,在这些行业中的每一个行业中,都有太多的公司采用计算机视觉来计算。本节重点介绍计算机视觉正在深入嵌入的一些行业中的一些关键发展。国际足联在 2022 年卡塔尔世界杯上使用的半自动越位检测功能的图示。当国际足联在卡塔尔世界杯上使用半自动系统检测越位时,计算机视觉就出现在了最大的舞台上。他们还使用计算机视觉来防止体育场发生踩踏事件。其他值得注意的发展包括Sportsbox AI 筹集了由 EP Golf Ventures 牵头的 550 万美元 A 系列,将运动跟踪引入高尔夫(和其他运动),以及新公司Jabbr 为格斗运动定制计算机视觉,从 DeepStrike 开始,这是一种自动计算出拳次数的模型并编辑拳击视频。循环经济初创公司Greyparrot为其计算机视觉驱动的废物监测系统筹集了 1100 万美元的 A 轮融资。Carbon marketplace NCX 使用尖端的计算机视觉模型和卫星图像来提供木材和碳潜力的精确评估,筹集了 5000 万美元的 B 轮融资。Microsoft宣布了 Microsoft Climate Research Initiative (MCRI),它将把他们的计算机视觉用于可再生能源测绘、土地覆盖测绘和冰川测绘方面的气候努力。2022 年对整个自动驾驶汽车行业来说有点喜忧参半,自动驾驶汽车公司Argo AI 在 10 月关闭运营,福特和Rivian将他们的重点从 L4(高度自动化)转移到 L2(部分)和L3(条件)自动化。Apple 最近还宣布缩减其自动驾驶项目“Project Titan”,并将发布时间推迟到 2026 年。尽管如此,计算机视觉还是取得了一些显着的胜利。麻省理工学院的研究人员发布了第一个用于自动驾驶的开源逼真模拟器。在从英特尔分拆出来后,驾驶辅助部门Mobileye 筹集了 8.61 亿美元的 IPO 。谷歌收购了空间人工智能和移动创业公司 Phiar。Waymo在凤凰城市中心推出了自动驾驶汽车服务。在澳大利亚,工程师们设计了一种很有前途的基于计算机视觉的非接触式血压检测方法,它可以替代传统的充气袖带。此外,谷歌开始将其基于计算机视觉的乳腺癌检测工具授权给癌症检测和治疗提供商iCAD肯定还有很多主要的论文,这里面只给出一些比较惊艳的文章Alphabet 今年在计算机视觉领域很活跃,Google Brain 团队研究了Vision Transformers 的缩放,Google 研究开发了对比字幕(CoCa)。Google Brain 团队还使用Imagen Video将他们的文本到图像扩散模型Imagen扩展到视频领域。DeepMind 引入了一种新的自我监督学习范式,在各种迁移学习任务中实现了最先进的性能。最后,Google 发布了Open Images V7,它为超过一百万张图像添加了关键点数据亚马逊至少可以说是多产的,有 40 篇论文被 CVPR 和 ECCV 接受。突出这一名副其实的大量研究的是一篇关于将图像转化为地图的论文,该论文在 ICRA 2022 上获得了最佳论文奖,这是一种评估没有完整(或任何)标签的人脸验证系统偏差的方法,以及修改特定特征的系统处方在 GAN 生成的图像中,它通过用瑞利商的语言重铸问题来工作。Microsoft 在 Transformer 模型方面做了大量工作。就在 1 月,微软介绍 BEiT(图像转换器的 BERT 预训练)的论文在 ICLR 上被接受,随后的模型系列已成为 Transformer 模型领域的主要内容,基础模型从 Hugging获得了 140 万以上的下载量面对过去的一个月。BEiT 家族蓬勃发展,发表了关于生成视觉语言预训练(VL-BEiT)、使用矢量量化视觉标记器进行掩蔽图像建模(BEiT V2) 以及将图像建模为外语的论文。除了 BEiT 之外,Microsoft 一直在利用他们去年通过StyleSwin和Swin Transformer V2创造的 Swin Transformer 浪潮。2022 年的其他著名作品包括MiniViT:使用权重多路复用压缩视觉转换器、RegionCLIP:基于区域的语言图像预训练和NICE-SLAM:SLAM 的神经隐式可扩展编码。Meta 在语言和视觉的十字路口保持着对多模态机器学习的高度关注。视听 HuBERT在唇读和视听语音识别方面取得了最先进的成果。多种语言的视觉语音识别演示了向视觉语音识别 (VSR) 模型添加辅助任务可以显着提高性能。FLAVA: A Foundational Language And Vision Alignment Model提出了一个模型,该模型在 35 种不同的语言和视觉任务中表现良好。data2vec引入了一个统一的框架,用于跨越视觉、语音和语言的自我监督学习。 借助DEiT III,Meta AI 的研究人员重新审视了 Vision Transformers 的训练步骤,并表明经过基本数据增强训练的模型可以显着优于完全监督的 ViT。Meta 在重建符号距离场 (SDF) 的持续学习方面也取得了进展,包括 Yann LeCun 在内的一组研究人员分享了对比学习为何有效的理论见解。读这个。真的。 最后,在 9 月,Meta AI 将 PyTorch 拆分为与供应商无关的PyTorch Foundation,此后不久发布了PyTorch 2.0。 标注初创公司Labelbox 筹集了 1.1 亿美元的 D 轮融资 V7 筹集了 3300 万美元的 A 系列资金,以帮助团队构建强大的 AI Roboflow 发布了Roboflow 100,一个新的对象检测基准 Voxel51 筹集了 1250 万美元的 A 系列资金,以帮助提高全球数据的清晰度和透明度 2022 年对于机器学习来说非常活跃,对于计算机视觉来说尤其如此。疯狂的是,研究的快速发展、从业者人数的增长和行业的采用似乎都在加速。让我们看看 2023 年会发生什么!下载1:OpenCV-Contrib扩展模块中文版教程
|