分享

戴上AR眼镜解锁积木的AI玩法

 Mixlab交叉学科 2021-10-12

叶虹霓

@shadow 哈喽,我们写了一篇关于结合AI+AR辅助拼积木的推送文章,想投稿在mixlab的公众号。

好呀,蛮好的~~收稿!
@opus 干活了

shadow

opus

BrickPal,让我看到了新一代团队作战模式的可能性。他们是2021年 deecamp 人工智能训练营的参赛队伍之一,团队成员跨着不同背景和时区,在3个月的通力合作下,最终获得第3名的成绩。

本文从项目的前期方案构想、技术要点、未来商业三方面,来阐述Airbrick团队是如何萌生出用增强现实(AR)的技术结合人工智能(AI)来优化拼积木的体验,以及他们是如何将想法一步一步落地实现的。

⬆️ 快速了解BrickPal是什么?


💡 人工智能的创新&
积木说明书的生成

由于赛题是既定的,主要围绕人工智能的创新和积木说明书的生成。我们首先对现在市场上的积木说明书的相关产品进行了竞品分析。

主要发现了当前积木说明书的一些痛点,例如传统的纸质说明书的拼装顺序是固定的,并且可视化视角单一,拼好之后说明书将被弃用,积木本身也会被束之高阁。之后我们也对积木玩家和一些资深MOCer进行了调研,我们发现积木更有趣的拼法,和可个性化改造是呼声很高的需求。

最近,越来越多公司将AR技术运用到积木的玩法,和说明书的展现形式中。

例如snapchat推出的connected lenses,允许多人远程共同拼同一套虚拟乐高积木。Lego公司也推出了Lego Hidden Side,在移动端上与积木玩AR抓鬼游戏。同时,我们还读到一篇关于通过AR虚拟积木块来引导拼装真实积木的文章[1],而AR技术恰好能完美解决拼积木体验中的一些痛点,可提供丰富的可视化视角和更有趣的互动体验,这些都启发了我们将说明书的拼装指引结合AR技术来实现。


[1].Yan, Wei. “Augmented Reality Applied to LEGO Construction: AR-based Building Instructions with High Accuracy & Precision and Realistic Object-Hand Occlusions.” ArXiv abs/1907.12549 (2019): n. pag.




💡 非线性拼装

前面还提到说明书的另一个痛点,拼装顺序的固定性。为了打破传统说明书的线性拼装,我们提出了非线性拼装这一概念。

运用NLP来自动生成拼装顺序,让拼装一个积木玩具就像是讲一个故事,并且故事情节是可选择的。也就意味着,系统能够根据用户对要拼的积木块做出的选择来预判和实时推荐下一个要拼的积木块。

针对以上,我们提出了BrickPal的产品方案,覆盖从模型分包,拼装指引,实时拼装顺序生成,部位改造与细节预览等积木拼装体验的全链路,我们使用了AR技术增强用户拼装体验,并通过NLP模型实时预测拼装顺序,给用户带来有趣流畅的积木玩法。


BrickPal的功能流程以及应用到AR和NLP的环节



我们的方案主要包括3个技术要点:

- NLP:

Assembly as language

即将积木拼装问题建模成语言模型,把积木块像语言一样调整组合;

- AR:

Immersive and gamification

通过增强现实的技术来实现沉浸式游戏化的拼装体验;

- Editing:

In-situ creation

辅助用户改造积木模型,让用户在拼装过程中也能进行创作。



首先,简单介绍下我们是如何将NLP结合到积木拼装上的。考虑到用积木块拼一个积木就像是将词语排列组合成为一句话,我们将拼装问题转换为一个NLP问题,使其具有可微分、可优化的目标。

积木顺序生成和自然语言处理(NLP)这两个问题研究的都是离散的数据。积木块是离散的,积木块能拼的位置也是离散的。另外,由于拼装顺序也有前后的依赖性,我们了解到,Transformer模型中的attention模块能起到相应的作用





但是,积木顺序生成和文本有一个很大的区别,在处理积木块序列的时候要考虑其在整个积木模型中的三维空间结构。

我们首先计算两个积木块之间的相对位置,然后把这个相对位置作为特殊的token插入到两个积木块之间。这样一来,在对积木块顺序进行建模的同时,也融入了积木块的空间位置信息。利用训练好的融合空间信息语言模型,我们可以基于已经拼好的积木块来预测接下来最有可能拼装的积木块。每一步都可以提供一个或多个拼装选择,供用户挑选。



动画显示,通过我们的模型从零生成一个完整的模型序列大概只需要5秒左右。而原本的生成方法时间在5分钟以上。效率上提升了两个数量级。

除了直接生成完整的序列,我们的NLP模型还可以赋予用户在拼装过程中选择的权力,可以不按照固定的说明书流程来拼

这种非线性拼装的方式能够增加交互的游戏乐趣

除了运用NLP技术在积木的顺序生成上,我们也使用了AR技术来辅助和优化积木的拼装体验。

首先,我们使用到的AR头显设备是,有着双目2k分辨率,50°fov视场角,6dof空间定位,105°fov前向rgb的Ori max( 此处感谢@孝吾 为我们倾情赞助的AR眼镜👏),开发工具是unity+vuforia,我们使用的是marker-based AR方法,为此我们还设计了特制的积木底座和支持零件分类的包装盒。



在NLP模型输出的多可能拼装选择的基础上,采用积木分包+marker的技术,我们实现了实时拼装积木流程的识别。

针对用户目前的拼装结果,我们的NLP模型会返回多个可能的积木块,每个积木块分别属于不同的积木分包。

通过AR判断用户选择了哪个分包就可以确定用户现在在拼的积木块。并基于此实时生成下一步的拼装选择。


针对传统纸质说明书普遍存在可视化视角单一、拼装位置不明确等问题。我们通过AR增强现实技术将用户需要拼装的下一个或多个积木块虚拟地叠加在已经拼好的模型上,从而实现了更加沉浸式的拼装指引。

我们还允许用户在改装过程中自定义自己的方仔,并在AR中实时预览改装效果。当确定了改装想法后,我们还会实时生成新的改装顺序来引导用户拼装。





💡 商业

对于这个项目,我们也有一些商业上的思考。

积木每年的市场规模都在稳定增长。消费者对积木模型的多样性与个性化的需求也在不断提升。然而目前大多数大型积木厂商仍然保持着整合设计,包装,售卖于一体的中心化商业模式,难以满足消费者的需求。

以积木市场的龙头乐高公司为例,乐高结合自身的设计能力以及市场调研的综合考量,每年只会推出大约130套全新的模型。这对于消费者来说选择是非常有限的。

因此,我们希望打破中心化的商业模式,转向社交化UGC的积木设计售卖平台,结合社交元素让MOCer与普通用户一起创作积木内容。



普通用户需要探索自己动手设计模型的参与感。

我们将充分利用不同的平台包括PC端,智能手机,虚拟现实,以及我们的增强技术各自的优势,允许用户对积木模型进行个性化改装,甚至亲手创作积木模型。

而我们的平台也将整合零件生产商提供包括零件供应与分拣,包装,物流与发售的一体化后端系统,让用户一键下单就可以买到自己心仪的积木模型。





类比于短视频平台降低了视频剪辑的门槛,我们希望我们的平台可以降低普通用户的积木创作门槛,人人都能成为MOCer。





最后,在我们的网站里,用户可以浏览MOCer的个人主页,找到心仪的作品后可以进行AR的预览与改装和一键下单。

💡 团队介绍

# 特别致谢:

张然 ML146、孝吾 ML228

方仔照相馆、未知数字

MOCer:叁焱、耿耿在此、慕舞歆


eva

好有意思呀~~还有哪些推荐资料,可以让我进一步了解的呀?

知识库

@eva 可以进一步阅读论文:Computer-Aided Design as Language.

Ganin, Yaroslav et al. “Computer-Aided Design as Language.” ArXiv abs/2105.02769 (2021): n. pag.


eva

@孝吾,如果想要用上这款AR眼镜有什么条件?或者合作方式

孝吾

ML228

哈哈哈,只要我们觉得好玩有趣的ARMR项目,就可以来聊hhh

opus

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多