【原】戴上AR眼镜解锁积木的AI玩法

Mixlab交叉学科 2021-10-12

展开全文

叶虹霓

@shadow 哈喽，我们写了一篇关于结合AI+AR辅助拼积木的推送文章，想投稿在mixlab的公众号。

好呀，蛮好的~~收稿！
@opus 干活了

shadow

opus

BrickPal，让我看到了新一代团队作战模式的可能性。他们是2021年 deecamp 人工智能训练营的参赛队伍之一，团队成员跨着不同背景和时区，在3个月的通力合作下，最终获得第3名的成绩。

本文从项目的前期方案构想、技术要点、未来商业三方面，来阐述Airbrick团队是如何萌生出用增强现实（AR）的技术结合人工智能（AI）来优化拼积木的体验，以及他们是如何将想法一步一步落地实现的。

⬆️ 快速了解BrickPal是什么？

💡 人工智能的创新&

积木说明书的生成

由于赛题是既定的，主要围绕人工智能的创新和积木说明书的生成。我们首先对现在市场上的积木说明书的相关产品进行了竞品分析。

主要发现了当前积木说明书的一些痛点，例如传统的纸质说明书的拼装顺序是固定的，并且可视化视角单一，拼好之后说明书将被弃用，积木本身也会被束之高阁。之后我们也对积木玩家和一些资深MOCer进行了调研，我们发现积木更有趣的拼法，和可个性化改造是呼声很高的需求。

最近，越来越多公司将AR技术运用到积木的玩法，和说明书的展现形式中。

例如snapchat推出的connected lenses，允许多人远程共同拼同一套虚拟乐高积木。Lego公司也推出了Lego Hidden Side，在移动端上与积木玩AR抓鬼游戏。同时，我们还读到一篇关于通过AR虚拟积木块来引导拼装真实积木的文章[1]，而AR技术恰好能完美解决拼积木体验中的一些痛点，可提供丰富的可视化视角和更有趣的互动体验，这些都启发了我们将说明书的拼装指引结合AR技术来实现。

[1].Yan, Wei. “Augmented Reality Applied to LEGO Construction: AR-based Building Instructions with High Accuracy & Precision and Realistic Object-Hand Occlusions.” ArXiv abs/1907.12549 (2019): n. pag.

💡 非线性拼装

前面还提到说明书的另一个痛点，拼装顺序的固定性。为了打破传统说明书的线性拼装，我们提出了非线性拼装这一概念。

运用NLP来自动生成拼装顺序，让拼装一个积木玩具就像是讲一个故事，并且故事情节是可选择的。也就意味着，系统能够根据用户对要拼的积木块做出的选择来预判和实时推荐下一个要拼的积木块。

针对以上，我们提出了BrickPal的产品方案，覆盖从模型分包，拼装指引，实时拼装顺序生成，部位改造与细节预览等积木拼装体验的全链路，我们使用了AR技术增强用户拼装体验，并通过NLP模型实时预测拼装顺序，给用户带来有趣流畅的积木玩法。

BrickPal的功能流程以及应用到AR和NLP的环节

我们的方案主要包括3个技术要点：

- NLP：

Assembly as language

即将积木拼装问题建模成语言模型，把积木块像语言一样调整组合；

- AR：

Immersive and gamification

通过增强现实的技术来实现沉浸式游戏化的拼装体验；

- Editing：

In-situ creation

辅助用户改造积木模型，让用户在拼装过程中也能进行创作。

首先，简单介绍下我们是如何将NLP结合到积木拼装上的。考虑到用积木块拼一个积木就像是将词语排列组合成为一句话，我们将拼装问题转换为一个NLP问题，使其具有可微分、可优化的目标。

积木顺序生成和自然语言处理（NLP）这两个问题研究的都是离散的数据。积木块是离散的，积木块能拼的位置也是离散的。另外，由于拼装顺序也有前后的依赖性，我们了解到，Transformer模型中的attention模块能起到相应的作用。

但是，积木顺序生成和文本有一个很大的区别，在处理积木块序列的时候要考虑其在整个积木模型中的三维空间结构。

我们首先计算两个积木块之间的相对位置，然后把这个相对位置作为特殊的token插入到两个积木块之间。这样一来，在对积木块顺序进行建模的同时，也融入了积木块的空间位置信息。利用训练好的融合空间信息语言模型，我们可以基于已经拼好的积木块来预测接下来最有可能拼装的积木块。每一步都可以提供一个或多个拼装选择，供用户挑选。

动画显示，通过我们的模型从零生成一个完整的模型序列大概只需要5秒左右。而原本的生成方法时间在5分钟以上。效率上提升了两个数量级。

除了直接生成完整的序列，我们的NLP模型还可以赋予用户在拼装过程中选择的权力，可以不按照固定的说明书流程来拼。

这种非线性拼装的方式能够增加交互的游戏乐趣。

除了运用NLP技术在积木的顺序生成上，我们也使用了AR技术来辅助和优化积木的拼装体验。

首先，我们使用到的AR头显设备是，有着双目2k分辨率，50°fov视场角，6dof空间定位，105°fov前向rgb的Ori max（此处感谢@孝吾为我们倾情赞助的AR眼镜👏），开发工具是unity+vuforia，我们使用的是marker-based AR方法，为此我们还设计了特制的积木底座和支持零件分类的包装盒。