人机交互：研究现状概述

金志恒牙医 2017-06-17

展开全文

作者：陈童

翻译：方爽

来源：战略前沿技术

概要：一直以来，互动都是困扰着优化利用电脑的一个问题。

1. 引言

一直以来，互动都是困扰着优化利用电脑的一个问题。人类与计算机交互所使用的方法也由来已久。但探索仍在继续，新的设计的技术系统日益更新升级，过去的几十年中这一领域的研究一直快速增长着。在人机交互(HCI)领域中的成长不仅仅体现在互动质量的提高，在它的成长史中也开辟了不同的分支。不同的研究分支有异于设计常规互动，而是更多的关注多峰性而不是单峰性、关注智能自适应互动而不是基于命令/行动的互动，最终呈现的是主动而不是被动的互动。本文旨在提供一个人机交互系统发展现状的概述，涵盖上文提及的重要研究分支的研究现状。第二节将介绍人机交互的基本的定义和术语，概述现有的技术和该领域的最新进展，随后将描述人机交互设计中不同架构。最后一部分将介绍一些人机交互的应用及其未来发展方向。

2.人机交互：定义，术语

人机交互有时称为人与机器的互动。人机交互的概念自然代表着计算机、或更普遍来说的机器自身的兴起。事实上,原因很清楚:最复杂的机器是毫无价值的,除非他们可以被人类使用得当。这个基本的争论代表着在设计人机交互时应考虑的主要的术语:功能性和可用性[1]。

为什么一个真正被设计出来的系统可以由这个系统的功能来最终定义？例如，系统的功能性可以怎样帮助达成系统的目的？一个系统的功能可以由它提供给用户一系列操作与服务来界定。当然,功能性的价值只有在它被用户有效利用时才是可见的[2]。可用性是一个带有某些功能的系统可以可以被其用户有效利用和充分实现特定目标的范围和程度。功能性和可用性适当的平衡是一个系统获得真正有效性的必要条件[3]。

当头脑中有这些概念时再考虑到计算机、机器和系统这些在文章中通常可以互换使用的术语时,人机交互是应该是一个使用户、机器和所需的服务之间产生配合的设计，以在服务的质量和最优性能上达到一个特定的效果[4]。确定什么因素使一个一定的人机交互设计得好基本上是主观的、由实际情况决定的。例如,一架飞机零件设计工具应该在视图和设计上提供高的精度，而图形编辑软件可能不需要这样的精度。目前拥有的技术还可以影响用于相同目的但类型不同的人机交互设计。一个很好的例子是使用命令,菜单,图形用户界面(GUI),或虚拟现实来访问任何指定计算机的某种功能。在下一节中将更加详细地概述用于与计算机进行交互现有的方法与设备，以及该领域的最新进展。

3.人机交互概述

人机交互在过去十年中取得了巨大进步，几乎使人们无法识别哪些概念是虚幻的，哪些概念不是虚幻的，甚至是可以成为现实的。研究中的推力和营销手段的不断变化促使新技术可以及时提供给人们使。然而,并不是所有的现有技术都可以被公众接触到或是负担得起。在该节的第一部分将概述一些或多或少是可以被公众使用的技术。第二部分将呈现人机交互研究前景。

3.1现有的人机交互技术

人机交互设计应该考虑人类行为和需要的许多方面，来确保其有用性。与简单的交互方法本身相比，人类参与机器交互程度的复杂性有时是隐形的。现有的互动复杂程度的不同不仅是因为功能或可用性程度不同，也与机器在市场金融、经济方面的影响有关。例如,一个电水壶不需要复杂的互动，它的功能仅仅是烧水，除了一个开关外，多余的互动功能都不划算。然而,一个简单的网站，在功能上可能有限，但为了吸引并留住顾客其可用性应是足够复杂的[1]。

因此,在人机交互的设计中，活动程度应该被充分考虑，哪怕只有一个用户与一台机器机器。用户活跃度有三个不同的层次:物理层面[5],认知层面[6]和情感层面[7]。物理层面决定了人类和计算机力学相互作用；在认知层面解决用户了解系统并与之交互的问题。情感层面是最近新提出的一个问题，它不仅试图使互动成为愉悦的用户体验，也会通过改变用户的态度和情感来让用户继续使用这台机器[1]。

本文的重点主要集中在物理层面交互的发展，并展示不同的交互方法是如何组合的(多模式交互)，探讨每个方法如何提高表现(智能交互)从而为用户提供一个更好界面。现有的人机交互物理技术基本上可以根据设备基于不同人类感觉设计，分类。这些设备是主要依靠三个人类感官:视觉、听觉和触觉。[1]。

依靠视觉的输入设备是最常用的类型，通常基于开关或者指向装置[8][9]。这个基于开关的设备可以是任何类型的接口，可以像使用键盘一样使用的按钮和开关[10]。指向设备有很多，如鼠标、操纵杆、触摸屏面板、图形平板电脑、轨迹球和触控输入笔等[11]。操纵杆是指那些有开关和指示能力的。而输出设备可以是任何类型的视觉显示或打印设备[3]。

依靠听觉的设备更为先进，通常需要某种类型的语音识别[12]。这些设备旨在促进尽可能多的交互，因此也更难以建立[13]。然而，听觉输出设备更容易创建。如今,由机器产生的各种非语音[14]和语音信号和消息都被视为输出信号。哔哔声、警报以及GPS设备逐向道路导航命令都是简单的示例。

最困难和最昂贵的是构建触觉装置[15]。“这种类型的界面通过触摸、重量和相对刚度[1]生成皮肤和肌肉的感觉。“触觉装置[16]通常生产用于虚拟现实[17]或残疾辅助[18]。

人机交互最新的方法和技术在正试图整合原交互方法，并与其他先进技术结合，如网络和动画。这些新进展可分为三个部分:可穿戴设备[19]，无线设备[20]和虚拟设备[21]。技术的发展如此之快，以至这些新技术之间的界限逐渐消失，日益混合。这些设备的一些例子包括:GPS导航系统[22]，军事报国加强设备(如热视觉[23]、跟踪其他士兵运动使用的GPS、环境扫描)，无线电频率识别(RFID)产品、个人数字助理(PDA)、房地产虚拟旅游业务[24]。其中一些新设备升级整合了之前的交互方法。康柏的iPAQ提出的一个键盘解决方案可作为个案演示，被称为Canesta键盘，如图1。这是一个虚拟键盘，将键盘字母用红色的光投射在固体表面上。设备通过传感器追踪用户在固体表面上打字的手指运动，并发送对应按键到设备中[25]。

3.2在HCI的研究进展

在以下部分中,将介绍人机交互最近的研究方向和进展，即智能与自适应交互和无处不在的计算。这些交互包括不同级别的用户活动:身体、认知和情感。

3.2.1智能和自适应人机交互

广大公众所使用的设备虽然仍然是某种的纯命令/动作设置，而不是复杂的物理设备，我们的研究将是针对智能与自适应交互接口设计。我们还不不知道有关智能理论的确切概念，然而我们可以通过在市场上的新设备的功能性和实用性来定义这些概念正如前面提到过的,它是重要的经济和技术,提供了更方便的人机交互设计,更愉快的和令人满意的用户体验。为了实现这个目标,接口也越来越自然,便于每天使用。进化的接口在笔记工具是一个很好的例子。第一次有打字机,然后键盘和触摸屏平板电脑现在,你可以用自己的笔迹进行书写，机器进行识别，甚至你可以进行语音输入，由机器进行识别，而不需再用手书写。新一代接口的一个重要的因素是区分智能方式，界面和用户交互，智能人机交互设计界面,将至少从某种智能感知响应用户。一个例子是使得说话人使用自然的语言来与用户和设备进行交流。明确的对用户进行视觉跟踪并进行相应的回应。另一方面,自适应人机交互的设计,可能不会使用智能接口的创建,但使用它的方式继续与用户的互动[33]。一个自适应人机交互可能是一个网站使用GUI销售各种产品。这个网站将是自适应——某种程度上——如果它有能力识别用户,并保持一个他的搜索，购买记录查，并建议它认为用户可能需要销售的产品。大多数的这些类型的适应活动是那些处理认知与情感水平的用户活动[1]。另一个例子，它使用的智能与自适应接口是具有手写识别能力的，它可以适应手写PDA或平板电脑登录的用户，它拥有的字迹识别和修正能力来记住用户的文本。最后，另一个要考虑的有关智能接口的因素是大多数非智能人机交互设计在本质上是被动的，即它们只在用户调用时候响应，而最终的智能和适应性的接口往往是积极的接口。这个例子是根据用户的口味提出自己的智能广告牌或广告。在接下来的部分，将组合不同的人机交互方法和并将如何能有助于智能自适应自然界面的方法进行讨论。

3.2.2无处不在的计算和环境智能

在人机交互领域的最新研究成果，是无处不在的普适计算（普适计算）。这个术语经常互换使用环境智能和普适计算，是指人机交互的最终方法是删除在环境中的计算机的桌面和嵌入，使之成为无形的，而他们周围无处不在。普适计算的想法最初是由马克·韦泽在1998年他在施乐PARC计算机科学实验室担任首席技术专家时候提出的。他的想法是，将世界各地的计算机和日常物品进行连接，人们可以同时将环境和物品进行无线沟通。普适计算也被命名为计算的第三次浪潮。第一波是大型机时代，很多人一台电脑。然后是第二次浪潮，一人一台电脑被称为个人电脑时代。现在的普适计算引入了多台计算机，成为一个人的时代[27]。图2示出了计算的主要趋势。

4人机交互系统架构

人机交互设计的最重要的因素是它的配置。事实上，任何给定的接口通常是由它提供的输入和输出的数量和多样性定义的。人机交互系统的体系结构显示这些输入和输出是什么，以及他们如何一起工作。以下各节介绍基于不同的配置和设计的接口。

4.1单峰人机交互系统

正如前面提到的,一个接口主要依靠它输入和输出设备的数量和多样性，这种渠道让用户可以通过此接口与计算机进行交互。每一个不同的独立的单通道称为方式 [36]。一个系统,是基于只有一个形态叫做单峰。基于不同形式的性质,可以分为三个类别:

4.1.1基于视觉
4.1.2基于音频
4.1.3基于传感器

接下来的小节描述每个类别，每个方式，并提供实例和参考。

4.1.1基于视觉的人机交互

基于视觉的人机交互研究可能是该领域中最普遍的。考虑应用程序的范围和各种开放问题和方法,研究人员试图解决可视为视觉信号的人的不同方面的反应。本节中的一些主要研究领域如下：

面部表情分析
身体运动跟踪（大型）
手势识别
凝视检测（眼动跟踪）

由于应用的不同每个地区目标也不同，但是每个区域的普遍观念是大体一致的。面部表情分析一般是处理视觉情绪认知。这个领域的研究焦点是人体运动跟踪和手势识别，这个领域可以有不同的研究目的但他们大多是用于直接命令中人与计算机的互动。目光检测则主要是以间接形式的使用户与机器间进行互动，更好地理解用户的注意力,意图或敏感的情况[44]。一个例外是帮助残疾的眼跟踪系统，它主要作用在命令和动作场景，如指针运动,闪烁,点击。值得注意的是，一些研究人员试图协助甚至取代其他类型的相互作用（音频，传感器为主）与视觉方法。例如，唇读或唇运动跟踪是已知的用于语音识别的纠错的一个有效的帮助。

4.1.2基于音频的人机交互

基于音频的计算机和人之间的交互是人机交互系统的另一个重要领域。这个领域处理不同的音频信号获得的信息。虽然音频信号的性质可能不可以作为视觉信号，但从音频信号收集到的信息可以更值得信赖，更有用，在某些情况下，成为独特的信息提供者。本节中研究区域可分为以下几部分组成：

语音识别
说话人识别
听觉情感分析
人为噪声/登录检测（喘气，感叹，笑，哭，等）
音乐互动

从历史上看，语音识别和说话人识别的研究一直是主要的焦点。最近的努力是在人机交互分析领域整合人类情感。相比其他的音调和音高的语音数据，典型的人类听觉的迹象，如叹息，惊呼等帮助的情感分析，设计更智能化的人机交互系统。音乐的生成和互动是一个人机互动艺术领域非常新的应用，它主要集中在音频和视觉研究中。

4.1.3基于传感器的人机交互

本部分结合了各个领域的广泛应用。这些不同领域的共性是,在人机交互中至少有一个物理传感器。这些传感器如下所示可以非常原始的或非常复杂。

1笔式交互
2鼠标和键盘
3操纵杆
4运动跟踪传感器和数字转换器
5触觉传感器
6压力传感器
7味道/气味传感器。

这些传感器已经存在了一段时间,其中的一些非常新的技术。笔式传感器主要在移动设备领域，并且涉及到笔势和手写识别领域。键盘、鼠标和操纵杆已在3.1节讨论。更多信息参考:[8][9][10][11]。运动跟踪传感器/数字转换器是的最先进的技术，它彻底改变了电影、动画、艺术和游戏产业。他们以可穿戴布或者关节传感器的形式出现，使得电脑更能与现实的世界进行交互，人们可以创建他们的世界。图3描述了这样的一个装置，触觉和压力传感器应用在机器人和虚拟现实领域。新的机器人包括数以百计的触觉传感器,使机器人敏感和有触摸能力，这些类型的传感器还用于医疗手术应用

传感器的触控笔专门兴趣移动设备和相关笔手势[30]和手写识别领域。键盘、鼠标和操纵杆已在3.1节讨论。更多信息参考:[8][9][10][11]。运动跟踪传感器/ digitizers是最先进的技术,彻底改变了电影、动画、艺术和游戏产业。他们会在形式的可穿戴布或关节传感器,使电脑更能与现实和人类能够创建他们的世界几乎。图3描述了这样的一个装置。触觉和压力传感器是应用程序的特殊利益在机器人和虚拟现实[15][16][18]。新的机器人包括数以百计的触觉传感器,使机器人敏感和知道摸[52][53]。这些类型的传感器还用于医疗手术应用[54]。在味觉和嗅觉传感器研究领域也有一些研究工作，但是他们并不像其他领域那样风行。

4.2多通道人机交互系统

这个术语是指的多通道组合多个形式。在MMHCI系统,这些形式主要是参考方法,系统响应输入,即沟通渠道[36]。这些渠道的定义是继承自人类类型的通信,基本上是他的感官:视觉、听觉、触觉、嗅觉和味觉。用机器进行交互包括这些可能的类型但是不限于这些类型。因此，通过两个或者两个以上是输入模式而不是传统的键盘和鼠标设备，一个多通道界面可以成为人机交互的促进者。这些输入设备的类型和工作模式可能相差很大，多通道界面将整合不同组合的语音、手势、目光、面部表情和其他非传统模式的输入。最普遍的一种支持的输入组合方法是手势和语音[56]。虽然一个理想的多模态人机交互系统应该包含单个交互的方式，相关性的组合，每一种模式的实际边界和开放问题在每个形态反对限制上的融合，尽管在MMHCI上有很多进展，大多数现有的多通道系统应该区分对待，只在最后将不同的方式结合在一起。原因在于,在每个地区的开放问题尚未完善意味着仍然有工作需要完成以获得可靠的工具，此外，角色的不同的方式和他们的相互作用的份额并不科学。“人儿，人们在用多通道今夕信号传达和交往时候，需要分析多个不同传感器获得的输入信号，信号不是独立的，不能在最后的时候进行结合，相反这些输入数据应该被处理在一个联合的空间内，在实践中，除了上下文的问题检测和发展相结合的多感官信息的上下文相关模型，人们应该配合所需的联合特征空间的大小。问题包括大维度，不同的功能，格式和时间校正。

一个有趣的方面是不同方式的合作。例如,嘴唇运动跟踪(视觉基础)可以帮助语音识别方法(音频基础)，语音识别方法(音频基础)可以帮助命令采集在手势识别(视觉的基础)。接下来的一节将显示一些应用智能多式联运系统。

5 应用

一种典型的多通道系统是“把他放在那里”示范系统[57]。这个系统允许一个物体移动到一个新的位置并在屏幕上的地图说:“把东西放在那里”而指向对象本身然后指向理想的目的地。多通道界面已经被用在许多应用程序包括使用地图的模拟,如上述系统;信息亭,如AT&T的MATCHKiosk[58]和[56]生物认证系统。

多通道界面相比传统的交互拥有很多优势。首先,他们可以提供一个更自然的和用户友好的体验。例如,在一个房地产系统称为真正的猎手[24],你可以用一根手指点到一个房子，来查询房子的信息。使用一个指向手势选择一个对象,并使用语音使查询关于它演示了类型的自然体验多通道界面提供给他们的用户。另一个关键的优势是他们有适应不同人不同情况的能力。例如，MATCHKiosk的允许使用语音或手写在地图上搜索指定类型的企业。因此，在嘈杂的环境中，可提供通过手写输入，而不是语音。一些其他的多通道系统应用如下：

智能家居/办公室
驾驶员状态监视
智能游戏
电子商务
协助残疾人士

在下面的章节中，一些重要的多通道系统的应用将会更详细的进行论述。

5.1 适合残疾人使用的多通道系统

好的多通道应用程序可以解决和帮助残疾人（如双手残疾的人），这比起普通的程序更需要其他类型的接口。在这样的系统中，残疾用户可以声音和头部运动来操作机器，。图4是这种系统的一个实际的例子。使用两种方式:言语和头部动作。这两个形式都十分活跃。头部位置表示在当前时刻的光标在屏幕上的坐标。在另一方面，对话提供所需的由光标选择的对象必须执行的动作的含义的信息。

两种模式之间的同步是通过在语音检测的开始计算的光标位置。这主要是由于这样的事实，在完整的句子的发音的过程中，光标所在位置的可移动磁头移动，则光标可以指向其他的图形对象，而且必须要完成的命令，该命令出现在在很短的时间，然后再开始的短语输入一个人的大脑。图5显示了本系统的原理图。
Human’s Markers on
speech human’s head

图5：图双峰系统[65]

尽管一些减小操作速度,多通道系统允许不使用标准的鼠标和键盘进行操作。因此,这种系统可以成功地用于控制免提PC和手部有残疾的人士。

5.2情感识别多通道系统

我们的世界里，电脑越来越普及，它成为更加重要的机器。它们去感知和解释所有线索,内隐记忆和外显,使我们可以向他们提供我们的意图，一个自然的人机交互方式，不能仅仅基于明确表示命令。电脑将不得不在此基础上，推断出一个人的情绪状态检测各种行为信号。这是一个显着的一块拼图，一个放在一起准确地预测一个人的意图和未来的行为。人们能够根据他们观察一个人的脸，身体和声音的情绪状态做出预测。研究表明，如果一个人获得这些方式只有一个，面对的方式会产生最好的预测。当用脸部和身体进行预测，预测的精度就可以提高百分之三十五。这表明，受影响的确认，它具有的大部分集中在面部表情，可以大大受益于多通道融合技术。一直试图整合不止一个形态识别影响，其中的五官和身体姿势的功能相结合产生的一个指标。综合脸部和身体的方式是另一个工作，作者表明，与人类相似，机器分类的情绪时是更基于脸部和身体的数据，而不是任何方式的单独数据。作者试图影响识别面部和语音数据融合。再次，与人类判断，机器分类的情绪如中性，悲伤，愤怒，或开心的是最准确的面部和声音结合数据。他们记录了四种情绪：“悲伤，愤怒，幸福和中性状态”。详细的面部运动数据和声音数据相联系，实验表明，面部识别系统的性能，克服了一个仅基于声信息。结果还表明，适当融合两种模式将有可衡量的改进。结果表明，有声信息的基础上的情感识别系统只给70.9％的整体性能，基于面部表情识别系统相比，85％的整体性能。因此由于这样的事实，脸颊区域研究给情感分类给出重要的信息。另一方面，面部识别和声学信息的基础上的系统的双峰融合，这个分类系统的整体性能是89.1％。

5.3使用地图的多通道应用程序

不同的输入方式是适合表达不同的信息。例如,演讲提供了一个简单和自然机制来表达查询有关选择的对象或要求对象发起一个给定的操作。然而,演讲也可能有不适合的任务,如选择一个特定的区域在屏幕上或定义出一个特定的路径。这些类型的任务更好的适应用手或笔手势。然而,使查询关于一个给定的区域并选择该地区都是典型的任务,应该有一个地图界面,因此,自然的结论是,使用地图的界面可以极大地改善用户体验,支持多个模式的输入,特别是语音和手势。

树篱[70]是一个更广泛的认识和使用地图的应用程序,使用语音和笔手势输入。树篱是军事训练的应用程序,允许用户使用两者之一或两者同时形式来表达一个完整的命令。。例如，用户可以简单地绘制出一个预定义的符号排在一个给定的位置在地图上创建一个新的排在该位置用钢笔。或者,用户可以使用语音来指定他们的目的在建立一个新的坐标,可以指定用声音的坐标位置。最后,用户可以用声音表达他们的意图。在一个新的位置用钢笔进行手势指定，一个更新的多通道地图应用程序是真正的猎手。这是一个房地产接口，用户同时使用语音查询触摸输入选择对象或地区。例如，用户可以问：“这个多少钱？”一边指着地图上的房子。导游是另一种基于地图应用程序，它受益与多通道交互技术已经显示出了巨大的潜力。这样的一个例子是MATCHKiosk[58],交互式城市指南。在类似的方式来快速设置，MATCHKiosk允许一个仅使用语音来表达一定的查询，如“在华盛顿找出我的印度餐馆” 使用笔输入写出“餐馆”;使用双向输入说“印度餐馆在这个区”,在亚历山大画一个圈。这些例子说明MATCHKiosk公司手写识别,可以经常代替语音输入。虽然对于一个用户演讲可能是更自然的选择,但是在嘈杂的环境中,有书法作为备份可以减少用户受挫。

5.4多通道人机交互应用

类似于一些使用地图界面,人机接口通常必须提供一种机制来指向特定的位置和表达操作发起请求。正如前面所讨论的,前者类型的交互是伴随而至的手势,而后者是通过演讲更好地适应。因此,人机界面建立海军研究实验室(NRL)应该是意料之中的[71]。海军研究实验室的接口允许用户指向一个位置而说“走过去”。此外,它允许用户使用PDA屏幕作为第三可能的交互，这可能是使出语音或手势识别失败时。另一种多通道人机界面是一个互动系统实验室建造的(ISL)[72],它允许使用语音请求机器人做一些手势可以用来指向对象的引用演讲。这样的一个例子是要求机器人,“开关灯”,而指向灯。此外,在ISL的接口,系统可能会要求当用户当不确定输入时候进行澄清。例如,如果没有手势是公认的,是指向一个光,系统可能会要求用户:“哪个光?

5.5 在医学中的多通道人机交互

20世纪80年代早期，外科医生开始靠传统方法以达到自己的极限。人的手不能实行的许多任务，需要更大的放大倍率和小工具。需要更高的精度，定位和操纵人体的敏感部位。数字机器人由于其快速的改进，计算机科技和神经成像技术已经成为街机这些局限性的领先解决方案。机器人手术被引入到手术区[73]。

州立大学,卡尔斯鲁厄大学(德国)和哈佛医学院(美国)一直致力于开发人机界面,自适应机器人和多代理技术用于神经外科手术[54]。神经外科手术机器人由以下主要组件：臂，反馈的视觉传感器，控制器，定位系统和一个数据处理中心。传感器为外科医生提供反馈从手术部位的实时成像，其中后者更新与新的指令的机器人的控制器，通过使用计算机接口和一些操纵杆。

神经外科手术机器人提供手术规模要小得多，具有更高的准确度和精密度。

6.结论

人机交互的重要组成部分,是系统设计。系统的质量取决于它是如何表示和用户使用。因此,大量的已经注意到更好的人机交互设计。新的研究方向是取代普通的常规方法，是更为交互与智能,自适应,多通道、自然的方法。环境智能或普适计算称为第三波正试图嵌入到环境的技术,以使它同时成为更自然的和无形的技术。虚拟现实也是一个推进人机交互领域的重要部分。本文试图对这些问题作一概述,并提供一个现有的调查研究，做一个全面的参考资料列表。

作者：陈童