65.9K
CodeProject 正在变化。 阅读更多。
Home

案例研究:4tiitoo 利用语音、手势和眼球追踪输入构建现代用户界面

emptyStarIconemptyStarIconemptyStarIconemptyStarIconemptyStarIcon

0/5 (0投票)

2013年4月12日

CPOL

17分钟阅读

viewsIcon

19147

案例研究:4tiitoo 利用语音、手势和眼球追踪输入构建现代用户界面

引言

2012年,英特尔举办了欧洲、中东和非洲地区“Ultrabook™体验软件挑战赛”,旨在鼓励开发者发挥创造力和想象力,为Ultrabook设备带来更自然的交互体验。来自11个国家的30名参赛者历时6周,开发集成了触摸、手势和语音功能的原创应用程序。评判标准如下:

  • 功能性。 应用程序是否运行快速有效,没有任何问题?
  • 创造性。 应用程序是否代表了一种创新的使用模式?
  • 商业潜力。 该应用程序对大众市场有多大用处?
  • 设计。 应用程序是否易于理解和使用?
  • 趣味性。 应用程序的情感反应有多积极?
  • 稳定性。 应用程序是否快速简单,没有故障?

软件公司4tiitoo(发音为“forty-two”)作为Ultrabook体验软件挑战赛的参赛者,设计了获奖应用程序NUIA* Imagine,这是一款运行在Windows* 8桌面上的照片整理和浏览应用程序。

开发团队专注于自然用户体验,旨在利用多种输入方式,提供比传统键盘和鼠标更舒适的计算体验。虽然应用程序的功能很熟悉,但用户与其交互的方式却很独特,集成了触摸、手势、语音输入以及眼球追踪功能。最终结果是一个现代化的用户界面(UI),允许对同一命令使用多种输入类型。例如,向右滑动、按下右箭头键或说“下一个”都会使应用程序显示屏幕右侧的下一张图片。

产品

NUIA Imagine的构想来源于4tiitoo团队在整理度假和其他活动照片时遇到的问题。他们认为这项任务既不愉快也不高效,于是决定开发一款提供更灵活、更直观功能的应用程序来解决这一难题。该团队特别为Ultrabook体验软件挑战赛开发了NUIA Imagine。

NUIA Imagine允许用户将图像整理到相册中。该应用程序会读取指定目录中的所有图像,并将它们显示为屏幕右下角缩略图预览中的缩略图。中央的工作台以更大的分辨率显示缩略图,包括用户可以添加到活动相册的中心图像。可以创建任意数量的相册,用户可以通过屏幕左上角的相册概览在它们之间切换。屏幕右上角的相册预览会显示所选相册(参见图1)。

图1. NUIA Imagine 界面

NUIA Imagine的独特之处不在于用户能做什么,而在于他们能怎么做。4tiitoo的市场经理Silke Eineder解释道:“用户可以以最舒适的方式整理或欣赏他们的照片。NUIA Imagine利用Ultrabook的传感器,让用户可以从放松的姿势整理照片,而无需长时间以不舒服的姿势坐在电脑前,被鼠标和键盘束缚。这是因为他们可以免提操作,NUIA Imagine支持手势和语音命令。”

因此,用户可以真正地坐下来,一边喝着咖啡一边使用该应用程序。他们只需浏览照片,删除拍得不好的照片,将其他照片整理到单独的文件夹中,或者通过说出“添加”、“删除”、“下一个”、“上一个”和“最大化”等命令来查看照片(参见图2)。键盘输入和触摸手势也可以用来执行相同的功能。

图2. NUIA Imagine 旋转菜单

Windows* 8 开发过程

开发团队决定将NUIA Imagine创建为Windows 8桌面应用程序,以便也能在旧版Windows中使用,并轻松移植到其他操作系统。Eineder表示,为确保在其他操作系统上运行,“除了触摸之外,我们没有使用任何Windows 8的关键功能。我们这样做是为了支持其他版本的Windows,并确保我们不会在将应用程序移植到非微软操作系统时遇到问题。”

另一个挑战是,Windows 8自带的语音识别软件的准确性不如团队过去使用的软件。因此,他们找到的解决方案是Nuance VoCon语音引擎,它表现出更好的识别性能。Eineder解释说:“软件需要一个包含命令的语法文件。在任何语音输入时,它都会提供前三个识别结果及其检测率。应用程序的基本设计和NUIA软件开发工具包(SDK)库使用的部分,完全独立于任何触发事件来定义所有操作(滑动、添加、删除等)。因此,任何一种输入方式,例如语音,只需要发送一个触发事件(识别出的最佳命令)。其他所有内容都已在底层堆栈中实现。在Intel®感知计算SDK中使用的语音识别引擎与此引擎类似。”

开发工具

该团队使用多模态NUIA SDK、Qt Creator以及大量的纸张来开发NUIA Imagine。

NUIA SDK

NUIA Imagine应用程序是基于NUIA SDK和中间件开发的,联合创始人兼CTO Stephan Odörfer将其描述为:“NUIA SDK是一个硬件无关的基础设施,用于将各种输入模式连接到标准操作系统交互。这意味着它内部有一个抽象层,可以发送诸如‘下一个’之类的命令。该命令可以通过计算机使用的任何输入方式触发。例如,‘下一个’命令可以通过右光标键、滑动手势或语音输入输入。该软件的设计与这些输入方式完全无关。因此,程序员可以轻松添加另一种输入方式,从而控制软件的操作,而无需进一步的开发工作。

“NUIA SDK还连接到其他SDK,例如Intel感知计算SDK。它允许创建多传感器优化的应用程序,并增强现有应用程序,而无需深入的传感器知识。”

NUIA Imagine中使用的另一种输入方式是眼球追踪。Odörfer指出:“眼球追踪是NUIA SDK中非常重要的一种输入方式,我们与英特尔的多个部门以及瑞典的Tobii Technologies紧密合作来实现它。”

以下列表摘自4tiitoo网站,概述了NUIA SDK的其他功能:

  • NUIA工具提供集成开发环境向导、调试工具以及扩展创建器(一个图形UI工具),用于为现有应用程序创建多模态扩展,而无需修改任何源代码。
  • NUIA用户体验提供一套强大的库、应用程序编程接口(API)以及与多种编程语言和框架的绑定。
  • NUIA Core为插件提供消息传递基础设施和控制UI。
  • NUIA Core插件包含主要功能,并通过定义良好的消息(考虑最大程度的抽象)进行通信,连接到各种SDK和低级API以检索输入数据,生成现有事件(例如,键盘快捷键、鼠标光标控制),并且还可以实现更复杂的算法和宏。
  • 进程间通信框架确保NUIA组件与NUIA增强应用程序之间的通信。
  • Context子系统提供有关底层操作系统所有状态的信息(例如,当前焦点应用程序、登录用户和屏幕分辨率)。
  • NUIA文档提供了一套全面的教程、示例和支持工具。

Qt框架

该团队之前与Qt框架合作过,因此熟悉其功能。Qt是一个事件驱动的框架:触摸事件嵌入在框架中,可以像鼠标或键盘事件一样进行识别和处理。此功能使团队能够创建应用程序,使其能够响应触摸事件,就像响应鼠标事件一样。

Ultrabook平台开发过程

NUIA Imagine支持多种输入方式,包括键盘、鼠标、触摸屏、语音、手势和眼球追踪。这些输入方式为用户提供了更快、更沉浸的体验。团队通过讨论典型用户场景的案例来确定要包含的输入方式。

触摸和手势

作为自然用户体验的重点,团队整合了触摸和3D手势。Eineder解释道:“触摸和手势对人类来说更自然,因为这些动作是我们日常与他人和事物互动的一部分。人类的眼手协调能力针对这些类型的运动(如左右滑动)进行了优化,而不是按下不同的按键。”

NUIA Imagine通过使用基于Qt的触摸事件支持触摸。为了确定要进行哪些触摸优化,团队分析了哪些触摸手势最符合应用程序的直观使用习惯,并且用户已经通过智能手机和平板电脑的经验了解。他们让未参与开发过程的人员对优化进行了测试。

一项优化是改进滑动手势的识别。Eineder说,这项修改的固有挑战在于:“每个用户执行手势的方式略有不同;然而,应用程序需要识别所有这些手势。”她补充道:“我们对识别手势所需的时间进行了大量测试。之后,我们微调了负责检测过程的变量。这种调整使触摸功能更加直观易用。”这些变量用于定义“触摸开始”、“触摸更新”和“触摸结束”之间的时间。三者之间的关联经过了微调和用户测试,以实现更准确的触摸识别。

作为另一种输入方式,3D手势用于控制主要功能。NUIA Imagine支持的3D手势包括:向左滑动以查看下一张图片,向右滑动以查看上一张图片,向上滑动以将当前图片添加到活动相册。这三个手势来自OpenNI*软件。其他手势也是可能的,但考虑到挑战的时间限制,团队决定只实现这三个。

应用程序使用NUIA SDK识别手势。首席应用程序开发人员Bastian Wolfgruber说:“我们使用OpenNI跟踪手势,然后连接NUIA Core。手势命令被发送到应用程序,应用程序对这些手势做出反应。”他补充道:“无需校准。用户只需举起手臂;当它被识别后,用户就可以执行手势了。”

语音识别

NUIA Imagine使用Nuance的语音识别软件。所有主要交互都可以通过语音触发。该应用程序识别七个语音命令:“下一个”、“上一个”、“添加”、“删除”、“最小化”、“最大化”和“旋转”。该团队希望语音输入方式简单直观,以便用户无需阅读应用程序文档即可开始与其交互。

在决定使用语音识别之前,团队讨论了主要用例的各种可能性。Odörfer说:“使用语音识别是一种优雅的方式来命令应用程序,而无需直接坐在电脑前。语音是一种自然的交流方式,就像手势或眼球运动一样,与键盘或鼠标等现有的标准技术形成对比。”

语音识别输入方式目前仅支持英语。但是,该应用程序已设置为支持多语言。Odörfer表示:“要扩展语言,我们只需要实现新的字典文件,因为我们使用语音识别引擎。使用Nuance框架,你只需添加,例如,一个德语字典文件,然后应用程序也会响应德语命令。”

眼球追踪

除了键盘和鼠标、触摸、手势和语音识别之外,NUIA Imagine还可以通过眼球追踪进行控制。Odörfer评论说:“眼球追踪是NUIA SDK中一项重要的输入方式。”

该应用程序允许眼球追踪指示用户想要与之交互的元素。眼球追踪还可以与语音命令和其他输入方式结合使用。例如,用户可以看着画廊中的任何一张图片,说“添加”,然后该图片就会被添加到相册中。

作为另一个例子,如果用户看向工作台,则有三张图片可用:主图片、上一张图片和下一张图片。如果用户看向下一张图片,它会自动移至主位置。然而,Odörfer说:“自动凝视操作并不总是如预期的那样。例如,如果你看向“删除”按钮,你可能不希望立即触发该操作。因此,在大多数情况下,用户会使用键盘上的特定键、鼠标中键或其他有意的触发方式来执行触发操作。”

Odörfer补充道:“眼球追踪不会完全取代其他输入方式,但与其他输入方式结合使用,它极大地增强了下一代计算机上的工作。”

Eineder指出:“这使得操作更加舒适,因为你无需使用键盘或鼠标。你可以选择,也可以放松下来。从商业角度来看,这更具生产力,因为你可以看着菜单并打开它,同时将手放在键盘上。”

眼球追踪对用户来说很直观。Odörfer说:“大多数用户可能只需要半分钟或一分钟,然后就能完全适应。起初,他们认为自己需要以不同于平常的方式看东西,但实际上用户只是像往常一样看着屏幕,系统就会执行操作,而无需用户触摸任何东西。”该团队进行了用户测试,以确保普通用户会理解眼球追踪操作是应用程序的适当响应。Odörfer说:“目的是支持用户,而使用眼球追踪对此有优势。”

要使用眼球追踪功能,必须安装眼球追踪外设和NUIA软件套件。当应用程序首次启动时,用户必须进行30秒的校准才能启用眼球追踪。Odörfer说:“当前一代的眼球追踪精度为0.5度,在标准操作模式下,相当于显示器上的15或20像素,与触摸屏精度相似。因此,用户无法控制桌面应用程序中使用的小按钮,但他们可以轻松控制为触摸屏或Windows应用商店应用程序优化的应用程序,因为按钮足够大。

在NUIA SDK中,我们有能够理解元素位于下方或附近位置的组件,然后点击该元素,即使精确的凝视位置不在该元素上。这类似于使用Android*或iPad*平板电脑并点击浏览器链接但没有精确触及它。浏览器会检查附近是否有链接。如果存在链接,它将激活最接近触摸点的链接。”

为了展示这项技术,4tiitoo与英特尔和Tobii合作,使用原生的NUIA SDK组件,使Mojang的《我的世界》游戏可以通过眼球追踪进行控制。这款游戏版本曾在2012年MINECON的英特尔展位上展出。

Eineder评论道:“总的来说,眼球追踪还有很多可能性即将出现。例如,你可以轻松地用它来控制Windows 8的开始屏幕。一旦这项技术在Ultrabook [设备]或台式机上可用,界面就会一点一点地适应,我们与计算机的整个工作方式实际上将发生改变。”

挑战与机遇

团队的开发过程并非一帆风顺。Wolfgruber说:“我们发现要保持工作台、最大化区域、相册等与底层数据库同步,以便图像在正确的位置,这很有挑战性。此外,即使处理大量数据,也要保持应用程序的流畅运行,需要更深入的关注。”

在开发过程中,关键的机遇包括:

  • 创建一款不需要用户长时间不舒服地坐在桌前就能使用的照片整理应用程序
  • 开发一款能够与多种操作系统配合使用的应用程序
  • 找到合适的语音识别软件
  • 确定包含哪些输入方式和命令才能获得最快、最沉浸的用户体验
  • 为命令实现抽象层
  • 微调输入识别

Ultrabook体验软件挑战赛

在为Ultrabook设备开发的过程中,4tiitoo团队对其触摸功能、传感器以及纤薄的设计印象最为深刻。作为Ultrabook体验软件挑战赛的一等奖获得者,该团队显然充分利用了这些特性。

在2012年Ultrabook体验软件挑战赛中,欧洲、中东和非洲地区的软件开发者和独立软件供应商被邀请提交他们的创意软件应用程序,以利用Ultrabook的最新功能,包括触摸、手势和语音识别。目的是促进创新和开发者创意,以提供更具沉浸感和直观性的Ultrabook设备用户体验。选定了30名参赛者,他们来自11个不同的国家:英国、西班牙、意大利、德国、荷兰、俄罗斯、罗马尼亚、以色列、法国、希腊和马耳他。每位参赛者都获得了一台Ultrabook软件开发平台,并有六周时间完成应用程序。评委由英特尔的工程、营销和零售代表组成。

在后续计划方面,该团队希望为NUIA Imagine增加基本的编辑工具,深化语音控制的集成(例如,对照片进行语音标记),以及集成社交媒体和云功能。

摘要

开发公司4tiitoo被选中参加(并最终赢得了Ultrabook体验软件挑战赛的一等奖)。为此,该公司开发了NUIA Imagine,这是一款帮助用户将照片整理到相册中的应用程序。用户可以通过键盘和鼠标、触摸、语音识别和眼球追踪向应用程序提供输入,从而选择最舒适、最自然的方式与软件进行交互。该团队决定将NUIA Imagine制成桌面应用程序,以便它能够与尽可能多的操作系统兼容。该团队使用Qt框架和NUIA SDK来编程应用程序。输入类型和应用程序中可用的命令基于与智能手机、平板电脑和其他软件的先前体验相比,对普通用户最直观的输入和命令。眼球追踪是应用程序中使用的最新技术。开发过程中最具挑战性的是在处理大量数据时保持应用程序流畅运行。

Company

4tiitoo AG是开发专注于自然用户体验和下一代计算设备商业模式的软件解决方案的先驱。该公司成立于2007年,旨在为日常计算机交互带来更直观、更自然的体验。

当时,4tiitoo专注于触摸领域,并于2010年推出了平板电脑WeTab。此后,该公司已将开发扩展到多传感器用户体验,并在跨平台、传感器和语言方面提供直观的软件解决方案。

4tiitoo的最新产品NUIA(自然用户交互)软件套件为原始设备制造商和传感器供应商提供了一个高级抽象层,并带有扩展模型,可以轻松地为现有应用程序启用新的计算功能。对于开发人员来说,NUIA技术提供了一种简单的方法来创建基于全面的NUIA SDK的应用程序。

关于作者

Karen Marcus,文学硕士,是一位获奖的技术营销作家,拥有16年的经验。她为英特尔、IBM、三星、惠普、亚马逊网络服务、微软和EMC等公司撰写了案例研究、宣传册、白皮书、数据表、解决方案简报、文章、网站文案、视频脚本和其他文件。Karen熟悉各种当前技术,包括云计算、IT外包、企业计算、操作系统、应用程序开发、数字标牌和个人计算。

Intel、Intel 标志和 Ultrabook 是 Intel Corporation 在美国和/或其他国家/地区的商标。

版权所有 © 2013 英特尔公司。保留所有权利。

*其他名称和品牌可能被声明为他人的财产。

下载文章PDF副本

© . All rights reserved.