面向老年人认知的语音交互设计分析论文

面向老年人认知的语音交互设计分析

华东理工大学倪亚楠

摘要：目前，中国已经成为世界上老年人口最多的国家，“银发潮”将对我国经济、社会、政治、文化发展产生深远影响。与此同时，老年群体与互联网之间的“数字鸿沟”却在越拉越大。文章分析了老年人的认知特性，以及造成老年人对互联网接入障碍的主客观原因。结合语音交互这一伴随人工智能而兴起的技术领域，探讨如何利用语音交互与界面交互的互补性来提升老年人的认知和学习水平的方法，从而使老年人获得更好的互联网使用体验。

关键词：老年人；语音交互；设计

过去四十年，人与机器的交互方式在不断朝着智能化、自然化的方向发展。随着人工智能研究在理论和应用层面的不断突破，语音交互逐渐成为人们与设备进行交流和传递意图的优先选择。与传统交互相比，语音交互更贴近自然语言的表达，学习成本极低，可以很好地解放双手和双眼。语言是多维的，它在传递信息的同时也蕴含着丰富情感，允许人与设备之间进行更充分地互动。结合当下智能语音的技术能力，在一些具体的互联网使用场景中，它已经能够很好地适应老年群体在生理能力与认知特性方面的不足。

1 老年人认知特性及互联网介入分析

老年人感知觉能力的退化，记忆、思维能力的老化，导致了他们对自我能力的评价与结果预期降低^[1]，从而对融入互联网产生消极情绪和抗拒心理。另外，信息的爆发性增长使得界面变得臃肿不堪，不友好的界面加剧了两者之间的疏离。

1.1 感知觉退化与信息可达性

从界面交互所需的能力来看，老年人视觉感受性、灵敏度与色彩辨识力均逐渐下降，听觉开始变得迟钝，触觉的敏感性与定位精准性也降低，这无疑加剧了老年人在对界面信息进行的输入输出环节的负担^[2]。手机屏幕大小的局限性使得信息以更加密集的单位进行输出，对人的感知觉能力提出了越来越高的要求。

1.2 记忆、思维老化与感知易用性

随着老年人记忆衰退与思维老化，同时缺乏互联网使用经验，他们在接入互联网的过程中常常伴随着很高的学习成本和记忆负担，因而很容易在界面层级和交互动作中感到不知所措。目前，主流的交互设计规范定义了页面交互的对象和方式、层级之间的关系和跳转逻辑、功能模块的聚合和指引等等。这些规范在易用性和美学上颇具说服力，但却很少以老年群体作为测试标准（如图1），老人不仅要熟记各类密码，并且各种APP的名称都相对图标缩小化，对于视力恶化、记忆力衰退的老年人而言简直是噩梦。

虽然行业经济运行整体稳中向好，但是，全球经济坏境中的不确定性仍很大，行业投资动力依然不足，近期市场波动加剧以及主要化学品市场需求增长乏力等问题应引起关注。

1.3 消极情绪与自我效能

伴随着计算机技术和人工智能技术的进步，语音交互技术也经历了从规则技术向统计学习再到深度学习技术的升级进化。深度对话技术借助大规模的深度神经网络，显著增强了对话系统的知识学习和应用能力，从而极大提升了语音交互的用户体验。

2 语音交互技术现状与应用趋势

未来，我国人口老龄化的问题会越发突出，老年人对养老设施的需求也会越来越迫切，为政府财政带来了巨大的建设压力，同时，政府在公用事业建设中的高投入、低效率和资源的高消耗也阻碍着其快速发展。PPP作为一种项目融资的模式，并不是使总成本最低，而是提高投资的效率，使项目参与各方的收益最大，从而达到各方的共赢。

2.1 语音交互技术现状

自我效能是社会认知理论中一个重要的认知动因，在互联网环境中即是指个体完成特定界面交互任务的信心^[3]。由于老年人物理机能的退化，使得他们的自我效能降低，往往会高估互联网的使用难度，从而产生十分消极的情绪。由此可见，提升老年人使用互联网的信心，使其在交互过程中保持积极乐观的情绪，都能很好地提升他们使用互联网的意愿。

基于暂态录波技术的配电线路监测系统其核心功能为对6-35kV架空线路所发生的接地故障和短路故障进行定位。[1]整个系统由汇集单元、采集单元和配电主站系统三个部分组成，综合应用了计算机技术、无线通信技术、故障检测技术、信息建模技术以及网络通信技术于其中，对于配电线路应用中的接地故障、短路故障具有很好的检测效果，可对配电线路的谐波、负荷等进行实时监测，并基于通信技术可将这些采集信息快速传输至配电主站，配电主站在通过相关软件所所采集到的故障瞬时波形及特征信息进行网络拓补计算，继而精准确定故障所发生的区域，并发出告警信息，引导维护人员快速达到故障地点进行维修。[2]

2.2 语音交互技术的应用趋势

正如人工智能专家吴恩达指出的：人与机器交流最高效的方式是语言，而机器与人最高效的交流方式是语言加上视觉，即需要在听觉基础上融入视觉信息弥补语音交互的不足。

从功能实现角度，一套通用的语音交互系统包含如下环节（如图2）：(1)语音识别：将用户的语音表达经过自动化的识别，转化成文字；(2)自然语言处理：分析用户表达中的意图，对任务型对话而言即提炼关键词填进“词槽”；(3)语音合成：将处理后的最佳结果转化成自然语言，并合成语音，与用户进行交互。

自2014年11月亚马逊率先推出智能音箱Echo，引发全球智能音箱浪潮，随后谷歌、苹果、facebook等巨头纷纷入场布局。在已成为仅次于美国的智能音箱第二大市场的中国，阿里巴巴的天猫精灵、百度的小度音箱、小米的小爱音箱占据了近九成市场份额。

值得注意的是，2017年谷歌推出了自己的带屏智能音箱Echo show，之后天猫精灵和百度也相继发布带屏智能音箱产品（如图3）。从语音向视觉延伸，在语音交互中融入可视化信息，已经是业界探索下一代语音交互范式的重要趋势。

图1 智能手机界面图标设计

图2 通用对话系统的组成

图3 智能音箱产品矩阵

第四，5.12汶川大地震的发生，使得原本就羸弱的羌族文化受到了又一次重创。这不仅是一次自然灾害更是一场文化的大灾难。据统计，5.12地震使93个羌寨受灾，羌族遇难人数达三万多人，同时，羌族地区的房屋受损严重，95%的羌族传统民居受损，其中80%的房屋成为危房。而原本就后继无人、老龄化突出的释比群体，5.12地震不仅使他们的生存空间受损，更使他们传承的文化空间受损。

工会工作任重而道远，新时代赋予工会新的任务使命。一直以来，森防大队工会始终把民主管理工作当作森防工作中的重中之重，凝聚全体指战员干事创业的精气神，践行新作风体现新作为，虽然大队工会的民主管理工作取得了一点儿成绩，但是与上级工会的工作要求和人民的期望还有一定差距。下一步工作中，我们将与时俱进，不断进取，全力抓好工会各项工作，做到了干事业一条心，抓工作一盘棋，谋发展一股劲，密切工会与会员的联系，全面提升大队工会的各项工作，让工会会员成为职工之家真正的主人，向上级领导交一份满意的答卷！

2.2.1 智能音箱兴起

从计算机语言交互到图形用户界面交互，再到语音自然交互，人机交互一直朝着简单、丰富、高效、自然的方向发展。

2.2.2 语音交互与界面交互的融合趋势

目前针对语音交互，并没有统一的设计原则。因此，参照国内界面交互的设计原则，可总结为如下原则：(1)一致性：符合用户心理，降低学习成本；(2)通用性：兼容多场景、多需求；(3)高效性：即时响应、有效提示；(4)清晰性：信息传达准确无歧义；(5)角色为本：人文关怀与情感化。

解决了这小小的不愉快，史黛西小姐带着大家继续参观。望着橱窗里那些珍宝，步凡瞪大了眼睛，赞叹的声音从他的嘴里溢出。就在他随着队伍边走边看边赞叹的时候，他的目光突然停驻在了展馆的角落——在那个展柜里，静静地躺着一本摊开的书，虽然书页已经泛黄，页面的边缘也显得残破而参差不齐，但让人疑惑的是，书上的字符不是工工整整的印刷体，而是龙飞凤舞的手写体！

结合语音交互的特征，其主要在高效性、一致性、角色为本上具备显著优势，具体包含：(1)释放双手，速度更快；(2)更贴近自然交互，学习成本极低；(3)情感关怀丰富；(4)突破界面限制。其劣势主要有：(1)在现有技术条件下，信息的输入输出以及处理仍然具备不确定性；(2)缺乏实体支撑的语音，引导性与信息反馈均较弱，同时听觉记忆性也更差。

3 老年人语音交互产品的设计分析

语音和视觉结合的多通道交互形式，无法再用经典的界面交互范式（窗口、图标、菜单、点击设备）进行定义。对于语音交互系统而言，更加需要明确的是：语音交互对象的角色设定，交互过程中存在的交互模态、采用的交互命令^[4]，以及如何利用界面和语音对信息内容进行呈现。

3.1 角色

角色是一个拟人化的形象，它的作用是提供智能交互的界面隐喻，清晰地诉说智能系统所能实现的功能，以及其能力的边界，从而避免用户不切实际的期待。此处我们可以将其定义为“网上冲浪助理”，所以它的功能便是引导并协助老年人完成一系列的上网任务，如网购、打车、社交聊天、收听节目等。

角色另一个很重要的作用是人文关怀与情感化。目前，每一个开发智能音箱的公司都会根据其任务性质赋予该角色一个专属的唤醒词，以及特定的音色、音调和语速。这样做的目的就是建立情感化的形象，占领用户心智。如前所述，老年人接入互联网的障碍中自我效能低是重要原因之一，因此该系统的语音形象应当语速较慢、声音清晰洪亮。

3.2 交互模态

当智能系统的交互形式不止一种时，就需要明确其所支持的交互模态，以及各个交互模态适用的场景。该智能助理目前支持语音输入和触摸输入，两者之间有时是独立的，比如任务的开始往往是通过语音唤醒并用语音输入任务；而有时又是兼容的，比如在多个搜索结果中进行确认的环节，既可以用触摸确认也可以语音确认选择“第几个”。

3.3 交互命令

对于语音交互模态，交互命令包括特定的唤醒词，任务输入环节中能被识别的关键词，以及信息确认环节的浏览和选中指令。在学习阶段，要多主动告知用户智能助理支持的交互指令和相应的功能。对于触摸交互模态，交互命令则是一系列点击、滑动的动作。

3.4 信息呈现方式

结合上文对语音交互与界面交互的优劣势对比，在具体设计中，信息呈现方式需要有针对老年群体的适应性变化^[5]：(1)老年人的视力、听力退化，信息获取能力下降，而且不同老年人退化的程度不一。因此，界面的图片、字体大小应当支持语音调节，并且调节后的排版依然适应画面大小。同时，也需要有信息筛选的策略，比如在网购场景下，引导用户提出更精确的指令，尽量只展示强相关的搜索结果，减少信息的冗余度。(2)老年人认知反应速度较慢，信息确认耗时较长。因此，信息输入与展示上应当留有比普通智能系统更长的输入等待时间，更长的信息确认时间；(3)老年人的普通话标准程度低，意图表达过于口语化。这首先对语音识别的技术提出了比较大的考验，此外语言本身就有歧义性和多样性的特点，所以在产品设计层面需要更加主动的信息反馈机制来降低这种不确定性。例如，以排序的方式提供可能的任务结果供用户选择，并以图文结合的方式呈现出来。对于过于模糊的任务，则可以请求用户组织语言重新输入。

4 结语

语音交互与界面交互的“视听融合”，不仅是下一代智能音箱产品的发展趋势，同时也将大大拓宽语音交互的使用人群和使用场景。在语音技术的能力范围内，设计者采取主动的设计策略帮助老年人接入互联网，不仅可以提高老年人的生活水平和便捷程度，从社会和经济层面也能挖掘老年群体的消费潜力，并大大提高他们的生活自理能力。

参考文献

[1]刘小路，丁虹月，韦鑫珠．基于老年人认知需求模型的资讯APP界面设计研究[J]．设计，2018（1）：26-27．

[2]李维，赵江洪，谭浩．基于认知的老年人网站的可达性设计 [J]．包装工程，2013，34（12），06．

[3]谢丽丽，徐慧芳．情绪的确定性评价对信息加工的影响[J]．心理与行为研究，2016，14（3）：305-310．

[4]张小龙，吕菲，程时伟．智能时代的人机交互范式[J]．中国科学：信息科学，2018，48（4）：406-418．

[5]罗琛琛，陈香．基于用户认知的新老年人互联网产品设计策略研究[J]．设计，2019（11）：64-66．

ANALYSIS ON SPEECH INTERACTION DESIGN FOR ELDERLY COGNITION

Abstract： At present, China has become the country with the largest elderly population in the world. The "silver boom" will have a profound impact on China's economic, social, political and cultural development. Meanwhile, the “digital divide”between the elderly and the Internet is widening. This paper analyzes the cognitive characteristics of the elderly and the subjective and objective causes of the Internet access barriers for the elderly. Combined with the voice interaction, which is a technical field emerging with artificial intelligence, this paper discusses how to use the complementarity of voice interaction (VUI) and interface interaction (GUI) to improve the cognitive and learning level of the elderly, so that the elderly can get better Internet use experience.

Key Words： The elderly; Voice interaction; Design

中图分类号： TB472

文献标识码： A

文章编码： 1672-7053(2019)09-0037-02

作者简介

倪亚楠/1994年生/男/浙江杭州人/硕士在读/研究方向为交互设计与产品服务系统设计（上海 200030）

标签：老年人论文; 语音交互论文; 设计论文; 华东理工大学论文;