从最初的手机和智能音箱到智能手表、汽车、笔记本电脑、家用电器等等,语音正成为管理和与日常科技设备互动的普遍方式。
云平台因支持语音助手服务而备受赞誉,如Amazon Alexa、Google assistant或Microsoft Cortana,但由于边缘计算在支持语音接口方面所起的作用越来越大,因此忽略了应有的功劳。大量的处理和分析发生在设备本身上,允许用户通过简单的交谈与设备交互。
关键字检测
启用语音功能的设备不会不断录制音频并将其发送到云以确定是否有人在向他们发出指令。这不仅是隐私问题,也是对能源、计算和网络资源的浪费。必须将所有单词发送到云端并返回也会带来延迟,并降低系统的响应速度。现在的语音接口通常使用关键字或“唤醒字”检测,将一小部分边缘计算资源(即在设备本身上进行的计算或“边缘”处理麦克风信号,而系统其余部分仍处于空闲状态。这是一种节能方法,对于延长包括智能手机和可穿戴设备在内的便携式电池驱动设备的使用时间尤为重要。
当处理关键字检测的常开处理核心(通常是数字信号处理器(DSP))发现与预期单词(例如“Alexa”)匹配时,它会唤醒系统的其余部分,以支持需要更多计算能力的功能,如音频捕获、压缩和传输、语言处理和语音跟踪。
信号与噪声分离
检测到关键字后,设备开始主动侦听。此时,系统准确解读语音命令的能力在很大程度上取决于语音接收的“干净程度”——在嘈杂的环境中,如街道、聚会或家庭会议室,孩子们正在看电影或多人同时交谈,这可能是一个挑战。
许多边缘计算技术有助于将用户的声音从周围的声音中分离出来。例如,波束形成技术处理设备中多个麦克风发出的音频,使听觉集中在用户说话的方向——就像一个虚拟定向麦克风。如果用户移动,设备上运行的语音跟踪算法可以调整麦克风信号之间的平衡,使焦点跟随语音源。
先进的语音设备还可以处理麦克风阵列的输入,以抑制来自用户讲话的环境噪声,类似于降噪耳机的工作方式。智能扬声器还使用了设备上的回声消除技术,以允许“闯入”功能——它可以从麦克风信号中抑制音乐和其他扬声器声音,帮助智能扬声器接收语音命令,即使在大声播放音乐时。所以你可以用智能音箱发出很棒的声音,但如果你想在中间换歌曲或点披萨,它就会听。
人工智能设备上
支持语音的小工具中不断增加的边缘计算能力也支持使用设备人工智能(AI)的创新功能。例如,当internet连接不可用时,脱机命令允许在设备上进行语言处理和执行基本语音指令。这项功能已经在智能手机中广泛使用,帮助用户设置警报和提醒,即使设备处于飞行模式或超出覆盖范围。离线命令在智能家居设置中尤其有用——允许用户在互联网服务中断期间打开和关闭灯、改变恒温器温度或禁用家庭安全警报。
具有高级边缘计算能力的设备还可以执行语音生物识别以进行用户身份验证。这一功能可以防止未经授权的用户使用语音命令进行购买或更改按键设置——这样孩子们就不会一直往购物清单上添加物品,窃贼也不会在主人度假时对着智能音箱大喊大叫,从而破坏房子的警报系统。
设备上的人工智能还可以支持语音命令以外的其他用途的音频分类。通过训练,家庭安全设备可以探测到玻璃破碎的声音并触发警报,或者智能婴儿监视器可以探测到婴儿何时哭泣并通知父母。加上摄像头,声音可以让机器学习把更多的背景放在人或事件周围。随着人工智能能力的增强,我们将看到其他非常有趣的应用。例如,在家庭安全的情况下,分析设备本身事件的能力减少了向云发送的数据量,只有关键的警报,提高了整个系统的速度和便利性。
语音设备对卓越边缘处理能力的需求推动了异构计算体系结构的采用——将CPU、GPU和DSP等多种引擎集成到单个片上系统中,将工作负载分配给最高效的计算引擎,从而提高性能,电源效率和成本效益,支持广泛的支持语音接口的设备。
虽然我们今天的大多数互动都是通过手机和亚马逊或谷歌流行的智能扬声器进行的,但随着边缘计算和人工智能的日益强大和普及,我们将看到更多的外形因素和语音接口添加到几乎任何东西中,无论是路由器、设备还是灯具。它仍将依赖其背后的云生态系统的力量,但设备本身也将变得更加智能,能够在本地执行许多操作——使设备更灵敏、更方便,同时节省时间和传输的数据量。