如同家庭影院中的直达声和反射声,当你“呼唤”智能音箱的语音助手时,声波也会在室内形成直达声和反射声。如果是正对着智能音箱呼喊,就会有很强烈的直达声;如果是背对着它,通过墙壁的反射再将声波传递,自然反射声会更加强烈。好了,那么我想说明什么?人在习惯上,很少会背对着“受话人”说话,因此通过AI侦测,往往可以判断此刻你是不是正在“呼唤”智能音箱,也就可以降低语音助手识别语音指令的误判率。

01.png

卡内基·梅隆大学正在进行的这项研究,便是通过AI和机器学习,侦测室内声波的反射特性,进而判断用户是不是正在对着智能音箱说话。此举,可以降低人们在闲聊过程中智能音箱的误判(即它会突然说出“我在”的应答语),而且长此以往还有可能摆脱“唤醒设备”(比如说Hi,Alexa)的流程,以逐步接近人与人之间的语言交互。

这项研发被称为“语音助手与智能设备生态系统进行直观语音交互的语音方向(DoV)估计”。

科学家们认为,未来家庭和办公环境将采用越来越密集的物联网设备/生态系统,比如智能照明、智能音箱和需要语音控制的家用电器,语音指令是其中一个重要的交互工具。目前来说,我们需要唤醒设备,从而让它“知道”用户将要对其发出进一步的指令。

为此,科学家们决定探讨在将语音作为定向沟通渠道时,能不能使用类似目光凝视指定焦点的方式。推断语音方向(DoV)的研发,不是简单使用设备内置麦克风来接收和处理语音指令,而是期待让语音指令具有可寻址性(即设备会自然而迅速地知道命令是否直接针对它们)。这一过程中,科学家对用户、房间、口头短语以及其他影响性能和可用性的关键因素进行准确性量化。最终,他们相信DoV估计法可以使分布式语音交互有更加直观和流畅的前景。

下载研究论文,可参考如下网址:

https://karan-ahuja.com/dov.html

 

※ 本文部分图片源自网络。

※ 影音中国网原创稿件,未经许可不得转载、节录及改编。

验证码: 点击换一张