芯片、传感器和AI算法融合 打造嵌入式语音交互优质体验

2019年04月28日 13:54    发布者:eechina
        2019年4月26日,由意法半导体主办的2019年STM32中国峰会在深圳举行,出门问问工程VP李勤受邀出席大会AIoT沙龙,并在人工智能与计算分会场发表了演讲,分享了出门问问在嵌入式系统上的智能语音交互方案和经验。

  深耕万亿级的AIoT市场

  在上午主会场的AIoT沙龙环节,李勤与微软首席技术顾问管震、移远通信高级副总裁张栋、意法半导体大中华暨南亚区AMS市场及应用高级总监吴卫东共同探讨了对于人工智能物联网的看法。


  李勤表示,中国的AIoT市场是一个万亿级的市场。而其中,AI可穿戴将是重要的增长极,将在未来5年保持高速的增长态势。按照公开数据,预计在未来5年内,全球Wearable IoT的市场规模会达到424亿美元,达到平均每年30%的复合增长率。

  芯片、算法和传感器的深度集成是AIoT核心的技术之一。未来,算法和芯片的深度融合是一大挑战,即算法去为芯片优化,芯片为算法优化。这也是出门问问的优势所在,可以发挥全栈式的AI语音交互算法能力,以及芯片、算法、产品端的深度整合和系统集成能力,赋能给其他合作伙伴。

  将芯片、传感器和AI算法深度集成

  在下午的人工智能与计算分会场上,李勤深入地分析了出门问问作为一家AI技术公司是如何做嵌入式系统上的智能语音交互方案的。

  李勤指出,AI可穿戴技术的核心是人机交互的过程,而人机交互涉及到多种传感器融合技术以及语音交互技术。多种传感器融合技术包括拾音麦克风、运动传感器(例如加速度器,陀螺仪)、骨传导麦克风、心率传感器、触摸及反馈等,只有把多种传感器融合在一起,才能给用户提供更好的体验。

  而语音交互是所有人机交互方式中最重要的一个,在合适的场景下极为高效。它有着不可替代的优势,例如解放双手和双眼;指向明确,语义直达目标,缩短整个的使用路径;自然语言交互,简单人性化,学习成本低,不用记固定命令词;对设备的大小没有特别要求。但当然,语音交互也面临一些挑战,例如受环境影响比较大,前端信号处理的挑战大,受硬件和结构的限制,返回结果的展示形式单一等。

  未来3年,AI可穿戴市场将迎来高速发展,整体规模预计达到10亿设备量级,保持30%的高年均增长速度。相应的,未来市场对芯片和传感器的需求都会大量增加。

  在高速增长的过程中,AI可穿戴同样面临许多迭代技术挑战,包括设备的小型化设计、低功耗优化等等,在算法上需要大量针对性的优化支持。例如,在地铁嘈杂环境下使用耳机通话,要利用算法实现环境降噪处理;为实现设备更低功耗,需要提高代码效率并对芯片进行优化;协调运动、心率等大量传感器为用户提供有用的信息,也需要算法优化来攻克。

  发言中,李勤还指出AIoT的产品一定是设备端到云端的整体系统。而出门问问采用将芯片、传感器和AI算法结合的整体战略,发挥端到端的完整技术栈,将端上和云上的计算融合,以及产品和系统集成经验的竞争优势。另外,出门问问还在开展与芯片厂商的深度合作,实现算法根据使用场景做优化,算法针对芯片的代码优化,结合系统集成和产品验证,提供整套技术方案。这意味着产品厂商不用在算法开发和系统集成工作上消耗企业资源,可以集中精力定义和开发产品。

  智能手表AI运动算法TicMotion

  在TicWatch智能手表上,出门问问研发了AI运动算法TicMotion,自动识别和记录用户健走、跑步、骑行、游泳时的各项运动数据。该算法基于深度学习的算法架构,支持手势姿态识别、睡眠健康等功能,可运行在MCU、DSP或AP芯片上。在意法半导体的STM32F412芯片上,实现16MHz时钟频率下的0.13 MIPS执行效率。



  智能手表语音交互算法

  针对智能手表的语音交互,出门问问研发了基于深度神经网络的AI语音算法,旗下的出门问问语音助手是谷歌Wear OS官方合作的中文语音助手。



  出门问问在智能手表上,拥有单麦和双麦的音频降噪算法,语音信号压缩和BLE语音传输,支持语音唤醒词,支持直接命令词的识别。这些算法也是基于深度学习,但却是超低功耗的,只需要超低的内存需求和计算力便可以运行。例如,唤醒词和命令词模型只有20KB,只需占用50KB左右的内存,在意法半导体的STM32F469芯片上实现了36MIPS的执行效率。

  智能耳机交互算法TicHear

  针对智能耳机的交互,出门问问自主研发了TicHear语音交互算法,能够有效地屏蔽和抑制环境噪音和干扰,实现小型可穿戴设备语音唤醒及直接命令词控制。



  而之所以开发TicHear,是因为出门问问发现在TWS智能耳机上还有很多技术难点没有解决。

  一是耳机面向的是复杂的需求和使用场景。在需求上,人们需要用耳机听音乐、打电话、做语音交互。在使用场景上,耳机的使用环境非常复杂多变,基本是走到哪儿戴到哪儿,即使是在地铁、马路边、商场等嘈杂环境,耳机也要能够稳定可靠的工作。这些都对算法地性能提出了极高的要求。

  二是耳机的快捷智能控制。对于智能耳机来说,需要有一些常用的直接语音控制命令,尤其在双手都不方便的时候,能够快捷地用语音来实现接听电话、控制音量、切换下一首歌等功能。

  三是如何对耳机“说”清楚。过去两年,主动降噪耳机在市场上热销,但它解决的只是“听”清楚的问题,在你听音乐的时候/做飞机的时候,有效实现周围环境噪音的屏蔽效果。但在实际的使用中,如何让你打电话、做语音交互的时候,实现更清晰的声音传递,还是一个有待解决地问题。

  另外,智能耳机也面临诸多的技术挑战,例如佩戴舒适性、体积大小,与电池容量、待机时间之间不可调和的矛盾,对芯片和算法低功耗的要求高;系统集成、算法开发的高复杂度;内存空间和算力的资源限制等。

  面对用户痛点和技术挑战,出门问问选择创造性的解决问题,采取将硬件结构设计和算法设计相结合;与芯片、系统供应商深度合作;把核心算法的代码用汇编重写以提高运行效率等措施,给客户提供一套完整的解决方案。

  具体来说,在音频信号处理上,TicHear算法进行了双麦的波束成形,做定向拾音和降噪的深度优化,可以抑制最高20dB的环境噪音,仅占用20KB的内存,并在高通QCC5100系列芯片上实现15MIPS的执行效率。

  在语音交互算法上,TicHear支持语音唤醒词,支持10个左右直接命令词的识别,并且基于深度学习的算法,实现了超低功耗和超低内存占用。将唤醒词和命令词做到大约20KB的模型大小和50KB总的内存占用,在高通QCC5100系列芯片上实现10MIPS的执行效率。同时,TicHear可和手机软件配合开发,支持二次唤醒验证、内容和服务的查询、唤醒词和语音查询一起说出等功能,提供更好的用户体验。



  李勤向现场观众展示了出门问问双麦信号处理算法,该算法能够有效地屏蔽环境噪音和干扰,清晰采集语音信号。如图所示,上方的声音波形图是在马路边场景所采集的原始声音信号,下方的声音波形图是经过出门问问双麦信号处理算法处理后的声音信号,可以清晰的看到已将环境噪音降低20db左右,几乎可以忽略不计,经过算法处理后的声音信号,极大地提高了语音识别的准确率和唤醒率。