利用MEMS麦克风阵列定位并识别音频或语音信源

2014年11月13日 11:21    发布者:eechina
作者:M. Malcangi*, M. D’aria*, R. Sannino***, L. Spelgatti***
*     意大利米兰大学计算机学系
**   意大利米兰比可卡大学
***  意法半导体(意大利Agrate)公司

摘要:在过去10年里,以人类语言和音频信号为媒介的人机交互应用在日常生活的作用越来越重要。设备本身必须充分利用不同的功能,才能取得最佳的性能,例如,音频定位、自动语音识别、自动说话人识别等。本文着重探讨取得这些结果所需的算法和完整的嵌入式方案即MEMS麦克风阵列所需的硬件架构。
关键词:音频定位,语音识别,说话人识别,MEMS麦克风

1.     前言
自动语音识别、语音模式识别和说话人识别及确认等应用对噪声十分敏感,信源定位识别是音频和语音信号捕捉处理应用的一个关键的预处理功能。特别是基于微机电系统(MEMS) 的麦克风阵列出现后,麦克风阵列音频定位方案引起科研企业和开发人员的广泛关注。

目前业界正在使用MEMS麦克风阵列子系统开发嵌入式音频定位、自动语音识别和自动说话人识别解决方案,声音识别定位是我们识别确认他人身份的基本功能,当我们听到有人讲话时,会将头转向说话人,查看说话人。

音源定位是自动语音识别和自动说话人识别系统的一个重要环节,对于提高语音识别系统的性能至关重要。麦克风阵列可捕捉从不同方向传来的声音,通过算法运算使麦克风指向某一个特定方向,放大从该方向捕捉到的音频信号,同时衰减从其它方向捕捉的音频信号,整个动作就像一个智能麦克风。

下载全文:
141637

该文章有附件资料,如需下载请访问 电脑版