物联网时代,语音交互变得越来越重要,作为小米的智能生活助手,小爱同学是小米语音交互的重要环节。如何让用户更快、更准确地唤醒小爱同学,同时又要保证在各种环境下避免误唤醒,一直是小米语音技术攻坚的方向。
近日,ICASSP 2021公布了论文入选名单,小米 AI 实验室多篇学术论文被接收,其中《AutoKWS: Keyword Spotting with Differentiable Architecture Search》这篇论文讲述的,正是如何利用自动化搜索技术提升唤醒准确率。
ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。作为IEEE(电子技术与信息科学工程师协会)的一个重要会议,ICASSP历史悠久,对信号处理方面的学术人士有着重要意义。
01
背景介绍
玛雅吧首页font-size: 16px;">目前语音唤醒任务中, 通过把语音问题转化成图像问题,从音频中提取频谱特征(通常为MFCC特征或LogMel特征)输入到CNN网络中进行识别,可以取得显著的效果。同时,由于现有的卷积操作计算量大,运算速度较慢,内存开销较大,所以TC-ResNet提出了时序卷积temporal conv,极大的减少了计算量,具体如下图:
该论文中采用的temporal conv中的kernel size固定为9×1,这么做是根据一定的专家经验,但并非最优。而针对不同的唤醒任务,NAS方法非常适合在一个特定解空间中找出最优解,从而确定所需kernel size的大小,取得“最优的“的一系列结果。NAS的传统方法RL和EA需要消耗大量的GPU资源,而基于可微分搜索的方法的计算开销要小几个量级。基于此,小米的工程师们首次将自研的可微分搜索方法FairDARTS和NoisyDARTS搜索方法结合TC-ResNet搜索空间,应用到端到端语音唤醒任务中。
02
采用自研的搜索算法
经典的可微分搜索DARTS存在超网性能很好但最终优化得到的子网不佳的性能崩塌现象,小米AutoML团队提出了FairDARTS 和 NoisyDARTS 来解决这一问题。FairDARTS中推断原因是skip conneciton与其他算子存在不公平竞争,用sigmoid替代softmax 变不公平为公平,而NoisyDARTS则是对 skip connection输出混入高斯噪声来做惩罚以抵消不公平。本论文中,小米工程师将自研算法FairDARTS 和 NoisyDARTS应用到语音唤醒任务(KWS)中,具体的搜索空间和方法如下图:
03
设计更轻量级的搜索空间
相对于TC-ResNet采用的kernel size 9×1的temporal conv(对应更长的时序处理), 小米工程师们则在搜索空间中加入了kernel size 3×1,5×1, 7×1的temporal conv,使网络自主学习每层应该使用的kernel size大小。并且在block中引入了图像领域经典的SE结构(attention操作的一种),具体结构如下图:
04
性能对比
DARTS-TC14只用了当前最好模型TC-ResNet-14 36%的FLOPS就达到了同样的准确率,而Fair/NoisyDARTS-TC14用了更少的参数量达到了与MHatt-RNN同样的SOTA 准确率,再次验证了自动化网络搜索的有效性。
05
未来展望
此前,小米AI实验室为用户提供“定制声音、定制唤醒词”等服务,同时上线泡芙的儿童音色,这些成果都离不开背后的语音技术。为了让用户的体验更好,小米AI实验室不断钻研、坚持不断为公司输送AI技术,让用户的设备越来越智能。
这些自研成果的背后,是一支死磕技术且极具战斗力的团队。小米AI实验室围绕公司“手机xAIoT”战略,探索和研发先进的人工智能技术,打造人工智能技术平台,为公司的关键业务输出核心AI能⼒。
未来,小米的人工智能会进一步打造核心技术,推进各项AI技术的业务落地,给用户打造更好的体验为每一个人带来更美好的和智能的生活。
参考文献:
小米公司官方微信
第一时间获取资讯,掌握最新动态
点「 在看」
和大家一起看