搜狗赢得interspeech 2020 DNS挑战赛,获得实时降噪第一名
最近,索沟与西北理工大学的语音和语言处理研究小组(ASLP@NPU)合作,在微软组织的Intertalk 2020 DeepNoiseSuppression挑战赛(以下简称DNS)上获得了实时降噪赛道(Real-TimeTrack,RT)的第一名,并在非实时降噪轨道(non-Real-TimeTrack)中获得了第二名。
索沟和西方工业大学击败了许多著名的学校和企业,在实时降噪方面赢得了第一名。
据报道,InterSpeech是微软每年举办一次的国际语音会议,每年举办一次论文征求和质疑会议。作为世界上最具影响力的语音行业会议之一,它受到业界的关注。来自世界各地的学校、研究机构和技术制造商将积极贡献论文,以展示自己的科研实力。根据组织者发布的数据,INTERSPEECH 2020收到了数千篇论文。由于对评选质量和数量的要求很高,遴选过程极为激烈,最终合格率为47%。
INTERSPEECH 2020的竞争主题之一是DNS挑战,重点是基于深入学习的语音增强任务。据了解,DNS挑战的主要评估指标是MOS评分。微软官员提供了大约500个小时从互联网收集的数据供参赛者使用。最终,该官员提供了盲测试集,参赛者使用自己的训练模式,将增强的声音提供给官方进行评估。
就在最近,论文选择和竞争评估结果显示,索沟与西方科技大学(WesternUniversityofTechnology)联合提交了一个语音增强模型,击败了来自亚马逊(Amazon)、索尼(Sony)、脸书(Facebook)、Word Bit、花旗银行(Citibank)、CMU、约翰霍普金斯大学(Johns Hopkins University)、达拉斯、中国科学院(中科院)、台湾中文研究院等的科研机构和知名制造商,以达到实时跟踪和非实时跟踪的第一和第二最佳效果。"同时,基于评价的"DCCRN:DeepComplexConvolutionRecurrentNetworkforPhase-AwareSpeechEnhancement"论文也在2020年间收到,并将在会议上宣读。
语音降噪技术创新的意义何在?
我们知道,在语音采集和传输过程中,由于信道损耗,干扰噪声和混响的影响,语音的智能性和音质都可能受到严重影响。因此,在语音信号处理领域,语音增强技术一直是备受关注的一个重要研究方向。我们知道,影响语音信号质量的主要因素之一来自于外界环境的干扰噪声。 这既包括非人声的加性噪声,也包括非目标说话人的语音和目标语音空间反射产生的混响。搜狗和西工大提交的语音增强模型将近年来效果较好的卷积循环神经网络扩展到复数卷积形式,利用复数卷积和复数 LSTM,加上跳连接,有效提高降噪能力
以降低环境噪声,提高语音质量为目标的语音增强技术有着广泛的应用,搜狗最新推出的智能录音笔产品搭载了基于深度学习的语音降噪技术,基于软硬件的有机结合,可实现 4 万种真实噪声的深度智能降噪,并能根据其周围环境识别噪声并过滤消除,让人的声音更加清晰。罗永浩在直播首秀现场测试了搜狗智能录音笔 S1 的 Ai 降噪功能。 测试表明,在 "吹风机" 和 "捏糖纸" 造成的巨大噪音环境下,开启了 Ai 降噪功能的搜狗 Ai 录音笔 S1 能够有效消除环境噪音,降低原本清晰的人声。此外,搜狗领先的 Ai 降噪技术未来也可能会用在搜狗输入,搜狗翻译等 3500 产品上,比如单词识别能力的应用可以大幅提升其语音识别能力,识别率更高,产品体验更好
事实上,在这项 DNS 挑战中,索沟在实时降噪赛道(Real-TimeTrack,RT) 和非实时降噪赛道(non-Real-TimeTrack) 中分别获得第一名和第二名并不令人惊讶。作为我国领先的人工智能企业,索沟积累了大量的语音技术,并围绕智能语音技术进行了产品创新和技术探索。这种与西方工业大学音频语音和语言处理研究小组等顶级实验室在人工智能降噪技术领域的合作可以说是与其技术战略相一致的。击败国内外许多名校,在实时降噪轨道上获得第一名,也再次证明了索沟在人工智能降噪和智能语音技术领域的巨大优势和领先地位。