语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法-APISpace

语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法

近日，阿里云视频云音频技术团队与新加坡国立大学李海洲教授团队合作论文《基于时频感知域模型的单通道语音增强算法》(Time-Frequency Attention for Monaural Speech Enhancement ) 被 ICASSP 2022 接收, 并受邀于今年 5 月在会议上向学术和工业界做研究报告。ICASSP（International Conference on Acoustics, Speech and Signal Processing）是全世界最大的，也是最全面的融合信号处理、统计学习、及无线通信的语音领域顶级会议。

七琦｜作者

本次合作论文提出了融合语音分布特性的 T-F attention (TFA) 模块，可以在几乎不额外增加参数量的情况下显著提高语音增强的客观指标。

arxiv 链接：2021：《Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement》

链接：在本文中，我们提出了一个简单而有效的 T-F 注意力（TFA）模块，使得在建模过程中可以显式引入对语音分布特性的先验思考。为了验证我们提出的 TFA 模块的有效性，我们使用残差时序卷积神经网络（ResTCN）作为基础模型，并使用语音增强领域中两个常用的训练目标 IRM [1]（The ideal ratio mask）和 PSM [2] （The phase-sensitive mask）分别进行了探索实验。我们的实验结果表明，应用所提的 TFA 模块可以在几乎不额外增加参数量的情况下显著提高常用的五个客观评估指标，且 ResTCN+TFA 模型始终以较大的优势优于其他 baseline 模型。

3.方法解析

TFA 模块以变换后的时频表示 $Y\in\mathbb{R}^{L×d{model}}$ 为输入，利用两个独立的分支来分别进行 1-D time-frame attention map $T{A} \in \mathbb{R} ^{L\times 1}$ 和 1-D frequency-dimension attention map $F{A} \in \mathbb{R} ^{1\times d{model} }$ 的生成，然后将其融合为最终需要的 2-D T-F attention map $TF{A} \in \mathbb{R} ^{L\times d{model} }$ ，最终的结果可以重写为：$\widetilde{Y} =Y\odot TF_{A}$ 。

4.实验结果

训练误差曲线

语音增强客观指标评估

关于阿里云视频云音频技术团队

阿里云视频云音频技术团队，专注于采集播放-分析-处理-传输等全面的音频技术，服务于实时通信、直播、点播、媒体生产、媒体处理，长短视频等业务。通过神经网络与传统信号处理的结合，持续打磨业界领先的 3A 技术，深耕设备管理与适配、qos 技术，持续提升各场景下的直播、实时音频通信体验。

参考文献

[1] Y. Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,” IEEE/ACM Trans. Audio, speech, Lang. Process., vol. 22, no. 12, pp. 1849–1858, 2014.[2] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks,” in Proc. ICASSP, 2015, pp. 708–712.[3] R. I.-T. P. ITU, “862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunicatio.[4] J. Jensen and C. H. Taal, “An algorithm for predicting the intelligibility of speech masked by modulated noise maskers,” IEEE/ACM Trans. Audio, speech, Lang. Process., vol. 24, no. 11, pp. 2009–2022, 2016.[5] Y. Hu and P. C. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Trans. Audio, Speech, Lang. process., vol. 16, no. 1, pp. 229–238, 2007.

怎么构建命名实体识别（NER）任务的标注数据

293 2022-09-29

语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法

Linux MIPI CSI开发指南

什么是DeepFlow？DeepFlow的协议能力解析

怎么构建命名实体识别（NER）任务的标注数据

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）