人工智能可以利用人类的感知来帮助消除嘈杂的音频

2024-02-26 15:59:50 来源：

研究人员开发了一种新的深度学习模型，该模型有望通过利用以前未充分利用的工具：人类感知，显着提高现实场景中的音频质量。

研究人员发现，他们可以利用人们对声音质量的主观评级，并将其与语音增强模型相结合，以实现通过客观指标衡量的更好的语音质量。

新模型在最大限度地减少噪音音频方面优于其他标准方法，噪音音频是不需要的声音，可能会扰乱听众真正想听到的声音。最重要的是，我们发现模型生成的预测质量分数与人类做出的判断密切相关。

限制背景噪声的传统措施是使用人工智能算法从所需信号中提取噪声。但这些客观方法并不总是与听众对演讲易于理解的评估一致，该研究的合著者、俄亥俄州立大学计算机科学与工程系副教授唐纳德·威廉姆森说。

“这项研究与其他研究的区别在于，我们试图利用感知来训练模型以消除不需要的声音，”威廉姆森说。“如果人们可以感知到信号质量的某些信息，那么我们的模型就可以将其用作附加信息来学习并更好地消除噪声。

这项研究发表在《IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing》杂志上，重点是改进单声道语音增强，或来自单个音频通道(例如一个麦克风)的语音。

这项研究在之前研究中涉及人们谈话录音的两个数据集上训练了新模型。在某些情况下，电视或音乐等背景噪音可能会掩盖对话。听众对每个录音的语音质量进行评分，评分范围为1到100。

该团队的模型从联合学习方法中获得了令人印象深刻的性能，该方法将专门的语音增强语言模块与预测模型相结合，该预测模型可以预测人类听众可能给出的噪声信号的平均意见得分。

结果表明，他们的新方法在提高语音质量方面优于其他模型，通过感知质量、清晰度和人类评分等客观指标来衡量。

但威廉姆森说，利用人类对音质的感知有其自身的问题。

“嘈杂的音频很难评估，因为它非常主观。这取决于你的听力能力和听力体验，”他说。他说，助听器或人工耳蜗等因素也会影响普通人对声音环境的感知程度。

由于提高噪声语音的质量对于改进助听器、语音识别程序、说话者验证应用和免提通信系统至关重要，因此这些感知差异必须足够小，以防止噪声音频不那么用户友好。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！