小米发布ZipVoice系列语音合成模型 打破AI播客技术瓶颈
凤凰网科技讯 9月12日,小米技术发布消息,近日,小米集团AI实验室新一代Kaldi团队发布了基于Flow Matching架构的ZipVoice系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)。
ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,ZipVoice-Dialog则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈。
实验结果表明,ZipVoice和ZipVoice-Distill在具备更小参数量和更快推理速度的同时,在三个客观指标,即说话人相似度(SIM-o)、词错误率(WER)和UTMOS,以及两个主观指标(CMOS、SMOS)上都极具竞争力,达到了零样本语音合成模型的SOTA性能水平,同时显著减少了模型参数量,加快了推理速度。
对话语音合成模型可以根据对话文本合成双人对话语音,是AI播客等应用的核心技术,得到了业界的广泛关注。相对单说话人语音合成,对话语音合成需要在一句话中合成不同的说话人音色,且需实现自然且准确的说话人切换,因此更有挑战性。
(来源:新浪科技)