CosyVoice

支持零样本语音克隆、跨语言合成和高自然度流式输出,引领当前开源 TTS 领域前沿

CosyVoice是一个由 FunAudioLLM 团队开发的开源多语言文本到语音(TTS)合成模型,专注于高保真、自然流畅的语音生成。它支持零样本语音克隆、跨语言合成和超低延迟流式输出,被誉为当前开源TTS领域的领先项目之一,常与阿里巴巴的相关研究关联。

主要特点

  • 多语言支持:支持中文、英文、日文、韩文,以及粤语、四川话等方言,覆盖多种语言和口音。
  • 零样本语音克隆:只需提供几秒钟的参考音频,即可实现高相似度的语音克隆,无需大量训练数据。
  • 超低延迟流式合成:首包延迟低至150ms,支持实时双向流式(适用于语音聊天、虚拟助手等交互场景),同时兼容非流式高质量输出。
  • 高自然度:语音自然度(MOS分数)达到5.53,与商用大模型相当;在内容一致性、音色相似度和韵律方面表现出色。
  • 指令控制:支持通过自然语言指令控制情感、语调等(如“开心地说”)。
  • 开源免费:基于Apache-2.0协议,完全开源,提供推理、训练和部署的全栈能力。

最新版本

  • CosyVoice 2.0:显著提升了合成速度、发音准确率(错误率降低30%-50%)、音色稳定性,并实现了流式与非流式的统一建模。
  • 项目正在迭代中,已有 Fun-CosyVoice 3.0 的预览版本,进一步提升内容一致性、说话人相似度和韵律自然度。

CosyVoice 在开源社区评价很高,适用于有声书、语音助手、跨语言配音、实时互动等场景。