小目录

CosyVoice

支持零样本语音克隆、跨语言合成和高自然度流式输出，引领当前开源 TTS 领域前沿

语音克隆声音克隆

CosyVoice是一个由 FunAudioLLM 团队开发的开源多语言文本到语音（TTS）合成模型，专注于高保真、自然流畅的语音生成。它支持零样本语音克隆、跨语言合成和超低延迟流式输出，被誉为当前开源TTS领域的领先项目之一，常与阿里巴巴的相关研究关联。

主要特点

多语言支持：支持中文、英文、日文、韩文，以及粤语、四川话等方言，覆盖多种语言和口音。
零样本语音克隆：只需提供几秒钟的参考音频，即可实现高相似度的语音克隆，无需大量训练数据。
超低延迟流式合成：首包延迟低至150ms，支持实时双向流式（适用于语音聊天、虚拟助手等交互场景），同时兼容非流式高质量输出。
高自然度：语音自然度（MOS分数）达到5.53，与商用大模型相当；在内容一致性、音色相似度和韵律方面表现出色。
指令控制：支持通过自然语言指令控制情感、语调等（如“开心地说”）。
开源免费：基于Apache-2.0协议，完全开源，提供推理、训练和部署的全栈能力。

最新版本

CosyVoice 2.0：显著提升了合成速度、发音准确率（错误率降低30%-50%）、音色稳定性，并实现了流式与非流式的统一建模。
项目正在迭代中，已有 Fun-CosyVoice 3.0 的预览版本，进一步提升内容一致性、说话人相似度和韵律自然度。

CosyVoice 在开源社区评价很高，适用于有声书、语音助手、跨语言配音、实时互动等场景。