阿里开源语音大模型CosyVoice：从部署到克隆的完整指南

前言

很久之前就想给大家介绍声音克隆开源项目GPT-SoVITS ，但是看到视频教程过于复杂了，最近又出现了一个剪辑《人民的名义》的短视频非常搞笑，先给大家看下这个视频：
v.douyin.com/iM4gg5Fb/ 复制此链接，打开Dou音搜索，直接观看视频！

我就找到了一款最新更加强大的声音克隆项目CosyVoice。CosyVoice 是阿里通义实验室在七月初开源的一款专注于自然语音合成的语音大模型，它具备多语言、多音色和细腻的情感控制能力。这个系统支持中文、英文、日文、粤语和韩语五种语言的语音生成，并且在语音合成的效果上远超传统模型。

只需3到10秒的原始音频样本，CosyVoice便能够复刻出相似的音色，包括语调和情感等细节，实现跨语种的语音合成。

CosyVoice的另一个亮点在于它对生成语音情感和韵律的精细控制，这是通过富文本或自然语言输入实现的。这种控制机制显著提高了合成语音的情感表达能力。这使得生成的语音更加栩栩如生，充满情感色彩。

部署

首先需要找到官方项目的开源地址

github.com/FunAudioLLM…

首先克隆官方项目，创建一套独立的Python虚拟环境

bash代码解读复制代码git clone https://github.com/FunAudioLLM/CosyVoice.git   conda create -n cosyvoice python=3.8 conda activate cosyvoice

此时已经激活了虚拟环境，现在下载项目依赖的第三方包

ini代码解读复制代码pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

需要等待很长时间安装PyTorch

接着安装pyini
Pynini是一个基于字符串的传播和转换的库,可以用于各种自然语言处理任务,如词性标注、名词短语提取和依赖句法分析。

ini代码解读复制代码conda install -y -c conda-forge pynini==2.1.5

根据文档要提前下载模型，这里不使用阿里的魔搭包下载，而是使用Git下载，前提是安装git lfs 插件：

bash代码解读复制代码# git模型下载，请确保已安装git lfs mkdir -p pretrained_models git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

模型文件非常大，又需要等待较长时间才能下载完成，但完成后即可成功使用，使用以下命令启动服务：

css代码解读复制代码python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

这里有个坑，我这里是局域网访问，需要把webui.py文件中

ini代码解读复制代码... demo.launch(server_port=args.port) ...

改成

ini代码解读复制代码... demo.launch(server_port=args.port, server_name="0.0.0.0") ...

如果是本机访问可以忽略，这时访问局域网IP加端口号50000就能访问到这个由gradio库搭建的WebUI 网页应用了

测试

这里只简单测试一下，来找一段《还珠格格》中紫薇的语音素材，让它说一段毫无逻辑的台词。台词内容：

代码解读复制代码我不敢苟同，因为我个人认为，这个意大利面就应该拌42号混凝土，因为这个螺丝钉的长度，它很容易会直接影响到挖掘机的扭矩你知道吧，你往里砸的时候，一瞬间它就会产生大量的高能蛋白，俗称ufo，会严重影响经济的发展，甚至对整个太平洋以及充电器都会造成一定的核污染，你知道啊？再者说，根据这个勾股定理，你可以很容易地推断出人工饲养的东条英机它是可以捕获野生的三角函数的，所以说这个秦始皇的切面是否具有放射性啊，特朗普的N次方是否含有沉淀物，都不影响这个沃尔玛跟维尔康在南极会合

第一步上传原素材的音频文件（可能需要处理以使效果更好），第二步输入原素材的音频文件对应的字幕，第三步输入想要的生成的语音的文案，最后一步点击生成，耐心等待

等待了30秒生成了21秒的视频，效果非常不错，生成的语音的效果跟素材非常相似，只是长段的语音文案生成时可能会丢失一部分内容（可以通过自己手动拼接处理这个问题）。

最后

又写了一篇从零开始部署开源大模型项目的文章，之前写了很多有兴趣的同学可以找到我的主页看看，后面也会继续关注相关的内容，如果感兴趣可以继续关注我，或者可以留言告诉我想看什么大模型实测效果。如果觉得内容不错，欢迎点个关注

分享一个国内免费使用GPT4.0的AI智能问答工具：智答专家。支持AI文本、作图、语音、Sora视频。无需魔法，亲测有效，点击访问

标签：CosyVoice
来源：智答专家
发布时间：2024-09-09 16:20