手把手教你如何使用AI配音，实现简单的声音克隆、文字转声音工具

想必各位都刷到过很多视频，up主随意就能将一段文字使用任意人的声音说话，比如短视频中比较多的悟空配音讲解等。

今天推荐一个简单易用的声音克隆工具(开源且免费)，也能实现该功能，只需上传1分钟左右的声音文件，就能将文字使用该声音读出来，并导出音频文件。

这个工具在windows上下载后双击 app.exe 即可打开一个网页，在里面输入文字，选择说话的声音，或者上传想使用的说话声音文件，然后点击开始就ok了。

点击打开链接播放mp3，这是使用本工具合成的一个效果，声音样本来自七线阁up主

下面来详细说说从下载到使用整个过程。

第一步自然是去下载：

浏览器中打开下载地址 github.com/jianchang512/clone-voice

然后右侧找到“Releases”字样的区域，点击打开，就能看到下载链接了。如图所示

打开下载页面分别下载软件包和模型包

下载软件包

下载模型包

解压软件包

软件包下载后，解压到英文数字目录下，注意目录名中不可以有空格。

软件包解压后效果

解压模型包

然后进入软件下的tts目录内，将下载的模型包在这里解压，要注意是将压缩包内的文件夹直接解压到tts下面，而不是解压到压缩包名称的文件夹内哦。

软件包和模型包都正确解压后，直接双击app.exe就可以运行了。

双击app.exe后会打开一个黑窗口，上面会输出一些信息，请注意阅读。

根据电脑配置不同，这一步可能比较耗时，请耐心等待，直到出现“文字->声音线程启动成功”，并打开了浏览器页面，就可以使用了。

注意可能会提示“不存在【声音-声音】模型”或“【声音-声音】模型启动失败”，可以忽略，因为这个模型不是用于文字转声音的，是用于声音转声音的，暂时用不到该功能。

在这个页面中，输入要生成声音的文字，选择要使用的声音，或者上传自己的声音，上传自己的声音要注意，声音文件内只能有一个人说话，并且无背景噪声，时长在5秒-3分钟，时长越长，效果越好，当然也就要求更高的电脑性能。

都输入和选择好后，点击底部的“立即开始生成”按钮，等待完成就可以了。

确保上传的声音里，只有一个人说话，发音清晰，并且无背景噪声，时长可以稍长点，比如1分钟到3分钟。时长越长，效果相对会越好。

2. 总是提示“【声音】->【声音】失败”

如果你不需要该功能，直接忽略即可。如果你需要该功能，请去

github.com/jianchang512/clone-voice/releases/tag/v0.0.1

按照这个说明下载压缩包，将压缩包里面的2个解压到软件目录下的 tts_cache内即可。

GPT-SoVITS 使用的模型是国人开发训练的，中文效果更好，支持中日英三国语言。

本项目使用的模型是老外训练的，支持十多种语言，中文效果不及英语效果。

未来计划在视频翻译配音软件中集成对GPT-SoVITS的支持，也就是可以直接在视频翻译配音软件中使用GPT-SoVITS进行配音

这个模型是老外训练的，在中文支持方面不是太好，本人正在开发一个训练工具，在完成后，会合并入该项目，将能自行对模型进行微调，以实现更好的效果。敬请期待哦！

训练图

项目开源地址

https://github.com/jianchang512/clone-voice

分享一个国内免费使用GPT4.0的AI智能问答工具：智答专家。支持AI文本、作图、语音、Sora视频。无需魔法，亲测有效，点击访问

标签：声音克隆,AI
来源：智答专家
发布时间：2024-06-20 17:30