如何在 Windows 系统上使用 CUDA 运行 Mozilla TTS/Coqui TTS 训练？

Question

我有一台配备 Quadro P5000 显卡、运行 Windows 10 的机器。我想在该系统上训练 TTS 语音。我需要安装什么才能使其正常工作？

Answer 1

以下是安装/执行的操作：

下载并安装适用于 Windows 的 Python 3.8（不是3.9+）。在安装过程中，请确保您：

选择为所有用户安装它。
选择将 Python 添加到 PATH。

下载并安装 CUDA Toolkit 10.1（不是 11.0+）。
下载“cuDNN v7.6.5（2019年11月5日），适用于CUDA 10.1”（不是cuDNN v8+），解压它，然后将
```
cuda
```
文件夹中的内容复制到
```
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1
```
中。
下载最新的 64 位版本的 eSpeak NG（无版本限制:-)）。
下载适用于 Windows 的最新 64 位版本的 Git（无版本限制:-)）。
打开 PowerShell 提示符，进入您要安装 Coqui TTS 的文件夹。

运行

git clone https://github.com/coqui-ai/TTS.git

。

运行
```
cd TTS
```
。
运行
```
python -m venv .
```
。
运行
```
.\Scripts\pip install -e .
```
。
运行以下命令（这与您从 PyTorch 网站获取的命令不同，因为已知问题）：

.\Scripts\pip install torch==1.8.0+cu101 torchvision==0.9.0+cu101 torchaudio===0.8.0 -f https://download.pytorch.org/whl/torch_stable.html

将以下内容放入
```
TTS
```
文件夹中名为“test_cuda.py”的脚本中：

import torch
x = torch.rand(5, 3)
print(x)
print(torch.cuda.is_available())

通过
```
.\Scripts\python ./test_cuda.py
```
运行脚本并确认输出如下所示（第一部分应该只有随机数，但最后一行必须为
```
True
```
；如果不是，则 CUDA 未正确安装）：

tensor([[0.2141, 0.7808, 0.9298],
        [0.3107, 0.8569, 0.9562],
        [0.2878, 0.7515, 0.5547],
        [0.5007, 0.6904, 0.4136],
        [0.2443, 0.4158, 0.4245]])
True

将以下内容放入
```
TTS
```
文件夹中名为“train.bat”的脚本中，然后根据您的配置文件对其进行自定义：

set PYTHONIOENCODING=UTF-8
set PYTHONLEGACYWINDOWSSTDIO=UTF-8
set PHONEMIZER_ESPEAK_PATH=C:/Program Files/eSpeak NG/espeak-ng.exe

.\Scripts\python.exe ./TTS/bin/train_tacotron.py --config_path "C:/path/to/your/config.json"

通过
```
.\train.bat
```
运行脚本。

如果您使用的模型与 Tacotron 不同，或者需要将其他参数传递到训练脚本中，请随时进一步自定义

train.bat

。

如果您刚刚开始进行 TTS 训练，请查看如何开始在 Ubuntu 20.04 上使用 Mozilla TTS 训练自定义语音模型？.

Answer 2

对于那些寻找更新解决方案的人，这就是我如何调整 GuyPaddock 的说明，以使用 CUDA 11 在 Windows 11 上运行用于语音克隆的 CoquiTTS 训练：

下载并安装Python 3.11
下载并安装 CUDA 工具包 11.8
下载了适用于 CUDA 11.8 的 CUDNN v9.0.0，解压，然后将文件夹内容复制到
```
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
```

将以下内容添加到名为

CUDA_PATH

的新系统变量中：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8

将以下内容添加到系统变量 Path 和一个新的系统变量
```
CUDNN
```
：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8

；

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin

；

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\include

；

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\lib\x64

；

下载并安装最新的 64 位版本的 eSpeak NG
下载并安装适用于 Windows 的最新 64 位版本的 Git
打开 PowerShell 提示符进入新的工作目录运行 git clone https://github.com/coqui-ai/TTS.git.
兰
```
cd TTS
```
运行 python -m venv .
兰
```
.\Scripts\pip install -e .
```

运行以下命令

.\Scripts\pip install torch==2.2.0+cu118 torchvision==0.17.0+cu118 torchaudio==2.2.0 -f https://download.pytorch.org/whl/torch_stable.html

使用以下代码创建脚本
```
main.py
```
：

import torch
from TTS.api import TTS

# Check if CUDA is installed
if torch.cuda.is_available():
    print("CUDA installed succesfully\n") 
else:
        print("CUDA not properly installed. Stopping process...")
        quit()
# Print available TTS models
view_models = input("View models? [y/n]\n")
if view_models == "y":
tts_manager = TTS().list_models()
all_models = tts_manager.list_models()
print("TTS models:\n", all_models, "\n", sep = "")

# Prompt model selection
model = input("Enter model:\n")
# for example, tts_models/multilingual/multi-dataset/xtts_v2

# Example voice cloning with selected model
tts = TTS((model), progress_bar=True).to(device)
tts.tts_to_file("This is a voice cloning test", speaker_wav="train-audio.wav",
                language="en", file_path="output.wav")

通过
```
.\Scripts\python ./main.py
```

如何在 Windows 系统上使用 CUDA 运行 Mozilla TTS/Coqui TTS 训练？

问题描述投票：0回答：2

2个回答

最新问题

如何在 Windows 系统上使用 CUDA 运行 Mozilla TTS/Coqui TTS 训练？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2