我有一台配备 Quadro P5000 显卡、运行 Windows 10 的机器。我想在该系统上训练 TTS 语音。我需要安装什么才能使其正常工作?
以下是安装/执行的操作:
cuda
文件夹中的内容复制到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1
中。git clone https://github.com/coqui-ai/TTS.git
。cd TTS
。python -m venv .
。.\Scripts\pip install -e .
。.\Scripts\pip install torch==1.8.0+cu101 torchvision==0.9.0+cu101 torchaudio===0.8.0 -f https://download.pytorch.org/whl/torch_stable.html
TTS
文件夹中名为“test_cuda.py”的脚本中:import torch
x = torch.rand(5, 3)
print(x)
print(torch.cuda.is_available())
.\Scripts\python ./test_cuda.py
运行脚本并确认输出如下所示(第一部分应该只有随机数,但最后一行必须为 True
;如果不是,则 CUDA 未正确安装):tensor([[0.2141, 0.7808, 0.9298],
[0.3107, 0.8569, 0.9562],
[0.2878, 0.7515, 0.5547],
[0.5007, 0.6904, 0.4136],
[0.2443, 0.4158, 0.4245]])
True
TTS
文件夹中名为“train.bat”的脚本中,然后根据您的配置文件对其进行自定义:set PYTHONIOENCODING=UTF-8
set PYTHONLEGACYWINDOWSSTDIO=UTF-8
set PHONEMIZER_ESPEAK_PATH=C:/Program Files/eSpeak NG/espeak-ng.exe
.\Scripts\python.exe ./TTS/bin/train_tacotron.py --config_path "C:/path/to/your/config.json"
.\train.bat
运行脚本。如果您使用的模型与 Tacotron 不同,或者需要将其他参数传递到训练脚本中,请随时进一步自定义
train.bat
。
如果您刚刚开始进行 TTS 训练,请查看 如何开始在 Ubuntu 20.04 上使用 Mozilla TTS 训练自定义语音模型?.
对于那些寻找更新解决方案的人,这就是我如何调整 GuyPaddock 的说明,以使用 CUDA 11 在 Windows 11 上运行用于语音克隆的 CoquiTTS 训练:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
CUDA_PATH
的新系统变量中: C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
CUDNN
:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\include
;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\lib\x64
;下载并安装最新的 64 位版本的 eSpeak NG
下载并安装适用于 Windows 的最新 64 位版本的 Git
打开 PowerShell 提示符进入新的工作目录 运行 git clone https://github.com/coqui-ai/TTS.git.
兰
cd TTS
运行 python -m venv .
兰
.\Scripts\pip install -e .
运行以下命令
.\Scripts\pip install torch==2.2.0+cu118 torchvision==0.17.0+cu118 torchaudio==2.2.0 -f https://download.pytorch.org/whl/torch_stable.html
使用以下代码创建脚本
main.py
:
import torch
from TTS.api import TTS
# Check if CUDA is installed
if torch.cuda.is_available():
print("CUDA installed succesfully\n")
else:
print("CUDA not properly installed. Stopping process...")
quit()
# Print available TTS models
view_models = input("View models? [y/n]\n")
if view_models == "y":
tts_manager = TTS().list_models()
all_models = tts_manager.list_models()
print("TTS models:\n", all_models, "\n", sep = "")
# Prompt model selection
model = input("Enter model:\n")
# for example, tts_models/multilingual/multi-dataset/xtts_v2
# Example voice cloning with selected model
tts = TTS((model), progress_bar=True).to(device)
tts.tts_to_file("This is a voice cloning test", speaker_wav="train-audio.wav",
language="en", file_path="output.wav")
.\Scripts\python ./main.py