如何在 Windows 系统上使用 CUDA 运行 Mozilla TTS/Coqui TTS 训练?

问题描述 投票:0回答:2

我有一台配备 Quadro P5000 显卡、运行 Windows 10 的机器。我想在该系统上训练 TTS 语音。我需要安装什么才能使其正常工作?

text-to-speech
2个回答
34
投票

以下是安装/执行的操作:

  1. 下载并安装适用于 Windows 的 Python 3.8(不是3.9+)。在安装过程中,请确保您:
  • 选择为所有用户安装它。
  • 选择将 Python 添加到 PATH。
  1. 下载并安装 CUDA Toolkit 10.1(不是 11.0+)。
  2. 下载“cuDNN v7.6.5(2019年11月5日),适用于CUDA 10.1”(不是cuDNN v8+),解压它,然后将
    cuda
    文件夹中的内容复制到
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1
    中。
  3. 下载最新的 64 位版本的 eSpeak NG(无版本限制:-))。
  4. 下载适用于 Windows 的最新 64 位版本的 Git(无版本限制:-))。
  5. 打开 PowerShell 提示符,进入您要安装 Coqui TTS 的文件夹。
  6. 运行
    git clone https://github.com/coqui-ai/TTS.git
  7. 运行
    cd TTS
  8. 运行
    python -m venv .
  9. 运行
    .\Scripts\pip install -e .
  10. 运行以下命令(这与您从 PyTorch 网站获取的命令不同,因为已知问题):
.\Scripts\pip install torch==1.8.0+cu101 torchvision==0.9.0+cu101 torchaudio===0.8.0 -f https://download.pytorch.org/whl/torch_stable.html
  1. 将以下内容放入
    TTS
    文件夹中名为“test_cuda.py”的脚本中:
import torch
x = torch.rand(5, 3)
print(x)
print(torch.cuda.is_available())
  1. 通过
    .\Scripts\python ./test_cuda.py
    运行脚本并确认输出如下所示(第一部分应该只有随机数,但最后一行必须为
    True
    ;如果不是,则 CUDA 未正确安装):
tensor([[0.2141, 0.7808, 0.9298],
        [0.3107, 0.8569, 0.9562],
        [0.2878, 0.7515, 0.5547],
        [0.5007, 0.6904, 0.4136],
        [0.2443, 0.4158, 0.4245]])
True
  1. 将以下内容放入
    TTS
    文件夹中名为“train.bat”的脚本中,然后根据您的配置文件对其进行自定义:
set PYTHONIOENCODING=UTF-8
set PYTHONLEGACYWINDOWSSTDIO=UTF-8
set PHONEMIZER_ESPEAK_PATH=C:/Program Files/eSpeak NG/espeak-ng.exe

.\Scripts\python.exe ./TTS/bin/train_tacotron.py --config_path "C:/path/to/your/config.json"
  1. 通过
    .\train.bat
    运行脚本。

如果您使用的模型与 Tacotron 不同,或者需要将其他参数传递到训练脚本中,请随时进一步自定义

train.bat

如果您刚刚开始进行 TTS 训练,请查看 如何开始在 Ubuntu 20.04 上使用 Mozilla TTS 训练自定义语音模型?.


0
投票

对于那些寻找更新解决方案的人,这就是我如何调整 GuyPaddock 的说明,以使用 CUDA 11 在 Windows 11 上运行用于语音克隆的 CoquiTTS 训练:

  1. 下载并安装Python 3.11
  2. 下载并安装 CUDA 工具包 11.8
  3. 下载了适用于 CUDA 11.8 的 CUDNN v9.0.0,解压,然后将文件夹内容复制到
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
  4. 将以下内容添加到名为
    CUDA_PATH
    的新系统变量中:
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
  5. 将以下内容添加到系统变量 Path 和一个新的系统变量
    CUDNN
  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8
  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\include
  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\lib\x64
  1. 下载并安装最新的 64 位版本的 eSpeak NG

  2. 下载并安装适用于 Windows 的最新 64 位版本的 Git

  3. 打开 PowerShell 提示符进入新的工作目录 运行 git clone https://github.com/coqui-ai/TTS.git.

  4. cd TTS

  5. 运行 python -m venv .

  6. .\Scripts\pip install -e .

  7. 运行以下命令

    .\Scripts\pip install torch==2.2.0+cu118 torchvision==0.17.0+cu118 torchaudio==2.2.0 -f https://download.pytorch.org/whl/torch_stable.html

  8. 使用以下代码创建脚本

    main.py

import torch
from TTS.api import TTS

# Check if CUDA is installed
if torch.cuda.is_available():
    print("CUDA installed succesfully\n") 
else:
        print("CUDA not properly installed. Stopping process...")
        quit()
# Print available TTS models
view_models = input("View models? [y/n]\n")
if view_models == "y":
tts_manager = TTS().list_models()
all_models = tts_manager.list_models()
print("TTS models:\n", all_models, "\n", sep = "")

# Prompt model selection
model = input("Enter model:\n")
# for example, tts_models/multilingual/multi-dataset/xtts_v2

# Example voice cloning with selected model
tts = TTS((model), progress_bar=True).to(device)
tts.tts_to_file("This is a voice cloning test", speaker_wav="train-audio.wav",
                language="en", file_path="output.wav")
  1. 通过
    .\Scripts\python ./main.py
  2. 运行脚本
© www.soinside.com 2019 - 2024. All rights reserved.