数据集库DatasetGenerationError

Question

我遇到的最奇怪的错误，直接从拥抱脸网站复制来开始学习音频分类器：

from datasets import load_dataset, Audio, Dataset

minds = load_dataset("PolyAI/minds14", name="en-US", split="train")

产生以下错误：

datasets.builder.DatasetGenerationError: An error occurred while generating the dataset

我尝试过使用

Dataset.cleanup_cache_files

但这没有帮助。为什么这个错误如此模糊？关于如何解决这个问题有什么想法吗？

如果有帮助，这里是完整的回溯：

Generating train split: 0 examples [00:00, ? examples/s]
Traceback (most recent call last):
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\audio.py", line 91, in encode_example
    import soundfile as sf  # soundfile is a dependency of librosa, needed to decode audio files.
ModuleNotFoundError: No module named 'soundfile'

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\builder.py", line 1693, in _prepare_split_single
    example = self.info.features.encode_example(record) if self.info.features is not None else record
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1852, in encode_example
    return encode_nested_example(self, example)
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1229, in encode_nested_example
    {
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1230, in <dictcomp>
    k: encode_nested_example(sub_schema, sub_obj, level=level + 1)
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1284, in encode_nested_example
    return schema.encode_example(obj) if obj is not None else None
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\audio.py", line 93, in encode_example
    raise ImportError("To support encoding audio data, please install 'soundfile'.") from err
ImportError: To support encoding audio data, please install 'soundfile'.

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "C:\Users\Brandon\Documents\00 School Files 00\University\LLM Research\UAC\uac.py", line 5, in <module>
    minds = load_dataset("PolyAI/minds14", name="en-US", split="train")
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\load.py", line 2153, in load_dataset
    builder_instance.download_and_prepare(
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\builder.py", line 954, in download_and_prepare
    self._download_and_prepare(
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\builder.py", line 1717, in _download_and_prepare
    super()._download_and_prepare(
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\builder.py", line 1049, in _download_and_prepare
    self._prepare_split(split_generator, **prepare_split_kwargs)
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\builder.py", line 1555, in _prepare_split
    for job_id, done, content in self._prepare_split_single(
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\builder.py", line 1712, in _prepare_split_single
    raise DatasetGenerationError("An error occurred while generating the dataset") from e
datasets.builder.DatasetGenerationError: An error occurred while generating the dataset

Answer 1

TL；博士

只需安装

soundfile

pip install soundfile

根本错误在堆栈跟踪中。不幸的是，阅读起来有点困难：

Traceback (most recent call last):
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\audio.py", line 91, in encode_example
    import soundfile as sf  # soundfile is a dependency of librosa, needed to decode audio files.
ModuleNotFoundError: No module named 'soundfile'

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\builder.py", line 1693, in _prepare_split_single
    example = self.info.features.encode_example(record) if self.info.features is not None else record
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1852, in encode_example
    return encode_nested_example(self, example)
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1229, in encode_nested_example
    {
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1230, in <dictcomp>
    k: encode_nested_example(sub_schema, sub_obj, level=level + 1)
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\features.py", line 1284, in encode_nested_example
    return schema.encode_example(obj) if obj is not None else None
  File "C:\Users\Brandon\AppData\Local\Programs\Python\Python310\lib\site-packages\datasets\features\audio.py", line 93, in encode_example
    raise ImportError("To support encoding audio data, please install 'soundfile'.") from err
ImportError: To support encoding audio data, please install 'soundfile'.

它抱怨您的环境中缺少 Python 库

soundfile

。

数据集库DatasetGenerationError

问题描述投票：0回答：1

1个回答

最新问题

数据集库DatasetGenerationError

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1