如何在 huggingface 的 load_dataset 的文本文件中启用标题?

问题描述 投票:0回答:2

我正在尝试使用 huggingface 加载文本文件(https://huggingface.co/docs/datasets/v1.2.1/loading_datasets.html

from datasets import load_dataset
dataset = load_dataset('text', data_files='my_file.txt')

这个文本文件已经包含标题,我如何向模块指示这个(比如,

header = True
,如果是 pandas
read_csv()
)?

另外,我怎么说它是制表符/逗号分隔的?

有没有办法以表格格式呈现这些数据?

python nlp header huggingface-datasets huggingface
2个回答
0
投票

他们正在使用 pandas.read_csv() 你可以通过 load_dataset 传递参数:

from datasets import load_dataset

a = load_dataset("csv", data_files="bla.tsv", sep="\t")

0
投票

这是一个老问题,但是对于新人来说:

读取tsv文件:

from datasets import load_dataset

dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t')

默认情况下,它会从第一行推断列名。

如果您的文件没有标题行并且您想指定列名,请使用

column_names = ['col1', 'col2', 'col3']
dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t', column_names=column_names)

查看文档:https://huggingface.co/docs/datasets/v2.12.0/en/package_reference/loading_methods#datasets.packaged_modules.csv.CsvConfig

© www.soinside.com 2019 - 2024. All rights reserved.