我正在尝试使用 huggingface 加载文本文件(https://huggingface.co/docs/datasets/v1.2.1/loading_datasets.html)
from datasets import load_dataset
dataset = load_dataset('text', data_files='my_file.txt')
这个文本文件已经包含标题,我如何向模块指示这个(比如,
header = True
,如果是 pandas read_csv()
)?
另外,我怎么说它是制表符/逗号分隔的?
有没有办法以表格格式呈现这些数据?
他们正在使用 pandas.read_csv() 你可以通过 load_dataset 传递参数:
from datasets import load_dataset
a = load_dataset("csv", data_files="bla.tsv", sep="\t")
这是一个老问题,但是对于新人来说:
读取tsv文件:
from datasets import load_dataset
dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t')
默认情况下,它会从第一行推断列名。
如果您的文件没有标题行并且您想指定列名,请使用
column_names = ['col1', 'col2', 'col3']
dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t', column_names=column_names)