我有三个包含数百行的文档。我想将它们添加到具有不同名称类别的数据框中。我正在尝试使用以下代码。但是,虽然我能够在数据框中组合文档,但我无法将唯一名称归类为类别。
with open('fdi.txt') as g:
fdi = g.read()
with open('gdp.txt') as g:
gdp= g.read()
with open('gni.txt') as g:
gni= g.read()
df = pd.DataFrame({'text': fdi + gdp + gni,
'categories': ['India', 'Israel', 'Fiji']}, index=[0])
谢谢。
如果没有看到fdi,gdp和gni包含的样本数据以及您想要的输出结果,那么回答您的问题有点困难。但是当您在纺织品中提到“行”并且您有三个类别时,我假设您希望每个类别属于每个文件内容。
因此,假设包含数据行的文本文件,我们可以在换行符\n
上将它们拆分为类别列表,然后我们可以根据相关文件包含的行数来延长它们。例如。 ['India']*len(fdi.split('\n'))
如果以上假设是正确的,您应该能够使用以下代码:
df = pd.DataFrame({'text': fdi.split('\n')+gdp.split('\n')+gni.split('\n'),
'Categories':['India']*len(fdi.split('\n'))+
['Israel']*len(gdp.split('\n'))+
['Fiji']*len(gni.split('\n'))})
如果这不是您所追求的,请添加一些文本文件和所需输出的示例内容。