将多个多行的txt文件合并为一个csv文件(1行=1个文件),用于主题建模。

问题描述 投票:0回答:1

到目前为止,我有30个文本文件,这些文件都带有 多重 行。我想应用基于LDA模型的 本教程 .所以,对我来说,它应该是这样的。

text of document1
text of document2
text of document3 
.....
text of document30

但是,一个特定文件的全部文本必须是在... 一个 行。

我试过 此职位 不知道为什么,它一直说: csv_output.writerow(row[1] for row in csv_text) IndexError: list index out of range . 有什么想法吗?我用同样的方法命名了文档,当然也编辑了范围。

基本上,我不关心我们是否可以用python解决这个问题。我只是做了我的神经,所以我真的很感谢每一个人的帮助

python export-to-csv text-mining lda topic-modeling
1个回答
0
投票

我不太清楚你想达到什么目的,但是为了去除textfiles的换行符,并将结果制作成一个大的文本文件,以下的方法应该是可行的。

for i in *.txt; do NEW=` cat $i | tr '\n' ' '` ; echo $NEW  >> output.txt; done

0
投票

在文件上循环,1到31(最后一个被range()函数跳过)。

with open("lda_datafile.csv", "w", newline="") as wf:
    csv_output = csv.writer(wf)
    for x in range(1, 31):
        filepath = os.path.normpath(r"C:\Text\file{}.txt".format(x))
        with open(filepath, "r", newline="") as rf:
            csv_text = csv.reader(rf, delimiter=":", skipinitialspace=True)
            csv_output.writerow(row[1] for row in csv_text)
© www.soinside.com 2019 - 2024. All rights reserved.