如何在python中使用readline()同时从两个文件夹中读取多个文本文件作为字符串？

Question

目前有以下脚本的版本，使用两个简单的readline()片段从两个不同的文件夹中读取单行.txt文件。在ubuntu 18.04和python 3.67下运行，没有使用glob。

当使用'sorted.glob'试图从同一个文件夹中读取多个文本文件时，现在遇到了'NameError'。

readlines() 会导致错误，因为来自 .txt 文件的输入必须是字符串而不是列表。

我是python新手。试过在线python格式化，reindent.py等，但没有成功。

希望这只是一个简单的缩进问题，这样在以后的脚本中就不会有问题了。

当前错误来自下面的代码。

Traceback (most recent call last):
  File "v1-ReadFiles.py", line 21, in <module>
    context_input = GenerationInput(P1=P1, P3=P3,
NameError: name 'P1' is not defined

当前修改的脚本。

import glob
import os

from src.model_use import TextGeneration
from src.utils import DEFAULT_DECODING_STRATEGY, LARGE
from src.flexible_models.flexible_GPT2 import FlexibleGPT2
from src.torch_loader import GenerationInput

from transformers import GPT2LMHeadModel, GPT2Tokenizer

for name in sorted(glob.glob('P1_files/*.txt')):
    with open(name) as f:
        P1 = f.readline()

for name in sorted(glob.glob('P3_files/*.txt')):
    with open(name) as f:
        P3 = f.readline()

if __name__ == "__main__":

    context_input = GenerationInput(P1=P1, P3=P3,
                                    genre=["mystery"],
                                    persons=["Steve"],
                                    size=LARGE,
                                    summary="detective")

    print("PREDICTION WITH CONTEXT WITH SPECIAL TOKENS")
    model = GPT2LMHeadModel.from_pretrained('models/custom')
    tokenizer = GPT2Tokenizer.from_pretrained('models/custom')
    tokenizer.add_special_tokens(
        {'eos_token': '[EOS]',
         'pad_token': '[PAD]',
         'additional_special_tokens': ['[P1]', '[P2]', '[P3]', '[S]', '[M]', '[L]', '[T]', '[Sum]', '[Ent]']}
    )
    model.resize_token_embeddings(len(tokenizer))
    GPT2_model = FlexibleGPT2(model, tokenizer, DEFAULT_DECODING_STRATEGY)

    text_generator_with_context = TextGeneration(GPT2_model, use_context=True)

    predictions = text_generator_with_context(context_input, nb_samples=1)
    for i, prediction in enumerate(predictions):
        print('prediction n°', i, ': ', prediction)

Answer 1

在此感谢afghanimah。

当与readline()或counter一起使用时，range()函数的问题--只读取和处理文件中的最后一行。

删除了 glob。同时将所有model=等加载函数移到'with open ...'之前。

with open("data/test-P1-Multi.txt","r") as f1, open("data/test-P3-Multi.txt","r") as f3:     
  for i in range(5):
    P1 = f1.readline()
    P3 = f3.readline()

    context_input = GenerationInput(P1=P1, P3=P3, size=LARGE)
    etc.

如何在python中使用readline()同时从两个文件夹中读取多个文本文件作为字符串？

问题描述投票：0回答：1

1个回答

最新问题

如何在python中使用readline()同时从两个文件夹中读取多个文本文件作为字符串？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1