如何在python中使用readline()同时从两个文件夹中读取多个文本文件作为字符串?

问题描述 投票:0回答:1

目前有以下脚本的版本,使用两个简单的readline()片段从两个不同的文件夹中读取单行.txt文件。在ubuntu 18.04和python 3.67下运行,没有使用glob。

当使用'sorted.glob'试图从同一个文件夹中读取多个文本文件时,现在遇到了'NameError'。

readlines() 会导致错误,因为来自 .txt 文件的输入必须是字符串而不是列表。

我是python新手。试过在线python格式化,reindent.py等,但没有成功。

希望这只是一个简单的缩进问题,这样在以后的脚本中就不会有问题了。

当前错误来自下面的代码。

Traceback (most recent call last):
  File "v1-ReadFiles.py", line 21, in <module>
    context_input = GenerationInput(P1=P1, P3=P3,
NameError: name 'P1' is not defined

当前修改的脚本。

import glob
import os

from src.model_use import TextGeneration
from src.utils import DEFAULT_DECODING_STRATEGY, LARGE
from src.flexible_models.flexible_GPT2 import FlexibleGPT2
from src.torch_loader import GenerationInput

from transformers import GPT2LMHeadModel, GPT2Tokenizer

for name in sorted(glob.glob('P1_files/*.txt')):
    with open(name) as f:
        P1 = f.readline()

for name in sorted(glob.glob('P3_files/*.txt')):
    with open(name) as f:
        P3 = f.readline()

if __name__ == "__main__":

    context_input = GenerationInput(P1=P1, P3=P3,
                                    genre=["mystery"],
                                    persons=["Steve"],
                                    size=LARGE,
                                    summary="detective")

    print("PREDICTION WITH CONTEXT WITH SPECIAL TOKENS")
    model = GPT2LMHeadModel.from_pretrained('models/custom')
    tokenizer = GPT2Tokenizer.from_pretrained('models/custom')
    tokenizer.add_special_tokens(
        {'eos_token': '[EOS]',
         'pad_token': '[PAD]',
         'additional_special_tokens': ['[P1]', '[P2]', '[P3]', '[S]', '[M]', '[L]', '[T]', '[Sum]', '[Ent]']}
    )
    model.resize_token_embeddings(len(tokenizer))
    GPT2_model = FlexibleGPT2(model, tokenizer, DEFAULT_DECODING_STRATEGY)

    text_generator_with_context = TextGeneration(GPT2_model, use_context=True)

    predictions = text_generator_with_context(context_input, nb_samples=1)
    for i, prediction in enumerate(predictions):
        print('prediction n°', i, ': ', prediction)
python-3.x linux file-io glob
1个回答
0
投票

在此感谢afghanimah。

当与readline()或counter一起使用时,range()函数的问题--只读取和处理文件中的最后一行。

删除了 glob。同时将所有model=等加载函数移到'with open ...'之前。

with open("data/test-P1-Multi.txt","r") as f1, open("data/test-P3-Multi.txt","r") as f3:     
  for i in range(5):
    P1 = f1.readline()
    P3 = f3.readline()

    context_input = GenerationInput(P1=P1, P3=P3, size=LARGE)
    etc.
© www.soinside.com 2019 - 2024. All rights reserved.