我必须从多个文本文件(.txt)中识别段落,并创建一个[paragraph1,“段落中file1的文本”的数据框]]

问题描述 投票:-2回答:1
with open("/home/xxxx/Downloads/DataEnginner9.txt", "r") as f:
    for line in f:
        print(line)

当我运行此代码时,我只能以句子的形式获得,

上面的代码将文件分割成句子并打印每一行,但是我希望它从多个文件中识别段落,并创建一个数据框,该数据框的第一列包含文件名,第二列包含相应的全部内容同一行的列即示例数据框:

[file1,文件内容分为几段;file2,file2的内容分为几段。。。]

下面是上述脚本从一个文件生成的示例输出。

职位描述

职责

与全球团队合作设计,开发

可扩展,可维护和可靠的服务,可处理非常大的数量

使用大数据技术的数据(每日1000亿个指标,6TB /天之前

压缩)。

熟悉面向对象的开发,并且有特定的经验

至少使用一种主要的OO语言(必须具备Java知识,如果

可能的Java 8)。很高兴:具有函数式编程知识。

执行端到端软件开发生命周期功能

包括设计,开发,性能分析和调整,优化,

测试和产品维护。

python nlp stanford-nlp
1个回答
0
投票
def txt(filepath):
    df12 = pd.DataFrame(columns=["title","paragraphs"])
    af = []
    with open(filepath) as f:
        lines = f.readlines()

    paragraph = ''
    for line in lines:
        if line.isspace():  # is it an empty line?
            if paragraph:
                af.append(paragraph)
                paragraphs = re.split("\n\n(?=\u2028|[A-Z-0-9])", af)
                paragraph = ''
            else:
                continue
        else:
            paragraph += ' ' + line.strip()
    return paragraphs
© www.soinside.com 2019 - 2024. All rights reserved.