我必须从多个文本文件（.txt）中识别段落，并创建一个[paragraph1，“段落中file1的文本”的数据框]]

Question

with open("/home/xxxx/Downloads/DataEnginner9.txt", "r") as f:
    for line in f:
        print(line)

当我运行此代码时，我只能以句子的形式获得，

上面的代码将文件分割成句子并打印每一行，但是我希望它从多个文件中识别段落，并创建一个数据框，该数据框的第一列包含文件名，第二列包含相应的全部内容同一行的列即示例数据框：

[file1，文件内容分为几段；file2，file2的内容分为几段。。。]

下面是上述脚本从一个文件生成的示例输出。

职位描述
职责
与全球团队合作设计，开发
可扩展，可维护和可靠的服务，可处理非常大的数量
使用大数据技术的数据（每日1000亿个指标，6TB /天之前
压缩）。
熟悉面向对象的开发，并且有特定的经验
至少使用一种主要的OO语言（必须具备Java知识，如果
可能的Java 8）。很高兴：具有函数式编程知识。
执行端到端软件开发生命周期功能
包括设计，开发，性能分析和调整，优化，
测试和产品维护。

Answer 1

def txt(filepath):
    df12 = pd.DataFrame(columns=["title","paragraphs"])
    af = []
    with open(filepath) as f:
        lines = f.readlines()

    paragraph = ''
    for line in lines:
        if line.isspace():  # is it an empty line?
            if paragraph:
                af.append(paragraph)
                paragraphs = re.split("\n\n(?=\u2028|[A-Z-0-9])", af)
                paragraph = ''
            else:
                continue
        else:
            paragraph += ' ' + line.strip()
    return paragraphs

我必须从多个文本文件（.txt）中识别段落，并创建一个[paragraph1，“段落中file1的文本”的数据框]]

问题描述投票：-2回答：1

1个回答

最新问题

我必须从多个文本文件（.txt）中识别段落，并创建一个[paragraph1，“段落中file1的文本”的数据框]]

问题描述 投票：-2回答：1

1个回答

最新问题

问题描述投票：-2回答：1