with open("/home/xxxx/Downloads/DataEnginner9.txt", "r") as f:
for line in f:
print(line)
当我运行此代码时,我只能以句子的形式获得,
上面的代码将文件分割成句子并打印每一行,但是我希望它从多个文件中识别段落,并创建一个数据框,该数据框的第一列包含文件名,第二列包含相应的全部内容同一行的列即示例数据框:
[file1,文件内容分为几段;file2,file2的内容分为几段。。。]
下面是上述脚本从一个文件生成的示例输出。
职位描述
职责
与全球团队合作设计,开发
可扩展,可维护和可靠的服务,可处理非常大的数量
使用大数据技术的数据(每日1000亿个指标,6TB /天之前
压缩)。
熟悉面向对象的开发,并且有特定的经验
至少使用一种主要的OO语言(必须具备Java知识,如果
可能的Java 8)。很高兴:具有函数式编程知识。
执行端到端软件开发生命周期功能
包括设计,开发,性能分析和调整,优化,
测试和产品维护。
def txt(filepath):
df12 = pd.DataFrame(columns=["title","paragraphs"])
af = []
with open(filepath) as f:
lines = f.readlines()
paragraph = ''
for line in lines:
if line.isspace(): # is it an empty line?
if paragraph:
af.append(paragraph)
paragraphs = re.split("\n\n(?=\u2028|[A-Z-0-9])", af)
paragraph = ''
else:
continue
else:
paragraph += ' ' + line.strip()
return paragraphs