在pyspark中,从文本文件创建数据框架无法工作。

问题描述 投票:0回答:1

以下是将用^分隔的数据文件列表读取到数据框的代码。但是,每一个字段都是作为单独的行加载的,而不是逐行读取。

换句话说,一行只包含一个字段,而不是一行的所有字段。

这是在Databricks的python spark里面完成的。

字段之间用^隔开。

df = spark.read.text(paths='path/srcfilepath',lineSep='^')
python pyspark databricks azure-data-lake
1个回答
1
投票

使用 spark.read.csv 而不是 text定界符 选择权 ^

spark.read.option("delimiter","^").csv("path/srcfilepath").show()
© www.soinside.com 2019 - 2024. All rights reserved.