从python嵌套列表在hdfs中创建数据帧

Question

假设我有一个像这样的大清单：

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...]

我想创建一个具有3列名称，国家/地区和编号的表，并将其另存为hdfs中的实木复合地板。

我如何使用pyspark？

将此列表另存为csv文件并直接将其直接加载到pyspark中是否更好？

Answer 1

用python写入csv并用spark加载是过度杀伤。您可以使用createDataFrame：

直接创建一个DataFrame

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673]]

df = spark.createDataFrame(lst, ['name','country','num'])
df.show(3)

+-----+-------+---+
| name|country|num|
+-----+-------+---+
|david|  italy|234|
|alice| france|517|
|  kim|  japan|673|
+-----+-------+---+

最后，使用hdfs方法写入df.write.parquet

从python嵌套列表在hdfs中创建数据帧

问题描述投票：0回答：1

1个回答

最新问题

从python嵌套列表在hdfs中创建数据帧

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1