PySpark从目录中以json格式读取多个txt文件

问题描述 投票:1回答:1

我目前正在分布式数据库类中执行一项任务,以读取以json文件格式编写的tweet数据的txt文件,并将tweet加载到数据帧中(然后通过pyspark的kmeans算法运行它们)。我有目录,但是我不知道特定文本文件的名称(我很确定目录中的所有文件都是与任务相关的文本文件)。

另外,由于我应该通过kmeans算法运行它,我如何获得要在运行中使用的非数字特征?

将不胜感激。

python json pyspark k-means azure-databricks
1个回答
0
投票
dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")
© www.soinside.com 2019 - 2024. All rights reserved.