PySpark从目录中以json格式读取多个txt文件

我目前正在分布式数据库类中执行一项任务，以读取以json文件格式编写的tweet数据的txt文件，并将tweet加载到数据帧中（然后通过pyspark的kmeans算法运行它们）。我有目录，但是我不知道特定文本文件的名称（我很确定目录中的所有文件都是与任务相关的文本文件）。

另外，由于我应该通过kmeans算法运行它，我如何获得要在运行中使用的非数字特征？

将不胜感激。

python json pyspark k-means azure-databricks

0
投票

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")