我目前正在分布式数据库类中执行一项任务,以读取以json文件格式编写的tweet数据的txt文件,并将tweet加载到数据帧中(然后通过pyspark的kmeans算法运行它们)。我有目录,但是我不知道特定文本文件的名称(我很确定目录中的所有文件都是与任务相关的文本文件)。
另外,由于我应该通过kmeans算法运行它,我如何获得要在运行中使用的非数字特征?
将不胜感激。
dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")