如何将csv转换为RDD并在pyspark中使用RDD进行某些检测?

问题描述 投票:-3回答:1

我目前正在研究心脏病的检测,并希望使用Spark来处理大数据,因为这是我工作解决方案的一部分。但是我在将spark与python结合使用时遇到了困难,因为我无法掌握如何使用spark。将csv文件转换为RDD,然后我不明白如何使用RDD来实现分类算法,如knn,逻辑回归等。因此,如果有人可以帮助我,我将非常感激。

我曾尝试了解Internet上的pyspark,但可用的代码很少,有些可用的代码太容易或太难理解。我在pyspark上找不到任何适当的分类示例。

apache-spark machine-learning pyspark rdd
1个回答
0
投票

要将csv读入数据帧,您只需调用spark.read.option('header', 'true').csv('path/to/csv')

数据框将包含csv的列和行,您可以使用df.rdd将其转换为行的RDD。

© www.soinside.com 2019 - 2024. All rights reserved.