pyspark 中的库是什么,我可以使用它来实现与 Spark.graphx.GraphLoader 类似的功能。基本上我打算将以下 scala 代码导入到 pyspark 代码中。
''' 导入 org.apache.spark.graphx.GraphLoader 导入 org.apache.spark.sql.{SaveMode, SparkSession}
object FindTransMatch {
def main(args: Array[String]): Unit = {
println("Hello, World!")
// Creates a SparkSession.
val spark = SparkSession
.builder
.appName("FindTransMatch")
.master("local")
.getOrCreate()
val sc = spark.sparkContext
val graph = GraphLoader.edgeListFile(sc, args(0),false)
// Find the connected profiles
val cc = graph.connectedComponents().vertices
spark
.sqlContext
.createDataFrame(cc.toJavaRDD())
.write
.mode(SaveMode.Overwrite).csv(args(1))
spark.stop()
}
}
'''
我尝试从
安装graphframe但是 setup.py 只有以下几行
# Your python setup file. An example can be found at:
# https://github.com/pypa/sampleproject/blob/master/setup.py
不用说我确实做到了
pip install graphframe
但无济于事。
我在这里看到有人建议使用 ''' pyspark --packages graphframes:graphframes:0.7.0-spark2.3-s_2.11
'''
但我不明白在哪里设置?
spark = SparkSession.builder \
.appName("MyApp") \
.config("spark.jars", "file:/path/to/spark-jars/graphframes-0.8.2-spark3.2-s_2.12.jar") \
.getOrCreate()