pyspark中的哪个库实现了graphx api

问题描述 投票:0回答:1

pyspark 中的库是什么,我可以使用它来实现与 Spark.graphx.GraphLoader 类似的功能。基本上我打算将以下 scala 代码导入到 pyspark 代码中。

''' 导入 org.apache.spark.graphx.GraphLoader 导入 org.apache.spark.sql.{SaveMode, SparkSession}

object FindTransMatch {
  def main(args: Array[String]): Unit = {
    println("Hello, World!")

        // Creates a SparkSession.
    val spark = SparkSession
      .builder
      .appName("FindTransMatch")
      .master("local")
      .getOrCreate()
    val sc = spark.sparkContext

    val graph = GraphLoader.edgeListFile(sc, args(0),false)

    // Find the connected profiles
    val cc = graph.connectedComponents().vertices
    spark
      .sqlContext
      .createDataFrame(cc.toJavaRDD())
      .write
      .mode(SaveMode.Overwrite).csv(args(1))
    spark.stop()
  }
}

'''

我尝试从

安装graphframe

但是 setup.py 只有以下几行

# Your python setup file. An example can be found at:
# https://github.com/pypa/sampleproject/blob/master/setup.py

不用说我确实做到了

pip install graphframe

但无济于事。

我在这里看到有人建议使用 ''' pyspark --packages graphframes:graphframes:0.7.0-spark2.3-s_2.11

'''

但我不明白在哪里设置?

pyspark spark-graphx
1个回答
0
投票
添加graphframes jar,以便我们可以在pyspark中访问Apache Spark的GraphX API

Jars 可以在此位置找到:https://spark-packages.org/package/graphframes/graphframes

spark = SparkSession.builder \
    .appName("MyApp") \
    .config("spark.jars", "file:/path/to/spark-jars/graphframes-0.8.2-spark3.2-s_2.12.jar") \
    .getOrCreate()
© www.soinside.com 2019 - 2024. All rights reserved.