如何使用Cassandra键空间创建spark数据帧?

问题描述 投票:0回答:1

我有Cassandra的本地安装。我必须使用Google Colab在Spark中工作,并且可以从我的本地数据库运行查询。但我知道可以更有效地连接spark和cassandra。我想创建一个包含来自cassandra键空间的数据的数据帧。你是怎么做到的?

我的密钥空间称为yelp_data。它包含“评论”和“业务”表。

在我的项目中,我想要一个数据帧df =(来自我的Cassandra键空间的数据)。我用pyspark。

apache-spark cassandra pyspark spark-cassandra-connector
1个回答
0
投票

只需按照documentation for Spark Cassandra Connector,使用spark.read和正确的选项,如下所示:

reviews_df = spark.read.format("org.apache.spark.sql.cassandra")\
  .options(table="reviews", keyspace="yelp_data").load()
business_df = spark.read.format("org.apache.spark.sql.cassandra")\
  .options(table="business", keyspace="yelp_data").load()
© www.soinside.com 2019 - 2024. All rights reserved.