我有Cassandra的本地安装。我必须使用Google Colab在Spark中工作,并且可以从我的本地数据库运行查询。但我知道可以更有效地连接spark和cassandra。我想创建一个包含来自cassandra键空间的数据的数据帧。你是怎么做到的?
我的密钥空间称为yelp_data。它包含“评论”和“业务”表。
在我的项目中,我想要一个数据帧df =(来自我的Cassandra键空间的数据)。我用pyspark。
只需按照documentation for Spark Cassandra Connector,使用spark.read
和正确的选项,如下所示:
reviews_df = spark.read.format("org.apache.spark.sql.cassandra")\
.options(table="reviews", keyspace="yelp_data").load()
business_df = spark.read.format("org.apache.spark.sql.cassandra")\
.options(table="business", keyspace="yelp_data").load()