Pyspark cassandra 连接器在写入过程中生成墓碑

问题描述 投票:0回答:1

我知道,在插入数据时,可能会因为数据帧的列中存在空值而创建逻辑删除。为了缓解此问题并最大程度地减少逻辑删除,插入查询应排除具有空值的列。

目前,我正在 pyspark-jupyter 笔记本环境中使用 Spark-cassandra-connector,并且遇到了 scala 的“com.datastax.spark.connector.types.CassandraOption”特征,我如何利用此特征或者任何其他方法来解决墓碑问题?

pyspark cassandra spark-cassandra-connector
1个回答
0
投票

WriteConf
有一个参数
ignoreNulls
,您可以将其设置为
true
,以便在写入 Cassandra 时不会插入
null
值。

您还可以通过将

SparkConf
设置为
spark.cassandra.output.ignoreNulls
来配置
true
对象。

有关详细信息,请参阅文档中的全局将所有空值视为未设置部分和配置参考。干杯!

© www.soinside.com 2019 - 2024. All rights reserved.