我知道,在插入数据时,可能会因为数据帧的列中存在空值而创建逻辑删除。为了缓解此问题并最大程度地减少逻辑删除,插入查询应排除具有空值的列。
目前,我正在 pyspark-jupyter 笔记本环境中使用 Spark-cassandra-connector,并且遇到了 scala 的“com.datastax.spark.connector.types.CassandraOption”特征,我如何利用此特征或者任何其他方法来解决墓碑问题?
WriteConf
有一个参数 ignoreNulls
,您可以将其设置为 true
,以便在写入 Cassandra 时不会插入 null
值。
您还可以通过将
SparkConf
设置为 spark.cassandra.output.ignoreNulls
来配置 true
对象。
有关详细信息,请参阅文档中的全局将所有空值视为未设置部分和配置参考。干杯!