为什么 Apache Spark 不提供更新数据库表的特定列的功能?
我尝试使用基本的 Spark 读写操作更新 PostgreSQL 表,但无法做到。我必须将完整的更新查询传递给数据库才能执行更新操作。
Spark 和 JDBC:它只允许以两种不同的方式“查询”选定的列。
对于从数据框编写器写入,它是所有列。
更新选定的列不适合大数据的 Spark 范式。如果您需要这样做,请使用 (JDBC) 数据库本身。这更有意义。 Spark 是关于大数据处理的,具有保存、发送到 KAFKA 进行流式处理等副作用。
就这么简单。