spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展，可实现实时数据流的高吞吐量，容错流处理。从版本1.3.0开始，即使遇到故障，它也支持一次性处理语义。

在 Spark 结构化流中将 mergeSchema 设置为 true 时不会添加其他列

我有一个 Spark 结构化流作业（Kafka）。我想用任何额外的传入列更新表。我已将 mergeSchema 设置为 true，但默认情况下我的列不会更新。我的我...

apache-spark pyspark spark-streaming azure-databricks spark-structured-streaming

回答 1 投票 0

spark 中 withColumn/withColumnRenamed 的问题

我们有两列具有相同的列名但大小写不同 +----------+----------+ |客户端ID$_|客户端ID$_| +----------+----------+ | 1| 1| | 2| 3| | 3| ...

apache-spark pyspark apache-spark-sql spark-streaming

回答 1 投票 0

在pyspark中，dlt.read_stream()和spark.readstream()有什么区别？

我试图理解在pyspark中，dlt.read_stream()和spark.readstream()之间有什么区别？我们可以用spark.readstream()替换dlt.read_stream()而不影响数据吗？

apache-spark pyspark databricks spark-streaming azure-databricks

回答 2 投票 0

为什么要使用Spark结构化流AvailableNow而不仅仅是普通的批处理数据帧？

我正在学习 Spark 结构化流，事情还有点模糊......我没有得到的一件事是使用批处理模式（AvailableNow = True）相对于普通模式的优势......

apache-spark pyspark databricks spark-streaming spark-structured-streaming

回答 1 投票 0

apache 冰山表 - 可序列化与快照隔离之间的区别

我正在尝试使用 Spark Streaming 将数据提取到 Iceberg 表中。目前不存在同一数据的多个写入者。根据iceberg api，表的默认隔离级别是序列化...

spark-streaming apache-iceberg

回答 2 投票 0

Spark 3.0出现以下问题如何解决？无法创建托管表。关联位置已存在。；

在我的 Spark 工作中，我尝试覆盖结构化流的每个微批次中的一个表 batchDF.write.mode(SaveMode.Overwrite).saveAsTable("mytable") 它产生了以下错误。 ...

apache-spark spark-streaming spark3

回答 1 投票 0

有没有一种安全的方法来覆盖流增量表？

我需要使用 PySpark 完全覆盖流增量表而不弄乱检查点，有没有安全的方法可以做到这一点？我不需要保留之前增量版本的任何版本。

pyspark spark-streaming delta-lake delta

回答 1 投票 0

如何在Databricks和DLT管道上正确设置Spark？

我在 Azure 门户的 Databricks 中有一个 DLT 管道。我想增加流消息的最大大小，默认情况下为 10 MB。有人可以告诉我如何正确配置吗

apache-spark spark-streaming azure-databricks delta-live-tables

回答 1 投票 0

Spark 2.1 结构化流 - 使用 Kafka 作为 Python 源 (pyspark)

使用 Apache Spark 版本 2.1，我想使用 Kafka (0.10.0.2.5) 作为 pyspark 的结构化流的源： kafka_app.py：从 pyspark.sql 导入 SparkSession 火花=SparkSession.builder。

apache-spark pyspark apache-kafka spark-streaming

回答 1 投票 0

Spark 结构化流 - 检查点元数据无限增长

我使用spark结构流3.1.2。我需要使用 s3 来存储检查点元数据（我知道，这不是检查点元数据的最佳存储）。压缩间隔是10（默认），我设置了spar...

apache-spark spark-streaming spark-structured-streaming spark-checkpoint

回答 2 投票 0

spark 结构化流作业如何处理流 - 静态 DataFrame 连接？

我有一个 Spark 结构化流作业，它从 cassandra 和 deltalake 读取映射表并与流 df 连接。我想了解这里的确切机制。火花会击中这些吗

apache-spark pyspark spark-streaming spark-structured-streaming

回答 1 投票 0

Dataframe 不会保存为任何内容 - 表、全局临时视图或临时视图

数据框不会保存为表格，无论是永久的还是临时的 - 不会给出错误消息。我努力了： df.createOrReplaceTempView("tmp_table") ＃或者 df.createGlobalTempView("tmp_ta...

apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

如何克服spark java.lang.OutOfMemoryError：Java堆空间和java.lang.OutOfMemoryError：GC开销限制超出问题？

我正在尝试联接操作，这里表1有3GB的数据，表2有120GB的数据。为了避免随机播放表 1。执行时我收到这些错误：原因是：...

apache-spark pyspark apache-spark-sql hive spark-streaming

回答 1 投票 0

尝试从 Spark 在 S3 存储桶上写入数据时找不到类 org.apache.hadoop.fs.s3a.auth.IAMInstanceCredentialsProvider

我正在尝试从本地计算机向 S3 存储桶写入数据：火花 = SparkSession.builder \ .appName('应用程序') \ .config("spark.hadoop.fs.s3a.access.key", 配置。

apache-spark amazon-s3 hadoop pyspark spark-streaming

回答 4 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里，我尝试模拟 Hudi 数据集的更新和删除，并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。尝试使用

apache-spark spark-streaming amazon-emr apache-hudi apache-iceberg

回答 1 投票 0

带有增量表的 Spark 流 - 更新微批次中的输入表

使用两个增量表（tableA，tableB）作为流管道的输入我想实现以下目标：当表 A 中出现新行时开始处理（而不是在更新表 B 时）合并选项卡...

pyspark spark-streaming azure-databricks

回答 1 投票 0

Azure Databricks 上的 PySpark Kusto 连接器

我使用 Azure databricks 与 LTS 7.3 和 Spark 3.0 (PySpark) 与 com.microsoft.azure.kusto:kusto-spark_3.0_2.12:2.9.1 连接器已经有一段时间了，但最近我的工作失败了，如下所示

azure pyspark spark-streaming azure-data-explorer kusto-java-sdk

回答 2 投票 0

基于另一个数据帧的单列派生具有不常见行的数据帧

我遇到了一个问题，我必须根据另一个数据帧的列从数据帧中获取不常见的行。例子是第一个数据帧，即 df1 _ID 姓名 12 ABC 56 定义 90 jkl

dataframe scala apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

为什么不单独使用火花流

我对 Kafka/Spark-Streaming 没有太多经验，但我读过很多关于该组合在构建用于分析/仪表板的实时系统方面有多么出色的文章。有人可以解释一下吗...

real-time apache-kafka spark-streaming lambda-architecture

回答 4 投票 0

为什么spark既需要预写日志又需要检查点？

为什么spark既需要预写日志又需要检查点？为什么我们不能只使用检查点？另外使用预写日志有什么好处？存储的数据有什么区别...

apache-spark spark-streaming spark-structured-streaming

回答 1 投票 0

spark-streaming 相关问题

最新问题