spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展，可实现实时数据流的高吞吐量，容错流处理。从版本1.3.0开始，即使遇到故障，它也支持一次性处理语义。

Spark依赖启动失败

我收到依赖项无法启动错误，但容器正在运行且可访问。此外，日志文件没有显示任何错误。我可以从 localhost:9090 访问 UI。我正在运行 docker...

apache-spark docker-compose spark-streaming health-check data-engineering

回答 1 投票 0

主机上的 .NET 应用程序与 docker 容器中的 Spark-streaming 应用程序通过套接字建立连接

我需要提交两份申请。 .net应用程序将从主机发送json，docker容器中的spark-streaming应用程序将通过套接字接收该数据并处理它。乙...

.net docker sockets spark-streaming

回答 1 投票 0

Spark 流 leftOuter 无法与第三个流连接一起使用

我被这个流 leftOuter join 困住了。我能够流连接 2 个数据帧，并且在水印时间到期后可以获得空值。但如果我加入 3 个数据框，我就无法实现。 ...

pyspark spark-streaming aws-glue spark-structured-streaming

回答 1 投票 0

流数据帧/数据集不支持非基于时间的窗口，如何解决这个问题？

在我的代码中有一个特定的要求，因此我必须在流数据帧上使用分区。但给了我以下错误流式 DataF 不支持非基于时间的窗口...

azure pyspark databricks spark-streaming spark-structured-streaming

回答 1 投票 0

Stream-Static Join：如何定期刷新（取消持久化/持久化）静态数据帧

我正在构建一个 Spark 结构化流应用程序，我正在其中进行批处理流连接。并且批量数据的来源会定期更新。所以，我打算做一个坚持/取消坚持...

scala apache-spark apache-spark-sql spark-streaming spark-structured-streaming

回答 2 投票 0

如何加载目录中的某些文件并在 Spark Streaming 中监视该目录中的新文件而不会丢失？

我有一个hdfs目录，其中包含很多文件： /用户/根/1.txt /用户/根/2.txt /用户/根/3.txt /用户/根/4.txt 并且有一个守护进程每分钟向该目录添加一个文件。（例如...

apache-spark spark-streaming

回答 1 投票 0

Spark UI 的阶段终止是否会导致数据重新处理？

在 Spark UI 中，具有杀死活动运行阶段的功能：当使用此按钮杀死阶段时，与该阶段关联的任务将被重新处理？或者他们会

apache-spark spark-streaming spark-structured-streaming

回答 1 投票 0

来自 Kafka 源的 Pyspark 结构化流中的异常

环境：Spark 3.5.0、Scala 2.12.18、openjdk 11.0.20.1 我正在尝试从 Kafka 源流式传输数据，但从 Spark 中得到异常。看来这通常是由于依赖版本所致

apache-spark pyspark apache-spark-sql spark-streaming spark-structured-streaming

回答 1 投票 0

Spark：并行处理多个kafka主题

我使用的是spark 1.5.2。我需要使用 kafka 作为流源来运行 Spark 流作业。我需要读取 kafka 中的多个主题并以不同的方式处理每个主题。这是个好主意吗...

apache-spark apache-kafka spark-streaming

回答 3 投票 0

spark 流式传输多个 kafka 流非阻塞

在我的 Spark Streaming 工作中，我正在听多个 Kafka 主题，比如 T1、T2 和 T3。基于批次持续时间，spark 将为每个批次持续时间创建 RDD。 RDD 将包含记录...

apache-spark spark-streaming spark-kafka-integration

回答 1 投票 0

并行运行不同DStream的多个Spark Streaming作业

我有一个 Spark Streaming 应用程序，可以从多个 Kafka 主题读取数据。每个主题都有不同类型的数据，因此需要不同的处理管道。我最初的解决方案是...

scala apache-spark spark-streaming

回答 1 投票 0

Pyspark java.lang.OutOfMemoryError 与 WholeTextFiles 错误

我在 data_dir 中有 1160 个 XML 文件，每个文件大小 300MB。我想统计整个单词的数量。我有一台具有 256 个内核和 256 GB RAM 的本地计算机。鉴于整个数据大小约为...

apache-spark pyspark spark-streaming

回答 1 投票 0

PySpark 数据框转换 pyspark

我有一个下面的数据框，我需要将其转换如下。我正在使用 PySpark 3.4.1 。 +------------------------+------------------------ -------------------------------------------------- ---------...

apache-spark pyspark apache-spark-sql spark-streaming spark-structured-streaming

回答 1 投票 0

如何优雅地停止运行 Spark Streaming 应用程序？

如何停止 Spark Streaming？我的 Spark Streaming 作业正在持续运行。我想优雅地停下来。我看到了以下用于关闭流媒体应用程序的选项。 SparkConf.set(&

apache-spark spark-streaming

回答 1 投票 0

Scala Spark Iceberg writeStream。如何设置桶？

我正在尝试将数据写入Spark流中的Iceberg表（用Scala编写）。作者代码： val 流结果 = 加入.writeStream .format("冰山") .partitionBy("c...

scala apache-spark spark-streaming data-lake apache-iceberg

回答 1 投票 0

在 Delta Lake House 中读取文件时出现问题 - 数据流

我正在独自用数据块建造我的第一个三角洲湖房子。我需要读取 AWS 中存储桶中 csv 格式的文件，我可以通过执行 display(dbutils.fs.ls.Howe...

apache-spark amazon-s3 databricks spark-streaming delta-lake

回答 1 投票 0

如何通过 pyspark 在 s3 存储桶上写入数据帧但不使用 Hadoop

我想通过 pyspark 直接在 s3 存储桶上写入数据帧，但不想使用 Hadoop。 python 或 pyspark 代码中不需要任何 Hadoop 单词。从 pyspark.sql 导入 SparkSession

dataframe amazon-s3 pyspark apache-spark-sql spark-streaming

回答 1 投票 0

处理流应用程序中事件的倾斜处理时间

我有一个流应用程序（用spark/storm/任何无关紧要的东西编写）。 Kafka 用作流事件的来源。现在有些事件需要占用更大的资源（ti...

apache-spark apache-kafka architecture spark-streaming apache-storm

回答 1 投票 0

Spark 流作业在运行几天后失败

我面临这个问题，我的 Spark Streaming 作业在运行几天后不断失败，并出现以下错误： appattempt_1610108774021_0354_000001 的 AM 容器已退出，exitCode：-104 失败...

scala apache-spark spark-streaming

回答 1 投票 0

对于 Delta 或 Iceberg 使用哪种基于时间的分区策略

我正在使用 Spark-streaming 每 5 分钟摄取实时事件流并附加到 delta 或 apache 冰山表中。该表可以由下游数据管道摄取和处理，也可以...

apache-spark spark-streaming delta-lake delta-live-tables apache-iceberg

回答 1 投票 0

spark-streaming 相关问题

最新问题