spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展,可实现实时数据流的高吞吐量,容错流处理。从版本1.3.0开始,即使遇到故障,它也支持一次性处理语义。

Spark依赖启动失败

我收到依赖项无法启动错误,但容器正在运行且可访问。此外,日志文件没有显示任何错误。我可以从 localhost:9090 访问 UI。我正在运行 docker...

回答 1 投票 0

主机上的 .NET 应用程序与 docker 容器中的 Spark-streaming 应用程序通过套接字建立连接

我需要提交两份申请。 .net应用程序将从主机发送json,docker容器中的spark-streaming应用程序将通过套接字接收该数据并处理它。乙...

回答 1 投票 0

Spark 流 leftOuter 无法与第三个流连接一起使用

我被这个流 leftOuter join 困住了。我能够流连接 2 个数据帧,并且在水印时间到期后可以获得空值。但如果我加入 3 个数据框,我就无法实现。 ...

回答 1 投票 0

流数据帧/数据集不支持非基于时间的窗口,如何解决这个问题?

在我的代码中有一个特定的要求,因此我必须在流数据帧上使用分区。 但给了我以下错误 流式 DataF 不支持非基于时间的窗口...

回答 1 投票 0

Stream-Static Join:如何定期刷新(取消持久化/持久化)静态数据帧

我正在构建一个 Spark 结构化流应用程序,我正在其中进行批处理流连接。并且批量数据的来源会定期更新。 所以,我打算做一个坚持/取消坚持...

回答 2 投票 0

如何加载目录中的某些文件并在 Spark Streaming 中监视该目录中的新文件而不会丢失?

我有一个hdfs目录,其中包含很多文件: /用户/根/1.txt /用户/根/2.txt /用户/根/3.txt /用户/根/4.txt 并且有一个守护进程每分钟向该目录添加一个文件。 (例如...

回答 1 投票 0

Spark UI 的阶段终止是否会导致数据重新处理?

在 Spark UI 中,具有杀死活动运行阶段的功能: 当使用此按钮杀死阶段时,与该阶段关联的任务将被重新处理?或者他们会

回答 1 投票 0

来自 Kafka 源的 Pyspark 结构化流中的异常

环境:Spark 3.5.0、Scala 2.12.18、openjdk 11.0.20.1 我正在尝试从 Kafka 源流式传输数据,但从 Spark 中得到异常。 看来这通常是由于依赖版本所致

回答 1 投票 0

Spark:并行处理多个kafka主题

我使用的是spark 1.5.2。我需要使用 kafka 作为流源来运行 Spark 流作业。我需要读取 kafka 中的多个主题并以不同的方式处理每个主题。 这是个好主意吗...

回答 3 投票 0

spark 流式传输多个 kafka 流非阻塞

在我的 Spark Streaming 工作中,我正在听多个 Kafka 主题,比如 T1、T2 和 T3。基于批次持续时间,spark 将为每个批次持续时间创建 RDD。 RDD 将包含记录...

回答 1 投票 0

并行运行不同DStream的多个Spark Streaming作业

我有一个 Spark Streaming 应用程序,可以从多个 Kafka 主题读取数据。每个主题都有不同类型的数据,因此需要不同的处理管道。 我最初的解决方案是...

回答 1 投票 0

Pyspark java.lang.OutOfMemoryError 与 WholeTextFiles 错误

我在 data_dir 中有 1160 个 XML 文件,每个文件大小 300MB。我想统计整个单词的数量。我有一台具有 256 个内核和 256 GB RAM 的本地计算机。鉴于整个数据大小约为...

回答 1 投票 0

PySpark 数据框转换 pyspark

我有一个下面的数据框,我需要将其转换如下。 我正在使用 PySpark 3.4.1 。 +------------------------+------------------------ -------------------------------------------------- ---------...

回答 1 投票 0

如何优雅地停止运行 Spark Streaming 应用程序?

如何停止 Spark Streaming? 我的 Spark Streaming 作业正在持续运行。我想优雅地停下来。 我看到了以下用于关闭流媒体应用程序的选项。 SparkConf.set(&

回答 1 投票 0

Scala Spark Iceberg writeStream。如何设置桶?

我正在尝试将数据写入Spark流中的Iceberg表(用Scala编写)。 作者代码: val 流结果 = 加入.writeStream .format("冰山") .partitionBy("c...

回答 1 投票 0

在 Delta Lake House 中读取文件时出现问题 - 数据流

我正在独自用数据块建造我的第一个三角洲湖房子。我需要读取 AWS 中存储桶中 csv 格式的文件,我可以通过执行 display(dbutils.fs.ls.Howe...

回答 1 投票 0

如何通过 pyspark 在 s3 存储桶上写入数据帧但不使用 Hadoop

我想通过 pyspark 直接在 s3 存储桶上写入数据帧,但不想使用 Hadoop。 python 或 pyspark 代码中不需要任何 Hadoop 单词。 从 pyspark.sql 导入 SparkSession

回答 1 投票 0

处理流应用程序中事件的倾斜处理时间

我有一个流应用程序(用spark/storm/任何无关紧要的东西编写)。 Kafka 用作流事件的来源。现在有些事件需要占用更大的资源(ti...

回答 1 投票 0

Spark 流作业在运行几天后失败

我面临这个问题,我的 Spark Streaming 作业在运行几天后不断失败,并出现以下错误: appattempt_1610108774021_0354_000001 的 AM 容器已退出,exitCode:-104 失败...

回答 1 投票 0

对于 Delta 或 Iceberg 使用哪种基于时间的分区策略

我正在使用 Spark-streaming 每 5 分钟摄取实时事件流并附加到 delta 或 apache 冰山表中。该表可以由下游数据管道摄取和处理,也可以...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.