spark-structured-streaming 相关问题

Spark Structured Streaming允许使用unifrom DataFrame和Dataset API处理实时数据流。

当您接收每日包含所有数据(旧数据和新数据)的XML或CSV文件时,如何仅处理新数据

我每天收到一个XML或CSV文件,其中包含所有数据(旧数据和新数据)。例如,如果Yesterday.xml包含3条记录,则Today.xml包含4条记录(3条旧记录和1条新记录)。我只担心...

回答 1 投票 0

从查询异常中恢复火花结构化流

是否可以从查询执行过程中引发的异常中自动恢复?上下文:我正在开发一个Spark应用程序,该应用程序从Kafka主题读取数据,处理数据,然后...

回答 2 投票 0

Spark分区

需要重新分区数据。如何确定Spark中的分区大小。分区概念是否适用于Spark流和结构化流。 DF.repartition(num)

回答 1 投票 0

在使用Spark结构化流从Kafka中读取时,如何跳过ssl.truststore.password属性?

我正在尝试使用Spark结构化流技术从Kafka读取并写入Kudu Sink。以下是用于读取和写入的代码。我正在使用Spark 2.2.0。 val kafkaDataFrame = spark .readStream ....

回答 1 投票 0

在附加模式下结构化流窗口聚合中的事件顺序

我在使用Spark进行结构化流式处理时遇到了一个问题。当前设置:我有一个来自kafka的数据流。每个消息都有一个事件时间。我正在使用这些事件时间来使窗口聚合...

回答 1 投票 0

SPARK java.lang.OutOfMemoryError:没有足够的内存来建立表并将表广播到所有工作程序节点

我正在使用spark合并从我从eventhub获取的azure存储和流数据集中获取的静态数据集。我没有在任何地方使用广播加入。我在加入后尝试了df.explain(),它显示...

回答 1 投票 0

Spark结构化流式用户界面的自定义标签

我已经为Spark结构化流媒体创建了“自定义流媒体”标签。我刚刚在Spark UI中附加了流式标签,但无法在流式标签中附加页面。在此自定义标签中,我要...

回答 1 投票 2

为什么Spark结构化流式传输是实时操作的理想选择?

我想构建一个实时应用程序,但是我不知道该使用Spark Streaming还是Spark Structured Streaming。我在线阅读了《结构化流式处理是实时应用程序的理想之选...

回答 1 投票 0

使用fs.s3a.path.style.access属性的火花路径样式访问不起作用

我正在尝试使用s3a写入本地s3存储桶,因此我的spark writeStream()API使用path作为s3a:// test-bucket /。为了确保spark能够理解这一点,我添加了hadoop-aws-2.7.4.jar ...

回答 1 投票 0

Cassandra的火花结构化流式传输

我正在将Spark Structured流与Cassandra一起用作接收器。下面的代码段:覆盖def start():StreamingQuery = {sparkContext.getSparkSession().readStream .option(“ ...

回答 1 投票 0

在Spark结构化流中,有一种方法可以使数据库的维护窗口在读取操作期间休眠读取操作

我正在开发一个Spark结构化的流作业,该作业从Kafka主题读取并写入Jdbc数据库。该数据库应该有一个维护窗口,我正在尝试找出一种方法...

回答 1 投票 1

如何在Spark结构化流中基于Kafka主题名称将Spark模式应用于查询?

我有一个Spark结构化流式作业,该作业基于subscriptionPattern从多个Kafka主题流式传输数据,对于每个Kafka主题,我都有一个Spark模式。从...

回答 1 投票 0

如何确保Spark结构化流媒体正在处理kafka中的所有数据

我开发了一个Spark结构化的流应用程序,该应用程序从Kafka主题中读取数据,将数据聚合,然后输出到S3。现在,我试图找到最合适的硬件资源...

回答 1 投票 0

Spark流接收器是否在当前微批处理期间的每个块间隔继续提取数据

对于每个spark.streaming.blockInterval(例如1分钟),接收者都将监听流源以获取数据。假设当前的微批处理花费了不自然的长时间(故意,...

回答 1 投票 0

在spark 2.4.X中获取kafka标头

如何在Spark结构化流媒体中获取Kafka标头字段(在Kafka 0.11+中引入)?我看到在Spark 3.0中添加了标头实现,但在2.4.5中却没有。而且我默认看到...

回答 1 投票 0

java.lang.NoSuchMethodError:org.apache.spark.internal.Logging。$ init $

我是Spark的新手,我想为Spark创建结构化的流,以读取和显示kafka主题的消息。我正在sample.py文件中编写以下内容:来自pyspark.sql import ...

回答 1 投票 -1

试图执行用于火花结构化流的s3-sqs qubole连接器

[我正在尝试遵循,https://github.com/qubole/s3-sqs-connector并尝试加载连接器,但似乎该连接器 在maven上不可用,并且在手动生成buiold时...] >

回答 1 投票 0

Spark结构化流处理不会在Kafka偏移处重新启动

我们有一个运行时间很长的Spark结构化流查询,该查询正在从Kafka中读取,我们希望此查询在重新启动后从中断处恢复。但是,我们已将...

回答 1 投票 4

如何在Spark中识别最佳混洗分区数量

我正在EMR中运行一个火花结构化的流作业(每天都会反弹)。执行几个小时后,我的应用程序中出现OOM错误并被杀死。以下是我的配置...

回答 1 投票 0

结构化流式处理:一次读取多个Kafka主题

我有一个Spark结构化流应用程序,必须立即读取12个Kafka主题(不同的架构,Avro格式),反序列化数据并存储在HDFS中。当我从单个主题中阅读...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.