spark-structured-streaming 相关问题

Spark Structured Streaming允许使用unifrom DataFrame和Dataset API处理实时数据流。

当您接收每日包含所有数据（旧数据和新数据）的XML或CSV文件时，如何仅处理新数据

我每天收到一个XML或CSV文件，其中包含所有数据（旧数据和新数据）。例如，如果Yesterday.xml包含3条记录，则Today.xml包含4条记录（3条旧记录和1条新记录）。我只担心...

apache-spark apache-kafka apache-spark-sql spark-streaming spark-structured-streaming

回答 1 投票 0

从查询异常中恢复火花结构化流

是否可以从查询执行过程中引发的异常中自动恢复？上下文：我正在开发一个Spark应用程序，该应用程序从Kafka主题读取数据，处理数据，然后...

scala apache-spark spark-structured-streaming

回答 2 投票 0

Spark分区

需要重新分区数据。如何确定Spark中的分区大小。分区概念是否适用于Spark流和结构化流。 DF.repartition（num）

apache-spark apache-spark-sql spark-streaming spark-structured-streaming

回答 1 投票 0

在使用Spark结构化流从Kafka中读取时，如何跳过ssl.truststore.password属性？

我正在尝试使用Spark结构化流技术从Kafka读取并写入Kudu Sink。以下是用于读取和写入的代码。我正在使用Spark 2.2.0。 val kafkaDataFrame = spark .readStream ....

scala apache-spark ssl apache-kafka spark-structured-streaming

回答 1 投票 0

在附加模式下结构化流窗口聚合中的事件顺序

我在使用Spark进行结构化流式处理时遇到了一个问题。当前设置：我有一个来自kafka的数据流。每个消息都有一个事件时间。我正在使用这些事件时间来使窗口聚合...

apache-spark apache-kafka spark-structured-streaming

回答 1 投票 0

SPARK java.lang.OutOfMemoryError：没有足够的内存来建立表并将表广播到所有工作程序节点

我正在使用spark合并从我从eventhub获取的azure存储和流数据集中获取的静态数据集。我没有在任何地方使用广播加入。我在加入后尝试了df.explain（），它显示...

apache-spark broadcast spark-structured-streaming azure-eventhub

回答 1 投票 0

Spark结构化流式用户界面的自定义标签

我已经为Spark结构化流媒体创建了“自定义流媒体”标签。我刚刚在Spark UI中附加了流式标签，但无法在流式标签中附加页面。在此自定义标签中，我要...

scala apache-spark spark-structured-streaming

回答 1 投票 2

为什么Spark结构化流式传输是实时操作的理想选择？

我想构建一个实时应用程序，但是我不知道该使用Spark Streaming还是Spark Structured Streaming。我在线阅读了《结构化流式处理是实时应用程序的理想之选...

apache-spark pyspark spark-structured-streaming

回答 1 投票 0

使用fs.s3a.path.style.access属性的火花路径样式访问不起作用

我正在尝试使用s3a写入本地s3存储桶，因此我的spark writeStream（）API使用path作为s3a：// test-bucket /。为了确保spark能够理解这一点，我添加了hadoop-aws-2.7.4.jar ...

scala apache-spark amazon-s3 apache-spark-sql spark-structured-streaming

回答 1 投票 0

Cassandra的火花结构化流式传输

我正在将Spark Structured流与Cassandra一起用作接收器。下面的代码段：覆盖def start（）：StreamingQuery = {sparkContext.getSparkSession（）.readStream .option（“ ...

cassandra spark-structured-streaming

回答 1 投票 0

在Spark结构化流中，有一种方法可以使数据库的维护窗口在读取操作期间休眠读取操作

我正在开发一个Spark结构化的流作业，该作业从Kafka主题读取并写入Jdbc数据库。该数据库应该有一个维护窗口，我正在尝试找出一种方法...

scala apache-spark apache-spark-sql spark-streaming spark-structured-streaming

回答 1 投票 1

如何在Spark结构化流中基于Kafka主题名称将Spark模式应用于查询？

我有一个Spark结构化流式作业，该作业基于subscriptionPattern从多个Kafka主题流式传输数据，对于每个Kafka主题，我都有一个Spark模式。从...

scala apache-spark apache-kafka spark-structured-streaming

回答 1 投票 0

如何确保Spark结构化流媒体正在处理kafka中的所有数据

我开发了一个Spark结构化的流应用程序，该应用程序从Kafka主题中读取数据，将数据聚合，然后输出到S3。现在，我试图找到最合适的硬件资源...

apache-spark apache-kafka spark-structured-streaming

回答 1 投票 0

Spark流接收器是否在当前微批处理期间的每个块间隔继续提取数据

对于每个spark.streaming.blockInterval（例如1分钟），接收者都将监听流源以获取数据。假设当前的微批处理花费了不自然的长时间（故意，...

apache-spark spark-streaming spark-structured-streaming

回答 1 投票 0

在spark 2.4.X中获取kafka标头

如何在Spark结构化流媒体中获取Kafka标头字段（在Kafka 0.11+中引入）？我看到在Spark 3.0中添加了标头实现，但在2.4.5中却没有。而且我默认看到...

apache-spark spark-structured-streaming spark-streaming-kafka

回答 1 投票 0

java.lang.NoSuchMethodError：org.apache.spark.internal.Logging。$ init $

我是Spark的新手，我想为Spark创建结构化的流，以读取和显示kafka主题的消息。我正在sample.py文件中编写以下内容：来自pyspark.sql import ...

python apache-spark apache-kafka apache-kafka-streams spark-structured-streaming

回答 1 投票 -1

试图执行用于火花结构化流的s3-sqs qubole连接器

[我正在尝试遵循，https：//github.com/qubole/s3-sqs-connector并尝试加载连接器，但似乎该连接器在maven上不可用，并且在手动生成buiold时...] >

spark-structured-streaming qubole

回答 1 投票 0

Spark结构化流处理不会在Kafka偏移处重新启动

我们有一个运行时间很长的Spark结构化流查询，该查询正在从Kafka中读取，我们希望此查询在重新启动后从中断处恢复。但是，我们已将...

scala apache-spark spark-structured-streaming

回答 1 投票 4

如何在Spark中识别最佳混洗分区数量

我正在EMR中运行一个火花结构化的流作业（每天都会反弹）。执行几个小时后，我的应用程序中出现OOM错误并被杀死。以下是我的配置...

java apache-spark apache-spark-sql yarn spark-structured-streaming

回答 1 投票 0

结构化流式处理：一次读取多个Kafka主题

我有一个Spark结构化流应用程序，必须立即读取12个Kafka主题（不同的架构，Avro格式），反序列化数据并存储在HDFS中。当我从单个主题中阅读...

apache-spark apache-kafka spark-structured-streaming

回答 1 投票 2

spark-structured-streaming 相关问题

最新问题