spark-structured-streaming 相关问题

Spark Structured Streaming允许使用unifrom DataFrame和Dataset API处理实时数据流。

无法在ES 6.x及更高版本中对索引/更新请求使用时间戳。请删除[es.mapping.timestamp]设置

我正在使用Spark Structured Streaming写入Elasticsearch 6.2.0 Sink:dataDf .writeStream .outputMode(OutputMode.Append).format(“org.elasticsearch.spark.sql”)。queryName(“...

回答 1 投票 1

如何在驱动程序中提取累加器值?

以下是我的代码排序方式,//累加器初始化val count = new LongAccumulator sparksession.sparkContext.register(count,“count accumulator”)// Streaming Transformation val DF = ...

回答 1 投票 0

Spark Structured Streaming - Customer Sink在Spark 2.2.0中工作但在Spark 2.3.0中获得异常

最近我们将我们的项目从Spark 2.2.0 cloudera2迁移到Spark 2.3.0 cloudera2,并注意到一些曾经工作过但但现在因异常而失败的客户Sink。为了简单起见,我重新写了......

回答 2 投票 0

使用spark-streaming将avro数据集加载到Teradata时出现问题

我试图通过spark streaming(jdbc)将avro文件的数据集加载到Teradata表中。配置已正确设置,负载在一定程度上成功(我可以验证数据行...

回答 1 投票 0

如何从二进制protobuf中提取JSON?

将Apache Spark 2.2.0结构化流考虑为:jsonStream.printSchema()root | - body:binary(nullable = true)正文中的数据类型为Protocol Buffers v2和嵌套JSON。它......

回答 1 投票 1

无法将Spark数据框发送到Kafka(java.lang.ClassNotFoundException:无法找到数据源:kafka。)

我在使用Spark数据框向Kafka推送数据时遇到了问题。让我通过示例示例详细解释我的场景。我想加载数据以激发并将spark输出发送到kafka。一世 ...

回答 1 投票 0

无法使用Spark Structured Streaming在Parquet文件中写入数据

我有一个Spark结构流:val df = spark .readStream .format(“kafka”)。option(“kafka.bootstrap.servers”,“localhost:9092”)。option(“startingOffsets”,“earliest”).. 。

回答 2 投票 2

结构化流 - 消费每条消息

什么是“推荐”的方式来处理每个消息,因为它来自结构化流媒体管道(我在Spark 2.1.1上,源是Kafka 0.10.2.1)?到目前为止,我正在寻找数据帧....

回答 1 投票 1

结构化流 - Foreach接收器

我基本上是从Kafka源代码中读取,并将每条消息转发给我的foreach处理器(感谢Jacek的简单示例页面)。如果这确实有效,我将实际执行......

回答 1 投票 5

如何使用Spark Structured Streaming连续监视目录

我希望spark能够持续监视目录并在文件出现在该目录中时使用spark.readStream读取CSV文件。请不要包含Spark Streaming的解决方案。一世 ...

回答 2 投票 7

如何在单个查询中计算不同类型列的流数据帧的统计信息?

我有一个流数据帧有三列时间col1,col2。 + ----------------------- + ------------------- + ----- --------------- + | time | col1 | col2 | ...

回答 1 投票 6

从Kafka主题中读取结构化流

我已经读取了一个csv文件,并将值字段转换为字节,并使用Kafka生成器应用程序写入Kafka主题。现在我试图使用结构化流媒体来读取Kafka主题,但不是......

回答 1 投票 0

Spark Structured Streaming error读取字段'topic_metadata'时出错

我试图运行一个非常简单的例子。我有一个Kafka readStream,它从Kafka主题中读取。我正在运行spark 2.4.0和Kafka 0.10.2 var streamingInputDF = spark.readStream .format(“...

回答 1 投票 0

Spark结构化流多个WriteStream到同一个接收器

Spark Structured Streaming 2.2.1中没有按顺序发生到同一数据库接收器的两个Writestream。请建议如何按顺序执行它们。 val deleteSink = ds1.writestream ....

回答 1 投票 2

以有状态的方式处理火花中的网络数据包

我想使用Spark来解析网络消息,并以有状态的方式将它们分组为逻辑实体。问题描述假设每条消息都在输入数据帧的一行中,......

回答 2 投票 1

解释Spark Structured Streaming执行程序和Kafka分区之间的映射

我已经使用4个分区在Kafka主题上部署了一个包含4个工作者的结构化流。我假设将有4个工作人员部署4个分区,并在...之间进行一对一的映射。

回答 2 投票 1

Kafka主题的JSON中没有发生结构化流 - 流连接

应用程序监听2 kafka主题userevent paymentevent Payload for userevent {“userId”:“Id_223”,“firstname”:“fname_223”,“lastname”:“lname_223”,“phonenumber”:“P98202384_223”,“usertimestamp”:“.. 。

回答 1 投票 0

如何在spark结构化流媒体应用程序中优化执行程序实例的数量?

运行时YARN集群模式应用程序Spark结构化流从Kafka主题读取数据关于Kafka主题1主题,包含4个分区 - 现在。 (分区数可以更改)添加2000 ...

回答 1 投票 0

连续处理模式和python udf

Spark 2.4.0是否支持具有连续处理模式的Python UDF?在我的简单代码中,我正在使用kafka主题,每行进行一些简单的处理(基本上为...添加一个虚拟字段)

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.