Spark Structured Streaming允许使用unifrom DataFrame和Dataset API处理实时数据流。
yarn 如何知道如何在具有最多可用核心的节点管理器节点上运行消耗核心的任务?
我们有 10 个与数据节点共同托管的节点管理器节点 节点上可用的 Vcore 描述如下 Vcore使用Vcore Avilble 节点管理器 1 56 6...
Spark是否支持以Kinesis流作为数据源的结构化流? Databricks 版本似乎支持 - https://docs.databricks.com/structed-streaming/kinesis-best-practices.html。
使用 pyspark 将 xml kafka 消息发送到数据帧
我有一条来自 kafka 主题的 xml 消息,我希望将传入消息转换为数据帧并进一步使用它。我已经对 json 消息实现了相同的效果,但对 xml 却没有实现。如果有人...
Databricks 中结构化流和 Delta Live Tables 的区别
我对 Structured Streaming 和 Delta Live Tables 之间的区别很感兴趣。 Databricks 表示,对于大多数流式或增量数据处理或 ETL 任务,Databricks 推荐 De...
我想使用 Kafka 流式传输 Twitter 数据,并使用 Spark 进行情绪分析。生产者运行良好,它可以从 Twitter API 检索数据到 Kafka 主题,但我得到了一个 ...
对于结构化流媒体水印,在 api 中设置为 1 小时。 现在我在 Streaming Listener 中使用下面的这个 api: **事件:StreamingQueryListener.QueryProgressEvent** triggerTime = Instant.parse(event.pr...
Spark StructuredStreaming - 水印未按预期工作
我有一个触发时间为 10 分钟的结构化流式传输作业,我正在使用水印来说明迟到的数据。 但是,水印不起作用 - 而不是单个记录......
在 Azure 事件中心的单个消费者组上是否可以有多个具有自己检查点的读取进程
在我们的场景中——我们正在轮询一个本地数据库,并使用 REST 端点每 2 分钟将数据发布到事件中心 我们正在尝试将多个实体推送到同一个事件中心......
Spark Structured Streaming:时间窗口语义和 Available-now micro-batch
我不需要持续运行的集群来处理我的数据,所以我想,正如 Spark 文档所建议的那样,使用 available-now 触发器: 这在您想要定期发布的场景中很有用...
我写了一个 Spark Structured Streaming Job,它读取和写入 Kafka 队列。 在作业中,我在加入静态 DataFrame 后将输入复制到数百行。这是我...
Spark Structured Stream - Kinesis 作为数据源
我正在尝试使用 psypark 结构化流来消耗运动数据流记录。 我正在尝试在 aws 胶水批处理作业中运行此代码。我的目标是使用检查点并将检查点和数据保存到...
Spark Structured Streaming - 忽略水印,输出旧数据
我有一个示例 Spark 结构化代码,我正在尝试实施/测试水印以说明迟到的数据。 不知何故,水印被忽略了,旧数据被发布了......
如何在 Spark 结构化流中正确地将消息映射到具有 `schema` 和 `payload` 的对象?
我希望在 Spark 结构化流式传输期间将消息映射到内部具有架构和有效负载的对象。 这是我的原始代码 val input_schema = new StructType() .add("时间戳&quo...
如何在 Spark 结构化流中正确地将消息映射到具有 `schema` 和 `payload` 的结构?
我希望在 Spark 结构化流传输期间将消息映射到内部具有架构和有效负载的结构。 这是我的原始代码 val input_schema = new StructType() .add("时间戳&quo...
Spark Structured Streaming with Kafka client 3.4.0 找不到主题,它曾与 spark 2.2 和 Kafka client 0.10.2.1 一起工作
我正在从 spark 2.2 升级到 3.4.0,我的应用程序也使用 kafka stream,并且对于 spark-3.4.0,我必须同时更新 kafka-client。我在某处读到 kafka-3.4.0 不需要
Databricks Autoloader 如何在微批中拆分数据?
基于此,Databricks Runtime >= 10.2 支持“availableNow”触发器,可用于以较小的不同微批次执行批处理,其大小可以是
问题很简单,当你使用带有追加模式的TUMBLING窗口时,只有当下一条消息到达时窗口才会关闭(+水印逻辑)。 在当前的实现中,如果你停止
我正在阅读火花流中的 kafka 主题,在我们开始在 kafka 中获得空抵消之前,工作一直很好。 [错误] org.apache.spark.executor.Executor - 阶段任务 0.0 异常 ...
我有一个连续从 Kafka 读取的 spark readStream 函数。我对数据执行了一些操作,并想使用 Spark writeStream 将其批量写入 Cassandra DB。虽然一直
PySpark 从“Kafka 值”中分离出嵌套的 json 列,用于 Spark 结构化流
我已经能够编写控制台来控制我想要处理的 json 文件。拜托,我如何将“值”列分成数据列,如 json 中的那样,并写入 delta lake 以获取 sql que ...