spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展,可实现实时数据流的高吞吐量,容错流处理。从版本1.3.0开始,即使遇到故障,它也支持一次性处理语义。

具有相同groupId的多个Spark Kafka使用者

我正在尝试为具有相同groupId的Kafka主题的多个分区提供多个使用者,这将有助于我扩展消息的消耗。根据Kafka文档,它说:如果...

回答 1 投票 0

Spark:如何使spark一次执行转换,这取决于三个动作

我们已经编写了一个火花批处理应用程序(Spark版本:2.3.0)。代码如下。转换:Dataset collectionDataDS = flatMap(解析某些文件的函数...

回答 1 投票 0

从Pyspark中的文件读取后模拟流数据

所以我正在从文件中读取数据。像data = spark.read.format('orc')。load('myfilepath')之类的东西,我现在想遍历上面的每一行并创建两个数组。对于...

回答 1 投票 0

java.sql.SQLException:Io异常:生成NL异常

我正在尝试使用我的Spark程序Spark程序连接oracle db时使用spark-sql 2.4.1 Spark程序val o_url = //“ jdbc:oracle:thin:etc ...它是正确的,并且可以使用val查询= “(SELECT 1 ...

回答 1 投票 0

spark UI-了解所使用的指标内存

[请您帮助我了解Spark UI内存的指标:已使用10 MB(总计552.6 GB)PartitionNumber.nbExecutors = conf.getInt(“ spark.executor.instances”,20)PartitionNumber.nbPartitions = ...

回答 1 投票 0


Kafka protobuf的Spark结构化流式传输

我正在尝试创建一个使用ProtoBuf编码的Kafka消息的Spark流。这是我最近几天尝试的操作import spark.implicits._ def parseLine(str:Array [Byte]):...

回答 1 投票 0

如何在kafka和spark-sql流应用程序中管理审计?

[在我们的项目中,我们正在考虑将kakfa与spark流一起使用,对于PoC,我正在使用spark 2.4.1版本的kafka和java8。如何将丢失的数据处理到Kafka主题提取中?如何维护...

回答 1 投票 -2

Kafka-Spark Streaming-仅从1个分区读取数据

我有一个独立的Spark集群,它正在从kafka队列中读取数据。 kafka队列有5个分区,spark仅处理来自其中一个分区的数据。我正在使用以下内容:在这里...

回答 2 投票 3

您将如何处理流式应用程序的重放

上下文您的应用程序最近4个月运行良好。您决定关闭它,重置每个状态并重新启动它。问题...

回答 1 投票 0

避免排队火花微批处理

我创建了spark应用程序,该应用程序从Apache flume接收输入数据。我将火花批处理间隔设置为4分钟,这样火花将每4分钟处理一次数据。但是我有一些...

回答 1 投票 1

如何查看Spark Streaming应用程序的逻辑和物理计划?

我正在寻找一种方法来打印Spark中Streaming应用程序的执行计划。我知道可以打印SQL Spark应用程序的计划。但是,我想显示逻辑上的...

回答 1 投票 0

如何启动Spark Streaming应用程序时收到通知?

我正在编写一些使用Spark Streaming的组件的测试。我正在尝试做的是:在一个单独的线程中启动该组件,该启动火花流等待它开始发送通知...

回答 1 投票 0

如何启动Spark Streaming应用程序时收到通知?

我正在编写一些使用Spark Streaming的组件的测试。我正在尝试做的是:在一个单独的线程中启动该组件,该启动火花流等待它开始发送通知...

回答 1 投票 1

我可以使用备忘录在从Spark作业读写的hbase中缓存数据吗?

在具有Spark作业的Scala项目中,我使用了Spark-Hbase连接器(SHC)连接从Hbase数据读取的数据。请求的数量非常大,我正在尝试将缓存的数据用于特定的...

回答 1 投票 0

Spark .conf.set无法更新SparkContext

我在更新/重新配置名为“ spark”的预定义Spark上下文时遇到麻烦。spark.sparkContext._conf.get(“ spark.app.name”)返回应用名称“ Databricks Shell”,我想对此进行更新并...

回答 1 投票 0

如何自动更新zeppelin中的%spark.sql结果以进行结构化流式查询

我正在(来自zeppelin 0.7的spark 2.1.0中运行结构化流,用于来自kafka的数据,我正尝试通过spark.sql可视化流的结果,如下所示:%spark2 val spark = ...

回答 1 投票 4

Spark Streaming中的java.lang.LinkageError

我正在使用Scala 2.11.8的CDH 5.10集群上使用Spark 2.2。一切工作正常,但随后我突然开始在驱动程序代码中获取此信息:线程“ main” java.lang ....

回答 1 投票 0

将流数据加入表数据并在流接收时更新表,这可能吗?

我正在使用spark-sql 2.4.1,spark-cassandra-connector_2.11-2.4.1.jar和java8。我有方案,其中我需要将流数据与C * / Cassandra表数据连接在一起。如果找到记录/联接,则需要复制...

回答 1 投票 0

如何做到从卡夫卡的火花流流数据JOIN

我是新来的火花流。我试图做从卡夫卡获取数据,并与蜂巢table.i我不知道该怎么办的火花流(而不是结构化数据流)JOIN加入一些练习。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.