Spark Streaming是核心Apache Spark API的扩展,可实现实时数据流的高吞吐量,容错流处理。从版本1.3.0开始,即使遇到故障,它也支持一次性处理语义。
我正在尝试为具有相同groupId的Kafka主题的多个分区提供多个使用者,这将有助于我扩展消息的消耗。根据Kafka文档,它说:如果...
我们已经编写了一个火花批处理应用程序(Spark版本:2.3.0)。代码如下。转换:Dataset collectionDataDS = flatMap(解析某些文件的函数...
所以我正在从文件中读取数据。像data = spark.read.format('orc')。load('myfilepath')之类的东西,我现在想遍历上面的每一行并创建两个数组。对于...
java.sql.SQLException:Io异常:生成NL异常
我正在尝试使用我的Spark程序Spark程序连接oracle db时使用spark-sql 2.4.1 Spark程序val o_url = //“ jdbc:oracle:thin:etc ...它是正确的,并且可以使用val查询= “(SELECT 1 ...
[请您帮助我了解Spark UI内存的指标:已使用10 MB(总计552.6 GB)PartitionNumber.nbExecutors = conf.getInt(“ spark.executor.instances”,20)PartitionNumber.nbPartitions = ...
我正在尝试创建一个使用ProtoBuf编码的Kafka消息的Spark流。这是我最近几天尝试的操作import spark.implicits._ def parseLine(str:Array [Byte]):...
[在我们的项目中,我们正在考虑将kakfa与spark流一起使用,对于PoC,我正在使用spark 2.4.1版本的kafka和java8。如何将丢失的数据处理到Kafka主题提取中?如何维护...
Kafka-Spark Streaming-仅从1个分区读取数据
我有一个独立的Spark集群,它正在从kafka队列中读取数据。 kafka队列有5个分区,spark仅处理来自其中一个分区的数据。我正在使用以下内容:在这里...
上下文您的应用程序最近4个月运行良好。您决定关闭它,重置每个状态并重新启动它。问题...
我创建了spark应用程序,该应用程序从Apache flume接收输入数据。我将火花批处理间隔设置为4分钟,这样火花将每4分钟处理一次数据。但是我有一些...
如何查看Spark Streaming应用程序的逻辑和物理计划?
我正在寻找一种方法来打印Spark中Streaming应用程序的执行计划。我知道可以打印SQL Spark应用程序的计划。但是,我想显示逻辑上的...
我正在编写一些使用Spark Streaming的组件的测试。我正在尝试做的是:在一个单独的线程中启动该组件,该启动火花流等待它开始发送通知...
我正在编写一些使用Spark Streaming的组件的测试。我正在尝试做的是:在一个单独的线程中启动该组件,该启动火花流等待它开始发送通知...
我可以使用备忘录在从Spark作业读写的hbase中缓存数据吗?
在具有Spark作业的Scala项目中,我使用了Spark-Hbase连接器(SHC)连接从Hbase数据读取的数据。请求的数量非常大,我正在尝试将缓存的数据用于特定的...
Spark .conf.set无法更新SparkContext
我在更新/重新配置名为“ spark”的预定义Spark上下文时遇到麻烦。spark.sparkContext._conf.get(“ spark.app.name”)返回应用名称“ Databricks Shell”,我想对此进行更新并...
如何自动更新zeppelin中的%spark.sql结果以进行结构化流式查询
我正在(来自zeppelin 0.7的spark 2.1.0中运行结构化流,用于来自kafka的数据,我正尝试通过spark.sql可视化流的结果,如下所示:%spark2 val spark = ...
Spark Streaming中的java.lang.LinkageError
我正在使用Scala 2.11.8的CDH 5.10集群上使用Spark 2.2。一切工作正常,但随后我突然开始在驱动程序代码中获取此信息:线程“ main” java.lang ....
我正在使用spark-sql 2.4.1,spark-cassandra-connector_2.11-2.4.1.jar和java8。我有方案,其中我需要将流数据与C * / Cassandra表数据连接在一起。如果找到记录/联接,则需要复制...
我是新来的火花流。我试图做从卡夫卡获取数据,并与蜂巢table.i我不知道该怎么办的火花流(而不是结构化数据流)JOIN加入一些练习。 ...