spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展，可实现实时数据流的高吞吐量，容错流处理。从版本1.3.0开始，即使遇到故障，它也支持一次性处理语义。

我使用spark-sql-2.3.1v有如下场景。给定数据集 val ds = Seq( (1, "x1", "y1", "0.1992019"), (2, null, "y2", "2.2500000"), (3, "x3", null, "15.34567"), (4, null, "y4", ...

apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

根据给定的操作列创建一个新的数据集。

我使用的是spark-sql-2.3.1v，有如下方案。给定一个数据集： val ds = Seq( (1，"x1"，"y1"，"0.1992019")，(2，null，"y2"，"2.2500000")，(3，"x3"，null，"15.34567")，(4，null，"y4"...。

apache-spark apache-spark-sql spark-streaming

回答 1 投票 1

在Spark中运行现有的生产型Java应用

我一直在阅读Spark，并且对在可扩展计算集群上分配计算的能力非常感兴趣。我们有生产流处理代码（5K行，用Java 9写的） ...

java apache-spark spark-streaming

回答 1 投票 0

访问Spark流数据管道。什么方案最有效？

我正在寻找从Spark数据管道访问数据的最佳方案。场景如下。我正在从Kafka主题中读取数据，创建一个流式数据框架，然后对其进行清理和... ...

pandas apache-spark pyspark spark-streaming spark-structured-streaming

回答 1 投票 -1

从Spark Streaming中获取异常 "没有注册输出操作，所以没有执行"。

package com.scala.sparkStreaming import org.apache.spark._ import org.apache.spark.streaming._ object Demo1 { def main(assdf:Array[String]){ val sc=new SparkContext("local", "Stream") ....

apache-spark spark-streaming rdd spark-structured-streaming

回答 1 投票 0

Spark *Structured* Streaming中的RecordTooLargeException异常

我一直收到这个错误信息。当序列化时，消息是1169350字节，这比你在max.request.size配置中配置的最大请求大小要大。由于...

apache-spark apache-kafka spark-streaming spark-structured-streaming spark-streaming-kafka

回答 1 投票 0

在pyspark中从本地文本文件流

conf = SparkConf().setMaster("spark:/antonis-dell:7077").setAppName("Kafka_Spark") sc = SparkContext(conf=conf) # .getOrCreate() sc.setLogLevel("WARN") ....

apache-spark pyspark spark-streaming

回答 2 投票 0

为什么Spark结构化流作业在引发异常后仍未终止？

我在我的结构化流作业中引发了一个自定义异常来测试失败，如下所示。我看到查询被终止，但不能理解为什么驱动脚本没有以非零的方式失败......。

apache-spark spark-streaming spark-structured-streaming

回答 1 投票 0

使用SparkScala用JSON字段过滤RDD的csv。

我正在研究sparkscala，我需要通过一列的特定字段来过滤一个RDD，在这种情况下，用户。我想返回一个包含用户["Joe", "Plank", "Willy"]的RDD，但似乎想不通......。

scala apache-spark pyspark apache-spark-sql spark-streaming

回答 1 投票 0

附表火花结构化流媒体

它是以某种方式可能安排一个火花流作业只运行在特定的时间吗说从8AM到8PM？集群是在夜间运行，造成不必要的成本。我怎么能重新初始化......。