spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展，可实现实时数据流的高吞吐量，容错流处理。从版本1.3.0开始，即使遇到故障，它也支持一次性处理语义。

kafka 0.11中的KafkaUtils类

我们正在使用Spark Streaming从Kafka进行读写，并在spark-streaming_2.11中使用KafkaUtils库，该库具有kafka 0.10.0库。对，我正在升级kafka -...

apache-kafka spark-streaming kafka-consumer-api spark-streaming-kafka

回答 1 投票 1

数据帧列scala中的火花流JSON值

我有一个带有json值的文本文件。并将其读入DF {“ name”：“ Michael”} {“ name”：“ Andy”，“ age”：30}我想在流式传输时动态推断每行的架构并将其存储在...

json scala spark-streaming

回答 1 投票 0

在本地动态火花群集上运行并行作业

我是Spark的新手，并且我们需要设置一个动态Spark集群来运行多个作业。通过参考一些文章，我们可以使用EMR（Amazon）服务来实现这一目标。有什么办法...

apache-spark spark-streaming

回答 1 投票 0

如何设置动态火花集群？

apache-spark spark-streaming

回答 1 投票 0

线程“ streaming-start”中的异常java.lang.NoClassDefFoundError：twitter4j / StreamListener

我正在尝试将Twitter数据流式传输为流媒体。我已经使用以下命令导出了其他jar-spark-shell --jars twitter4j-core-4.0.1.jar，spark-streaming-twitter_2.11-1.6.2.jar ...

apache-spark spark-dataframe spark-streaming

回答 1 投票 1

如何触发气流DAG从UI立即运行（而非计划）

我有一个气流DAG，如下所示：从气流导入DAG从airflow.contrib.operators.spark_submit_operator导入SparkSubmitOperator从datetime导入datetime，timedelta ...

apache-spark spark-streaming airflow airflow-operator

回答 1 投票 -1

Spark Streaming Dataframe执行，有状态，对本地groupBy进行分区，避免混洗

此时感觉有些失落。我有一个基于Spark 2.4.2和Kafka的流媒体应用程序，该应用程序将聚合的（时间窗口化的）流写回到Kafka：[DF1]流媒体前置...

dataframe apache-spark spark-streaming

回答 1 投票 0

pyspark writeStream：单独的json文件中的每个数据框行

pyspark spark-streaming pyspark-dataframes

回答 1 投票 0

应用程序中的火花调度：性能问题

我像这样（Scala代码）实现Apache Spark计划内：//分组为10个项目的列表... val maxSimultaneousSubmitAndMonitorThreadsInDriver = 10 // ...以限制数量...

scala apache-spark apache-spark-sql spark-streaming databricks

回答 1 投票 2

如何在Spark独立集群中获取应用程序状态？

根据官方spark文档，我们可以使用spark-submit --master spark：// IP-ADDRESS：PORT --status SUBMISSION_ID来检查状态，但是当我尝试使用它时却无法...

apache-spark spark-streaming spark-structured-streaming

回答 1 投票 -1

[如果我想学习Spark Streaming / Kafka，哪个会更好？是在本地，容器还是在云中设置？

如果我想学习Spark Streaming / Kafka，哪种设置更好？在本地或容器中还是在云中设置？云可能很昂贵，如果有人知道，有什么建议吗？

apache-spark apache-kafka cloud spark-streaming

回答 1 投票 -1

Spark作业每天都会失败，并带有java.io.OptionalDataException

我正在使用spark 2.2.0，并在Cloudera上使用YARN运行我的作业。这是一项流式作业，它从Kafka获取事件，过滤并丰富事件，将其存储在ES中，然后将偏移量提交回...

apache-spark elasticsearch apache-kafka spark-streaming spark-streaming-kafka

回答 1 投票 0

火花流未从本地目录读取

我正在尝试使用Spark Python API编写一个Spark Streaming应用程序。该应用程序应从本地目录读取文本文件，并将其发送到Kafka集群。提交python时...

python apache-spark pyspark spark-streaming

回答 2 投票 1

关于广播变量并在Spark中同步

我是Spark和Scala的新手。最近，我在一个项目中找到了以下代码。案例类A（var版本：Int）{私有var pred：Array [Int] = null def init（s：Int）{pred = new Array [Int]（s）...

scala apache-spark spark-streaming

回答 1 投票 -1

第99个百分位延迟和吞吐量的含义是什么

我已经读过一些文章，它们对Spark处理，Storm和Flink等流处理引擎的性能进行了基准测试。在评估部分中，标准是第99个百分点和吞吐量。对于...

streaming spark-streaming apache-storm apache-flink

回答 1 投票 1

Kinesis Producer回调函数-保证交付？

[每天向Kinesis发送数十亿条消息。我们正在寻找一种实现方式，使我们能够以一次保证的方式向Kinesis发送消息。我们的生产者框架要求...

amazon-web-services spark-streaming amazon-kinesis amazon-kinesis-kpl resiliency

回答 1 投票 0

对kafka.KafkaUtils的依赖性

我正在尝试将星光流与kafka集成在一起。我无法解决org.apache.spark.streaming.kafka.KafkaUtils的依赖关系。下面是我的build.sbt：名称：=“ StreamingTest”版本：=“ 1.0” ...

apache-spark apache-kafka spark-streaming

回答 1 投票 0

NoSuchElementException尽管集群配置繁重，但火花流查询中出错

[有人可以帮我理解此错误的原因：错误查询警报[id = d19f51b1-8131-40dd-ab62，runId = 276833a0-235f-4d2e-bd61]终止，错误为java.util.NoSuchElementException：...] >

apache-spark spark-streaming databricks

回答 1 投票 -1

进行流式处理时是否可以移动输出文件，而不会使Spark作业崩溃？

我有一个以Kafka为源运行的结构化流Spark作业，以附加模式输出orc文件。在作业运行时，我每隔某个特定的时间就将文件（想要）移动到hdfs位置...

apache-spark hdfs streaming spark-streaming

回答 1 投票 0

Spark（直接）流是Spark结构化流还是Kafka流的自然替代品？

[在过去的几年中，我们已经开发了相当多的Spark Streaming（Direct API）应用程序，它们可以在Cloudera平台上与Kafka，IBM MQ，Hive，HBase，HDFS以及其他类型进行读写。...>>

apache-spark apache-kafka spark-streaming apache-kafka-streams spark-structured-streaming

回答 1 投票 0

spark-streaming 相关问题

最新问题