spark-streaming 相关问题

Spark Streaming是核心Apache Spark API的扩展,可实现实时数据流的高吞吐量,容错流处理。从版本1.3.0开始,即使遇到故障,它也支持一次性处理语义。

kafka 0.11中的KafkaUtils类

我们正在使用Spark Streaming从Kafka进行读写,并在spark-streaming_2.11中使用KafkaUtils库,该库具有kafka 0.10.0库。对,我正在升级kafka -...

回答 1 投票 1

数据帧列scala中的火花流JSON值

我有一个带有json值的文本文件。并将其读入DF {“ name”:“ Michael”} {“ name”:“ Andy”,“ age”:30}我想在流式传输时动态推断每行的架构并将其存储在...

回答 1 投票 0

在本地动态火花群集上运行并行作业

我是Spark的新手,并且我们需要设置一个动态Spark集群来运行多个作业。通过参考一些文章,我们可以使用EMR(Amazon)服务来实现这一目标。有什么办法...

回答 1 投票 0

如何设置动态火花集群?

我是Spark的新手,并且我们需要设置一个动态Spark集群来运行多个作业。通过参考一些文章,我们可以使用EMR(Amazon)服务来实现这一目标。有什么办法...

回答 1 投票 0

线程“ streaming-start”中的异常java.lang.NoClassDefFoundError:twitter4j / StreamListener

我正在尝试将Twitter数据流式传输为流媒体。我已经使用以下命令导出了其他jar-spark-shell --jars twitter4j-core-4.0.1.jar,spark-streaming-twitter_2.11-1.6.2.jar ...

回答 1 投票 1

如何触发气流DAG从UI立即运行(而非计划)

我有一个气流DAG,如下所示:从气流导入DAG从airflow.contrib.operators.spark_submit_operator导入SparkSubmitOperator从datetime导入datetime,timedelta ...

回答 1 投票 -1

Spark Streaming Dataframe执行,有状态,对本地groupBy进行分区,避免混洗

此时感觉有些失落。我有一个基于Spark 2.4.2和Kafka的流媒体应用程序,该应用程序将聚合的(时间窗口化的)流写回到Kafka:[DF1]流媒体前置...

回答 1 投票 0


应用程序中的火花调度:性能问题

我像这样(Scala代码)实现Apache Spark计划内://分组为10个项目的列表... val maxSimultaneousSubmitAndMonitorThreadsInDriver = 10 // ...以限制数量...

回答 1 投票 2

如何在Spark独立集群中获取应用程序状态?

根据官方spark文档,我们可以使用spark-submit --master spark:// IP-ADDRESS:PORT --status SUBMISSION_ID来检查状态,但是当我尝试使用它时却无法...

回答 1 投票 -1

[如果我想学习Spark Streaming / Kafka,哪个会更好?是在本地,容器还是在云中设置?

如果我想学习Spark Streaming / Kafka,哪种设置更好?在本地或容器中还是在云中设置?云可能很昂贵,如果有人知道,有什么建议吗?

回答 1 投票 -1

Spark作业每天都会失败,并带有java.io.OptionalDataException

我正在使用spark 2.2.0,并在Cloudera上使用YARN运行我的作业。这是一项流式作业,它从Kafka获取事件,过滤并丰富事件,将其存储在ES中,然后将偏移量提交回...

回答 1 投票 0

火花流未从本地目录读取

我正在尝试使用Spark Python API编写一个Spark Streaming应用程序。该应用程序应从本地目录读取文本文件,并将其发送到Kafka集群。提交python时...

回答 2 投票 1

关于广播变量并在Spark中同步

我是Spark和Scala的新手。最近,我在一个项目中找到了以下代码。案例类A(var版本:Int){私有var pred:Array [Int] = null def init(s:Int){pred = new Array [Int](s)...

回答 1 投票 -1

第99个百分位延迟和吞吐量的含义是什么

我已经读过一些文章,它们对Spark处理,Storm和Flink等流处理引擎的性能进行了基准测试。在评估部分中,标准是第99个百分点和吞吐量。对于...

回答 1 投票 1

Kinesis Producer回调函数-保证交付?

[每天向Kinesis发送数十亿条消息。我们正在寻找一种实现方式,使我们能够以一次保证的方式向Kinesis发送消息。我们的生产者框架要求...

回答 1 投票 0

对kafka.KafkaUtils的依赖性

我正在尝试将星光流与kafka集成在一起。我无法解决org.apache.spark.streaming.kafka.KafkaUtils的依赖关系。下面是我的build.sbt:名称:=“ StreamingTest”版本:=“ 1.0” ...

回答 1 投票 0

NoSuchElementException尽管集群配置繁重,但火花流查询中出错

[有人可以帮我理解此错误的原因:错误查询警报[id = d19f51b1-8131-40dd-ab62,runId = 276833a0-235f-4d2e-bd61]终止,错误为java.util.NoSuchElementException:...] >

回答 1 投票 -1

进行流式处理时是否可以移动输出文件,而不会使Spark作业崩溃?

我有一个以Kafka为源运行的结构化流Spark作业,以附加模式输出orc文件。在作业运行时,我每隔某个特定的时间就将文件(想要)移动到hdfs位置...

回答 1 投票 0

Spark(直接)流是Spark结构化流还是Kafka流的自然替代品?

[在过去的几年中,我们已经开发了相当多的Spark Streaming(Direct API)应用程序,它们可以在Cloudera平台上与Kafka,IBM MQ,Hive,HBase,HDFS以及其他类型进行读写。...>>

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.