Scala与Python的Spark结构化流媒体性能比较

问题描述 投票:0回答:1

嗨~我准备开发一个迷你批量的程序,用 Kafka + Spark结构化流. 但我很困惑,到底是用python还是scala,哪个更快。如果有Scala和Python之间关于Spark结构化流的基准性能结果会更好。

scala apache-spark pyspark apache-kafka spark-structured-streaming
1个回答
1
投票

其实不是问题。

唯一的是:1)Scala更快,但每个微批的数据规模可能意味着影响较小;2)Scala对类型有数据集支持,pyspark没有。

大多数人使用Scala,pyspark更多的是用于数据科学。

也就是说实时机器学习很可能用pyspark更好。比如说,请看 https:/towardsdatascience.com building-a-real-time-prediction-pipelineusing-spark-structured-streaming-and-microservices-626dc20899eb。

© www.soinside.com 2019 - 2024. All rights reserved.