嗨~我准备开发一个迷你批量的程序,用 Kafka + Spark结构化流. 但我很困惑,到底是用python还是scala,哪个更快。如果有Scala和Python之间关于Spark结构化流的基准性能结果会更好。
其实不是问题。
唯一的是:1)Scala更快,但每个微批的数据规模可能意味着影响较小;2)Scala对类型有数据集支持,pyspark没有。
大多数人使用Scala,pyspark更多的是用于数据科学。
也就是说实时机器学习很可能用pyspark更好。比如说,请看 https:/towardsdatascience.com building-a-real-time-prediction-pipelineusing-spark-structured-streaming-and-microservices-626dc20899eb。