我想构建一个实时应用程序,但是我不知道该使用Spark Streaming还是Spark Structured Streaming。
我在线阅读了结构化流是实时应用程序的理想选择,但不清楚为什么...
有人可以解释吗?
火花流在我们称为微型批次的产品上起作用。 ...每批代表一个RDD。结构化流基于在同一时间间隔内根据触发间隔轮询数据的相同体系结构,但与Spark流有一些区别,这使它更倾向于真实流。
对于开发人员他们所需要担心的是,Spark流您将需要RDD,但在Spark结构化流中,您将获得数据帧和数据集。如果您想要非常低的级别(即每条记录)操作进行RDD(即Spark Streaming)操作,但是您的应用程序可以在Dataframes上构建并像SQL一样实时查询它们,则请选择DataFrames(即Spark结构化Streaming)]
最终,RDD可以转换为数据帧,反之亦然