我是大数据领域的新人。我的目标是在某种数据结构中维护一个输入数据流,以便对其进行查询和聚合操作。有一个连续的数据流作为输入,通过spark的结构化流,我把它存储在一个DataFrame中。我的问题是
如果你正打算使用Spark 2.4+,那么就选择Dataframes吧
除了以上几点,Spark还内置了检查点机制,以确保当你的作业崩溃时没有数据丢失。详细文档可以在Spark上找到