我想将RDD上的每个转换存储为一个文件,以便我可以在需要时将它们引回。我发现每次提到的RDD都会谈到它们是在内存中创建的,我们可以将它们存储在驱动器上还是将它们保存为文件?如果是,指向描述它的在线文章的链接将非常有用。
当然是!
这里只是一个随机的Databricks link我发现:
RDD有一些内置的方法可以将它们保存到磁盘。一旦进入文件,许多Hadoop数据库都可以直接从文件批量加载数据,只要它们采用特定格式即可。