如何使用 spark 处理 greenplum 数据？

问题描述投票：0回答：0

我在女巫中有一个项目，我从 hadoop 读取数据并进行一些计算。一切都是使用火花完成的。当我不需要时，不要在任何地方保存数据是非常重要的。这就是为什么星火计划对我如此有效。但现在我必须以某种方式对 greenplum 数据执行相同的操作，而无需对我的项目进行任何大的更改。将数据从 greenplum 移动到 hadoop，然后用它进行计算是最好的选择吗？如果是，您更喜欢使用哪种连接器？如果不是，您认为什么会更好？谢谢你的帮助。

我尝试使用 jdbc 连接器，但由于仅与主节点一起使用，它的运行速度很慢。我希望读取由多个执行者执行，就像我从 hadoop 读取数据时一样。