如何使用 spark 处理 greenplum 数据?

问题描述 投票:0回答:0

我在女巫中有一个项目,我从 hadoop 读取数据并进行一些计算。一切都是使用火花完成的。当我不需要时,不要在任何地方保存数据是非常重要的。这就是为什么星火计划对我如此有效。但现在我必须以某种方式对 greenplum 数据执行相同的操作,而无需对我的项目进行任何大的更改。 将数据从 greenplum 移动到 hadoop,然后用它进行计算是最好的选择吗?如果是,您更喜欢使用哪种连接器?如果不是,您认为什么会更好? 谢谢你的帮助。

我尝试使用 jdbc 连接器,但由于仅与主节点一起使用,它的运行速度很慢。我希望读取由多个执行者执行,就像我从 hadoop 读取数据时一样。

python scala apache-spark hadoop greenplum
© www.soinside.com 2019 - 2024. All rights reserved.