在spark上运行非spark python代码以利用其分布式计算来优化性能

问题描述 投票:0回答:1

我可以在 Spark 中使用现有的原生 Python 代码(非 pyspark 代码)来使用其快速处理和分布式功能吗?我不想编辑现有的 python 代码以使其成为 pyspark 代码...而只想在 Spark 中按原样运行它(独立)?是否可以使用spark-submit或任何其他方式,以便我可以利用spark并运行我的非spark python代码?我真的很感激任何人的帮助/步骤来克服这个问题?

TIA。

P.S:我正在尝试在Linux服务器上进行spark-submit(安装了spark),但无法实现这一点

python apache-spark spark-submit
1个回答
0
投票

现在如果不使用 RDD 或更确切地说 DataFrame,就不会发生并行化。也不适用于 pandas 数据框。

也就是说,在Spark上运行是没有意义的。当然可以在 Databricks 上运行它并最小化平台。

© www.soinside.com 2019 - 2024. All rights reserved.