AWS设置在Apache pyspark环境中运行python脚本

问题描述 投票:0回答:1

需要通过在pyspark框架上运行python脚本,RDD来对数据集执行数据分析和创建可视化。如果我们可以在AWS上执行此操作而不是在本地计算机(VM)上执行操作,那么请寻求帮助。

似乎我们在AWS中使用EMR或EC2提供了几个选项,但即使我们在AWS中提供12个月的免费试用选项,也不确定相关的步骤和定价。

谁能请帮忙。

python amazon-web-services pyspark amazon-emr
1个回答
0
投票

你有两个选择:

选项1:您可以在AWS上创建自己的实例并根据需要设置一个hadoop集群(单个节点或多个节点)并在其上运行pyspark。

选项2:您可以使用Amazon提供的EMR(弹性地图缩减),它可以为您创建集群环境,您可以在那里运行您的pyspark代码。

选项1更便宜,但您需要自己配置所有内容。选项2比选项1更昂贵,但为您提供现成的环境。

如果你想使用免费套餐,我建议你去选项1.你可以使用亚马逊在线计算器来比较成本。这是在线计算器的链接。 aws online calculator

© www.soinside.com 2019 - 2024. All rights reserved.