我可以在我的本地机器上用python运行spark命令到hadoop吗?

问题描述 投票:0回答:1

我想在我的本地机器上运行以下代码。

from pyspark import SparkContext
from pyspark.sql.session import SparkSession


def quiet_logs( sc ):
  logger = sc._jvm.org.apache.log4j
  logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
  logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )

#Spark Data Frame Jobs
spark = SparkSession.builder.getOrCreate()

我没有安装 spark 在我的机器上。

这是有意义的吗?

我的目的是从我的本地机器上加载数据到hadoop?

先谢谢你

hadoop pyspark cloudera
1个回答
1
投票

如果你想从你的本地机器加载数据到Hadoop,那么你必须遵循一些方法,其中一个方法是这样的。

-> Send data from your local to Hadoop edge node.
Use SFTP for this purpose

-> 
Move data from edge node to hdfs using

hdfs dfs -cp

-> Run your spark job on hdfs then Load the data as required either in hive table or any use case.
© www.soinside.com 2019 - 2024. All rights reserved.