我想在我的本地机器上运行以下代码。
from pyspark import SparkContext
from pyspark.sql.session import SparkSession
def quiet_logs( sc ):
logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
#Spark Data Frame Jobs
spark = SparkSession.builder.getOrCreate()
我没有安装 spark
在我的机器上。
这是有意义的吗?
我的目的是从我的本地机器上加载数据到hadoop?
先谢谢你
如果你想从你的本地机器加载数据到Hadoop,那么你必须遵循一些方法,其中一个方法是这样的。
-> Send data from your local to Hadoop edge node.
Use SFTP for this purpose
->
Move data from edge node to hdfs using
hdfs dfs -cp
-> Run your spark job on hdfs then Load the data as required either in hive table or any use case.