Pyspark:无法在Zeppilin实例中导入csv文件

问题描述 投票:0回答:1

我无法运行以下代码行。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df_t = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('s3a://Bucket_name/Train - Copy.csv')

它抛出以下错误:

AnalysisException: u'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'

我尝试重新启动解释器,但没有帮助。

有人可以帮忙解决这个问题吗?

谢谢,Naseer

csv import pyspark apache-zeppelin
1个回答
0
投票

看来,hive Metastore没有运行,你可以尝试启动服务

hive --service metastore  

您可以使用以下代码来读取不使用SQLContext的csv

from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Reading CSV") \
    .getOrCreate()

df_t = spark.read.csv('s3a://Bucket_name/Train - Copy.csv',header=True, inferSchema=True)
df_t.show()
© www.soinside.com 2019 - 2024. All rights reserved.