pyspark csv at url to dataframe，无需写入磁盘

问题描述投票：3回答：1

如何在Pyspark中将URL中的csv读入数据帧而不将其写入磁盘？

我试过以下没有运气：

import urllib.request
from io import StringIO

url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/data/iris.csv"
response = urllib.request.urlopen(url)
data = response.read()      
text = data.decode('utf-8')  


f = StringIO(text)

df1 = sqlContext.read.csv(f, header = True, schema=customSchema)
df1.show()

csv apache-spark pyspark

1个回答

2
投票

TL; DR这是不可能的，通常通过驱动程序传输数据是一个死胡同。

在Spark 2.3之前，csv阅读器只能从URI读取（并且不支持http）。
在Spark 2.3中，您使用RDD： spark.read.csv(sc.parallelize(text.splitlines())) 但数据将写入磁盘。
你可以从熊猫createDataFrame： spark.createDataFrame(pd.read_csv(url))) 但这又一次写入磁盘

如果文件很小我只使用sparkFiles：

from pyspark import SparkFiles

spark.sparkContext.addFile(url)

spark.read.csv(SparkFiles.get("iris.csv"), header=True))

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.