从PySpark中的HDFS读取* .XLSX文件

问题描述投票：0回答：2

如何在PySpark中从HDFS读取xlsx文件？一种方法是将其转换为csv文件，但我有很多文件，我正在寻找其他方法。

pyspark hdfs xlsx

2个回答

2
投票

我不认为你可以使用标准的火花库来做到这一点。您可能希望将此作为替代方案 - https://github.com/crealytics/spark-excel

0
投票

您可以使用SparkFiles直接读取它们：

# spark is a SparkSession instance
from pyspark import SparkFiles

spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
    do_whatever(handle)

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.