Spark-tsv文件读取为空

问题描述投票：0回答：1

我有一个使用“ \ t”作为分隔符的.csv文件，我试图将其读取为：

DF =  sqlc.read.format('csv').option('header', 'true').option('delimiter', '\t').load('file.csv')

某些标题列名称以及数据值确实包含空格，但不包含制表符。此文件的标题已正确读取到DF的标题中，但没有数据读取到DataFrame中。我在做什么错？

python csv apache-spark formatting

1个回答

0
投票

您是否尝试过使用SparkSession API？

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
# spark_context = spark.sparkContext
csv = spark.read.csv(csv_path, sep="\t")
csv.show()

文档在这里：https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=csv#pyspark.sql.DataFrameReader.csv

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.