Spark-tsv文件读取为空

问题描述 投票:0回答:1

我有一个使用“ \ t”作为分隔符的.csv文件,我试图将其读取为:

DF =  sqlc.read.format('csv').option('header', 'true').option('delimiter', '\t').load('file.csv')

某些标题列名称以及数据值确实包含空格,但不包含制表符。此文件的标题已正确读取到DF的标题中,但没有数据读取到DataFrame中。我在做什么错?

python csv apache-spark formatting
1个回答
0
投票

您是否尝试过使用SparkSession API?

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
# spark_context = spark.sparkContext
csv = spark.read.csv(csv_path, sep="\t")
csv.show()

文档在这里:https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=csv#pyspark.sql.DataFrameReader.csv

© www.soinside.com 2019 - 2024. All rights reserved.