我有一个使用“ \ t”作为分隔符的.csv文件,我试图将其读取为:
DF = sqlc.read.format('csv').option('header', 'true').option('delimiter', '\t').load('file.csv')
某些标题列名称以及数据值确实包含空格,但不包含制表符。此文件的标题已正确读取到DF的标题中,但没有数据读取到DataFrame中。我在做什么错?
您是否尝试过使用SparkSession
API?
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
# spark_context = spark.sparkContext
csv = spark.read.csv(csv_path, sep="\t")
csv.show()