使用多行选项和编码选项读取CSV

问题描述 投票:1回答:1

在Azure Databricks中,当我使用multiline = 'true'encoding = 'SJIS'读取CSV文件时,似乎编码选项被忽略了。如果我使用multiline选项spark使用其默认的encoding,即UTF-8,但是我的文件是SJIS格式。是否有解决方案,需要任何帮助。这是我正在使用的代码,并且正在使用pyspark。

df= sqlContext.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',encoding='SJIS',multiline='true').load('/mnt/Data/Data.tsv')
python azure pyspark apache-spark-sql databricks
1个回答
0
投票

根据我的研究,当我们在Azure数据提示中读取csv文件时,它不支持多行选项。因此,我建议您如下更新代码。

df= spark.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',charset='SJIS').load('/FileStore/tables/test.csv')

enter image description here有关更多详细信息,请参阅https://docs.databricks.com/data/data-sources/read-csv.htmlenter image description here

© www.soinside.com 2019 - 2024. All rights reserved.