在Azure Databricks中,当我使用multiline = 'true'
和encoding = 'SJIS'
读取CSV文件时,似乎编码选项被忽略了。如果我使用multiline
选项spark使用其默认的encoding
,即UTF-8
,但是我的文件是SJIS
格式。是否有解决方案,需要任何帮助。这是我正在使用的代码,并且正在使用pyspark。
df= sqlContext.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',encoding='SJIS',multiline='true').load('/mnt/Data/Data.tsv')
根据我的研究,当我们在Azure数据提示中读取csv文件时,它不支持多行选项。因此,我建议您如下更新代码。
df= spark.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',charset='SJIS').load('/FileStore/tables/test.csv')
有关更多详细信息,请参阅https://docs.databricks.com/data/data-sources/read-csv.html。