火花读取字符串中的逗号的csv。

问题描述 投票:1回答:1

536381,22411,JUMBO SHOPPER VINTAGE RED PAISLEY,10,1212010 9:41,1.95,15311,英国。

"536381,82567,""AIRLINE LOUNGE,METAL SIGN"",2,1212010 9:41,2.1,15311,United Kingdom"

536381,21672,白色斑点红色陶瓷拉手把手,6,1212010 9:41,1.25,15311,英国。

这些行是一个csv文件中的行的例子.我试图在Databricks中读取它,使用.但,中间的行和其他类似的字符串不能进入正确的列。

df = spark.read.csv ('file.csv', sep=',', inferSchema = 'true', quote = '"')

但是,中间的那行和其他类似的行不能进入正确的列,因为字符串中的逗号。如何解决这个问题?

csv pyspark delimiter databricks
1个回答
0
投票

设置报价为。

'""'
df = spark.read.csv('file.csv', sep=',', inferSchema = 'true', quote = '""')

看起来你的数据有双引号 所以当它被读取时,它把双引号看作是字符串的开始和结束。

编辑:我也是假设问题出在这部分。

""AIRLINE LOUNGE,METAL SIGN""
© www.soinside.com 2019 - 2024. All rights reserved.