火花读取字符串中的逗号的csv。

Question

536381,22411,JUMBO SHOPPER VINTAGE RED PAISLEY,10,1212010 9:41,1.95,15311,英国。

"536381,82567,""AIRLINE LOUNGE,METAL SIGN"",2,1212010 9:41,2.1,15311,United Kingdom"

536381,21672,白色斑点红色陶瓷拉手把手,6,1212010 9:41,1.25,15311,英国。

这些行是一个csv文件中的行的例子.我试图在Databricks中读取它，使用.但，中间的行和其他类似的字符串不能进入正确的列。

df = spark.read.csv ('file.csv', sep=',', inferSchema = 'true', quote = '"')

但是，中间的那行和其他类似的行不能进入正确的列，因为字符串中的逗号。如何解决这个问题？

Answer 1

设置报价为。

'""'

df = spark.read.csv('file.csv', sep=',', inferSchema = 'true', quote = '""')

看起来你的数据有双引号所以当它被读取时，它把双引号看作是字符串的开始和结束。

编辑：我也是假设问题出在这部分。

""AIRLINE LOUNGE,METAL SIGN""