536381,22411,JUMBO SHOPPER VINTAGE RED PAISLEY,10,1212010 9:41,1.95,15311,英国。
"536381,82567,""AIRLINE LOUNGE,METAL SIGN"",2,1212010 9:41,2.1,15311,United Kingdom"
536381,21672,白色斑点红色陶瓷拉手把手,6,1212010 9:41,1.25,15311,英国。
这些行是一个csv文件中的行的例子.我试图在Databricks中读取它,使用.但,中间的行和其他类似的字符串不能进入正确的列。
df = spark.read.csv ('file.csv', sep=',', inferSchema = 'true', quote = '"')
但是,中间的那行和其他类似的行不能进入正确的列,因为字符串中的逗号。如何解决这个问题?
设置报价为。
'""'
df = spark.read.csv('file.csv', sep=',', inferSchema = 'true', quote = '""')
看起来你的数据有双引号 所以当它被读取时,它把双引号看作是字符串的开始和结束。
编辑:我也是假设问题出在这部分。
""AIRLINE LOUNGE,METAL SIGN""