使用spark解析包含逗号和引号的单元格的csv文件

问题描述 投票:0回答:1

我的 CSV 文件有超过 30 列,其中一些列代表 json 字符串,如 -

"{""name"": ""value1"",""name2"": ""value2""}"

我正在尝试使用 scala Spark 解析此 csv 文件。但是

,
之后的值被视为单独的列而不是同一列。

这就是我读取 csv 文件的方式:

val spark = SparkSession.builder
  .appName("ReadCSVExample")
  .master("local")  // Set your master URL appropriately
  .getOrCreate()

val csvOptions = Map(
  "header" -> "true",          // If CSV has header row
)

val df: DataFrame = spark.read.options(csvOptions).csv(csvFilePath)

我已经尝试过将“escapeQuote”设置为true,但没有成功。有人可以帮忙吗

json scala csv apache-spark parsing
1个回答
0
投票

使用这些选项来转义引号:

.option("quote", "\"")
.option("escape", "\"")
© www.soinside.com 2019 - 2024. All rights reserved.