Delimiter"\u0001 "不被Spark读出。

问题描述 投票:0回答:1

当我使用spark read函数读取文件时,就像下面的代码一样,它不会自动解析数据,而是把所有的列都显示为一列。如果我使用其他定界符,如管道,它的工作正常,但我不喜欢使用其他定界符,因为它是操作数据库。大多数情况下,一些列的值里面有分隔符。

原始数据。

ID\u0001NAM\u0001USER
4 \u0001 foo \u0001 bar 

代码:

delimiter = "\u0001"
df = spark.read.option("header", "true").option("sep", delimiter).option("inferSchema", "true").csv(file_path)

结果:

|ID\u0001NAM\u0001USER|
|4 \u0001 foo \u0001 bar|

我是不是做错了什么?以前在其他系统中也能用。

apache-spark pyspark delimiter
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.