Delimiter"\u0001 "不被Spark读出。

问题描述投票：0回答：1

当我使用spark read函数读取文件时，就像下面的代码一样，它不会自动解析数据，而是把所有的列都显示为一列。如果我使用其他定界符，如管道，它的工作正常，但我不喜欢使用其他定界符，因为它是操作数据库。大多数情况下，一些列的值里面有分隔符。

原始数据。

ID\u0001NAM\u0001USER
4 \u0001 foo \u0001 bar

代码：

delimiter = "\u0001"
df = spark.read.option("header", "true").option("sep", delimiter).option("inferSchema", "true").csv(file_path)

结果：

|ID\u0001NAM\u0001USER|
|4 \u0001 foo \u0001 bar|

我是不是做错了什么？以前在其他系统中也能用。

apache-spark

pyspark

delimiter

1个回答