使用 Pyspark 读取 UTF-16 文本文件时出现问题

问题描述 投票:0回答:1

我正在尝试使用 pyspark dataframe 读取 UTF-16 文件。读取时,如果文件中有空格,则在使用 df.display() 显示时显示为方框。如何正确阅读此内容?

df = spark.read.option("delimiter","|") \
        .option("header","True") \
        .option("encoding", "UTF-16") \
        .option("multiline",'True') \
        .csv(f"<<path>>")

错误截图: Space in file while reading through dataframe

apache-spark pyspark utf-16
1个回答
0
投票

你必须使用这个语法

.option("encoding", "UTF-16")
© www.soinside.com 2019 - 2024. All rights reserved.