尝试从带有分隔符“|”的文件创建数据框

问题描述 投票:0回答:2

我想加载一个包含分隔符“|”的文本文件进入Spark中的Dataframe。一种方法是创建RDD并使用toDF来创建Dataframe。但是我想知道我是否可以直接创建DF。截至目前,我正在使用以下命令

val productsDF = sqlContext.read.text("/user/danishdshadab786/paper2/products/")
scala apache-spark dataframe
2个回答
3
投票

For Spark 2.x

val df = spark.read.format("csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

For Spark<2.0

val df = sqlContext.read
      .format("com.databricks.spark.csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

您可以添加更多选项,如option("header", "true"),以便在同一语句中读取标题。


0
投票

您可以在“读取”选项中指定分隔符:

spark.read
.option("delimiter", "|")
.csv("/user/danishdshadab786/paper2/products/")
© www.soinside.com 2019 - 2024. All rights reserved.