Spark中sc.textFile和spark.read.text之间的区别

问题描述 投票:1回答:1

我试图将一个简单的文本文件读入Spark RDD,我发现有两种方法可以这样做:

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
sc = spark.sparkContext
textRDD1 = sc.textFile("hobbit.txt")
textRDD2 = spark.read.text('hobbit.txt').rdd

然后我查看数据,看到两个RDD的结构不同

textRDD1.take(5)

['The king beneath the mountain',
 'The king of carven stone',
 'The lord of silver fountain',
 'Shall come unto his own',
 'His throne shall be upholden']

textRDD2.take(5)

[Row(value='The king beneath the mountain'),
 Row(value='The king of carven stone'),
 Row(value='The lord of silver fountain'),
 Row(value='Shall come unto his own'),
 Row(value='His throne shall be upholden')]

基于此,必须改变所有后续处理以反映“价值”的存在

我的问题是

  • 使用这两种方式读取文本文件的含义是什么?
  • 在什么情况下我们应该使用哪种方法?
apache-spark rdd
1个回答
8
投票

回答(a),

sc.textFile(...)返回RDD[String]

textFile(String path, int minPartitions)

从HDFS读取文本文件,本地文件系统(在所有节点上都可用)或任何支持Hadoop的文件系统URI,并将其作为字符串的RDD返回。

spark.read.text(...)返回DataSet[Row]DataFrame

text(String path)

加载文本文件并返回一个DataFrame,其架构以名为“value”的字符串列开头,如果有,则返回分区列。

对于(b),它实际上取决于您的用例。既然你想在这里创建一个RDD,你应该选择sc.textFile。您始终可以将数据帧转换为rdd,反之亦然。

© www.soinside.com 2019 - 2024. All rights reserved.