我有2个关于Spark序列化的问题,我只能通过谷歌搜索找不到答案。
val conf = new SparkConf()
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
conf.set("spark.kryo.registrationRequired", "false")
val spark = SparkSession.builder.master("local[*]").config(conf)
.appName("KryoWithRegistrationNOTRequired").getOrCreate
val df = spark.read.csv("09-MajesticMillion.csv")
df.persist(StorageLevel.MEMORY_ONLY_SER)
这是否意味着Kryo从未被用在第一位?
这意味着它。 Spark SQL(Dataset
)使用它自己的柱状存储来进行缓存。没有使用Java或Kryo序列化,因此spark.serializer
根本没有影响。