为什么不在spark中使用hadoop可写数据类型?

问题描述 投票:1回答:1

在hadoop中,我们不使用Java序列化,因为它体积大且速度慢。因此hadoop提供了与Java序列化相比快速的Writable。

在spark中,我们默认使用Java序列化,如果我们不想使用Java序列化,则可以使用Kryo序列化。我的问题是,为什么(不能)在spark中使用hadoop可写序列化?我们知道它紧凑且快速。

在hadoop中,我们不使用Java序列化,因为它体积大且速度慢。因此hadoop提供了与Java序列化相比快速的Writable。在spark中,我们默认使用Java序列化,如果...

java apache-spark hadoop serialization kryo
1个回答
1
投票

您可以通过SparkContext的newAPIHadoop读取器/写入器方法使用输入和输出格式(由Writables键入)

© www.soinside.com 2019 - 2024. All rights reserved.