为什么不在spark中使用hadoop可写数据类型？

问题描述投票：1回答：1

在hadoop中，我们不使用Java序列化，因为它体积大且速度慢。因此hadoop提供了与Java序列化相比快速的Writable。

在spark中，我们默认使用Java序列化，如果我们不想使用Java序列化，则可以使用Kryo序列化。我的问题是，为什么（不能）在spark中使用hadoop可写序列化？我们知道它紧凑且快速。

在hadoop中，我们不使用Java序列化，因为它体积大且速度慢。因此hadoop提供了与Java序列化相比快速的Writable。在spark中，我们默认使用Java序列化，如果...

java

apache-spark

hadoop

serialization

kryo

1个回答

1
投票

您可以通过SparkContext的newAPIHadoop读取器/写入器方法使用输入和输出格式（由Writables键入）