Parquet文件中的空值最佳做法

问题描述 投票:0回答:1

如果我有一个可能包含null值的字符串列,我试图找出最佳实践。在SQL数据库中,null是合法值,但是通过阅读,我发现很多问题和人们对镶木地板文件中的null值提出疑问。如果以后要使用国外的一组工具(例如Drill,Spark等)来处理这些镶木地板文件。以空值或空字符串存储空值的最佳方法是什么?

apache-spark null parquet apache-drill
1个回答
0
投票

这不是关于其他工具的问题,也不是关于业务逻辑的Spark的问题,因为许多其他应用程序将它们视为单独的逻辑实体,因此它们对null或空字符串""的考虑有所不同,

但是,如果您的应用程序将它们视为相同,则可以将它们标记为更安全的选项为空字符串"",这将避免该列将来出现的所有NullpointerExceptions

AFAIK所有其他大数据组件(包括Parquet文件格式的Drill,Spark等)都很好地处理null值。

© www.soinside.com 2019 - 2024. All rights reserved.