parquet文件中的null值最佳实践

rta7y2nd  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(819)

如果我有一个可能为空值的字符串列,我试图找出最佳实践是什么。
在sql数据库中,null是一个合法的值,但是通过阅读我发现了很多关于parquet文件中null值的问题和人们的疑问。
如果我想稍后使用一组工具(如drill、spark等)处理这些Parquet文件,那么存储null值(如null或空字符串)的最佳方法是什么?

mutmk8jj

mutmk8jj1#

这不是关于其他工具,也不是关于你的业务逻辑 null 或者一个空字符串 "" 不同的是,许多其他应用程序将它们视为独立的逻辑实体,
但如果您的应用程序对它们的处理方式相同,那么您可以将它们标记为空字符串,使其成为更安全的选项 "" 这将避免所有的未来 NullpointerExceptions 为了那个专栏。
afaik所有其他大数据组件(drill、spark等,包括Parquet文件格式)处理 null 价值很高。

相关问题