清管器过滤语句自动消除空记录

um6iljoc  于 2021-06-24  发布在  Pig
关注(0)|答案(1)|浏览(288)

不知道为什么pig拉丁语在对数据集中的某个特定字段使用filter语句时会自动消除空记录,而无需程序员的意图。任何解释都更值得赞赏。

vmjh9lq9

vmjh9lq91#

pig通常省略空值,这使得处理损坏的数据有点痛苦。
pig为无效字段(null)生成警告,但不停止其处理
在hadoop中,汤姆•怀特的权威指南是这样说的。
处理这类问题的方法是要么用一些代码(如999)替换丢失的值,要么将数据按质量的好坏进行分割,然后看看发生了什么。
通常,我们通过计算管道数据聚合各个步骤上的缺失值来检查数据质量。

相关问题