不知道为什么pig拉丁语在对数据集中的某个特定字段使用filter语句时会自动消除空记录,而无需程序员的意图。任何解释都更值得赞赏。
vmjh9lq91#
pig通常省略空值,这使得处理损坏的数据有点痛苦。pig为无效字段(null)生成警告,但不停止其处理在hadoop中,汤姆•怀特的权威指南是这样说的。处理这类问题的方法是要么用一些代码(如999)替换丢失的值,要么将数据按质量的好坏进行分割,然后看看发生了什么。通常,我们通过计算管道数据聚合各个步骤上的缺失值来检查数据质量。
1条答案
按热度按时间vmjh9lq91#
pig通常省略空值,这使得处理损坏的数据有点痛苦。
pig为无效字段(null)生成警告,但不停止其处理
在hadoop中,汤姆•怀特的权威指南是这样说的。
处理这类问题的方法是要么用一些代码(如999)替换丢失的值,要么将数据按质量的好坏进行分割,然后看看发生了什么。
通常,我们通过计算管道数据聚合各个步骤上的缺失值来检查数据质量。