pig如何处理非结构化数据而hive不能?

zf9nrax1  于 2021-06-24  发布在  Pig
关注(0)|答案(2)|浏览(504)

根据本文和其他参考资料,pig比hive更适合处理非结构化数据。因此,数据首先用pig清理,然后用hive处理。
但是,在数据工厂中,数据可能还没有处于良好的、标准化的状态。这也使得pig非常适合这个用例,因为它支持部分或未知模式的数据,以及半结构化或非结构化数据。
想知道更多pig如何处理非结构化数据而hive不能。

zkure5ic

zkure5ic1#

pig是为处理无模式的数据集而构建的。然而在hive中,我们强制执行一个存储在derby中的模式,或者可以配置为存储在mysql中的模式。现在还不清楚您在寻找什么!

mzmfm0qo

mzmfm0qo2#

pig和hive的关键区别在于pig是一种数据流语言,而hive是一种声明性语言。也就是说,pig可以处理未定义模式的非结构化数据,而hive需要一个模式。此外,在某些情况下,pig还可以用于将数据与一个模式连接起来,从而使其在hive中占上风。相比之下,hive将hadoop转换成数据仓库,并像sql方言一样工作。最后,您可能想了解另一种数据流语言jaql。与pig不同,它的原生数据结构格式是json。类似地,jaql不需要模式。希望这有帮助。

相关问题