pig如何处理非结构化数据而hive不能？

zf9nrax1 于 2021-06-24 发布在 Pig

关注(0)|答案(2)|浏览(504)

根据本文和其他参考资料，pig比hive更适合处理非结构化数据。因此，数据首先用pig清理，然后用hive处理。
但是，在数据工厂中，数据可能还没有处于良好的、标准化的状态。这也使得pig非常适合这个用例，因为它支持部分或未知模式的数据，以及半结构化或非结构化数据。
想知道更多pig如何处理非结构化数据而hive不能。

Hive apache-pig comparison

来源：https://stackoverflow.com/questions/14292802/how-does-pig-handle-unstructured-data-while-hive-cant

2条答案

按热度按时间

zkure5ic1#

pig是为处理无模式的数据集而构建的。然而在hive中，我们强制执行一个存储在derby中的模式，或者可以配置为存储在mysql中的模式。现在还不清楚您在寻找什么！

赞(0）回复(0）举报 2021-06-24

mzmfm0qo2#

pig和hive的关键区别在于pig是一种数据流语言，而hive是一种声明性语言。也就是说，pig可以处理未定义模式的非结构化数据，而hive需要一个模式。此外，在某些情况下，pig还可以用于将数据与一个模式连接起来，从而使其在hive中占上风。相比之下，hive将hadoop转换成数据仓库，并像sql方言一样工作。最后，您可能想了解另一种数据流语言jaql。与pig不同，它的原生数据结构格式是json。类似地，jaql不需要模式。希望这有帮助。

赞(0）回复(0）举报 2021-06-24

我来回答

pig如何处理非结构化数据而hive不能？

2条答案

相关问题

热门标签

最新问答