cassandra和pig集成-hadoop是可选的吗？

0aydgbwb 于 2021-06-21 发布在 Pig

关注(0)|答案(2)|浏览(301)

我在试着建立一个cassandra+pig集群。cassandrawiki听起来像是需要hadoop与pig集成。
但是cassandrasrc/contrib/pig中的自述文件听起来好像没有hadoop就可以在cassandra上运行pig。
如果hadoop是可选的，那么不使用它会有什么损失呢？

Java hadoop cassandra apache-pig

来源：https://stackoverflow.com/questions/8813432/cassandra-and-pig-integration-is-hadoop-optional

2条答案

按热度按时间

5us2dqdw1#

hadoop只是在测试时可选的。为了在任何规模上做任何事情，你也需要hadoop。
不使用hadoop运行意味着在本地模式下运行pig。这基本上意味着所有的数据都是由运行在同一个pig进程中的。对于单个节点和示例数据，这种方法可以很好地工作。
当运行大量数据或多台机器时，您希望在hadoop模式下运行pig。通过在cassandra节点上运行hadoop任务跟踪器，pig可以利用map reduce通过分配工作负载和使用数据局部性来减少网络传输提供的好处。

赞(0）回复(0）举报 2021-06-21

icnyk63a2#

这是可选的。cassandra有自己的pig的loadfunc和storefunc的实现，允许u查询和存储。
hadoop和cassandra在很多方面是不同的。如果你不知道你到底想完成什么，很难说出你失去了什么。

赞(0）回复(0）举报 2021-06-21