cassandra和pig集成-hadoop是可选的吗?

0aydgbwb  于 2021-06-21  发布在  Pig
关注(0)|答案(2)|浏览(300)

我在试着建立一个cassandra+pig集群。cassandrawiki听起来像是需要hadoop与pig集成。
但是cassandrasrc/contrib/pig中的自述文件听起来好像没有hadoop就可以在cassandra上运行pig。
如果hadoop是可选的,那么不使用它会有什么损失呢?

5us2dqdw

5us2dqdw1#

hadoop只是在测试时可选的。为了在任何规模上做任何事情,你也需要hadoop。
不使用hadoop运行意味着在本地模式下运行pig。这基本上意味着所有的数据都是由运行在同一个pig进程中的。对于单个节点和示例数据,这种方法可以很好地工作。
当运行大量数据或多台机器时,您希望在hadoop模式下运行pig。通过在cassandra节点上运行hadoop任务跟踪器,pig可以利用map reduce通过分配工作负载和使用数据局部性来减少网络传输提供的好处。

icnyk63a

icnyk63a2#

这是可选的。cassandra有自己的pig的loadfunc和storefunc的实现,允许u查询和存储。
hadoop和cassandra在很多方面是不同的。如果你不知道你到底想完成什么,很难说出你失去了什么。

相关问题