我在试着建立一个cassandra+pig集群。cassandrawiki听起来像是需要hadoop与pig集成。但是cassandrasrc/contrib/pig中的自述文件听起来好像没有hadoop就可以在cassandra上运行pig。如果hadoop是可选的,那么不使用它会有什么损失呢?
5us2dqdw1#
hadoop只是在测试时可选的。为了在任何规模上做任何事情,你也需要hadoop。不使用hadoop运行意味着在本地模式下运行pig。这基本上意味着所有的数据都是由运行在同一个pig进程中的。对于单个节点和示例数据,这种方法可以很好地工作。当运行大量数据或多台机器时,您希望在hadoop模式下运行pig。通过在cassandra节点上运行hadoop任务跟踪器,pig可以利用map reduce通过分配工作负载和使用数据局部性来减少网络传输提供的好处。
icnyk63a2#
这是可选的。cassandra有自己的pig的loadfunc和storefunc的实现,允许u查询和存储。hadoop和cassandra在很多方面是不同的。如果你不知道你到底想完成什么,很难说出你失去了什么。
2条答案
按热度按时间5us2dqdw1#
hadoop只是在测试时可选的。为了在任何规模上做任何事情,你也需要hadoop。
不使用hadoop运行意味着在本地模式下运行pig。这基本上意味着所有的数据都是由运行在同一个pig进程中的。对于单个节点和示例数据,这种方法可以很好地工作。
当运行大量数据或多台机器时,您希望在hadoop模式下运行pig。通过在cassandra节点上运行hadoop任务跟踪器,pig可以利用map reduce通过分配工作负载和使用数据局部性来减少网络传输提供的好处。
icnyk63a2#
这是可选的。cassandra有自己的pig的loadfunc和storefunc的实现,允许u查询和存储。
hadoop和cassandra在很多方面是不同的。如果你不知道你到底想完成什么,很难说出你失去了什么。