假设我的任务可以被划分为子任务,这些子任务可以独立执行,自始至终不需要通信或共享资源。在这种情况下使用spark有意义吗?或者有没有其他更容易在hadoop集群上实现的解决方案。我的每个子任务都进行大量的restapi调用,我不确定spark是否适合这种处理(如果适合,我应该在每个节点上包含api服务吗?)。
编辑:假设我有10亿行数据可以分组成数千组。所有的数据不能放在一台机器上。n个组可以相互独立地处理。处理组意味着计算和对restapi的单个调用。
假设我的任务可以被划分为子任务,这些子任务可以独立执行,自始至终不需要通信或共享资源。在这种情况下使用spark有意义吗?或者有没有其他更容易在hadoop集群上实现的解决方案。我的每个子任务都进行大量的restapi调用,我不确定spark是否适合这种处理(如果适合,我应该在每个节点上包含api服务吗?)。
编辑:假设我有10亿行数据可以分组成数千组。所有的数据不能放在一台机器上。n个组可以相互独立地处理。处理组意味着计算和对restapi的单个调用。
暂无答案!
目前还没有任何答案,快来回答吧!