如果r只是将所有数据从hive带到内存(特别是统计分析)中,并在内存中进行处理(内存大小受到ram大小的限制),那么在hive节点上使用r有什么好处呢?
btqmn9zl1#
您可以使用配置单元分区分割数据,然后要在其上构建模型的数据块将位于同一服务器中。在这些分区上,您可以运行r streaming或使用sparkr来构建模型或进行评分。实际上,您将得到并行化。这样做确实会将数据带到内存中,但这将是不同Yarn/Mesos容器内存的内存,所有内存都是并行工作的。e、 在带有spark的hadoop分布式情况下,内存并不意味着所有数据都转储到驱动程序内存中,而是每个容器都有自己的内存。
1条答案
按热度按时间btqmn9zl1#
您可以使用配置单元分区分割数据,然后要在其上构建模型的数据块将位于同一服务器中。在这些分区上,您可以运行r streaming或使用sparkr来构建模型或进行评分。实际上,您将得到并行化。
这样做确实会将数据带到内存中,但这将是不同Yarn/Mesos容器内存的内存,所有内存都是并行工作的。e、 在带有spark的hadoop分布式情况下,内存并不意味着所有数据都转储到驱动程序内存中,而是每个容器都有自己的内存。