hadoop—hive上r的处理能力

tcomlyy6  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(398)

如果r只是将所有数据从hive带到内存(特别是统计分析)中,并在内存中进行处理(内存大小受到ram大小的限制),那么在hive节点上使用r有什么好处呢?

btqmn9zl

btqmn9zl1#

您可以使用配置单元分区分割数据,然后要在其上构建模型的数据块将位于同一服务器中。在这些分区上,您可以运行r streaming或使用sparkr来构建模型或进行评分。实际上,您将得到并行化。
这样做确实会将数据带到内存中,但这将是不同Yarn/Mesos容器内存的内存,所有内存都是并行工作的。e、 在带有spark的hadoop分布式情况下,内存并不意味着所有数据都转储到驱动程序内存中,而是每个容器都有自己的内存。

相关问题