无法将2.3tb文件加载到具有10tb内存的sparkling water集群中

mtb9vblg  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(216)

起泡水版本2.2.9存在以下问题。我的hadoop集群运行的是cdh5.13。根据h2o文档,我应该拥有大约4倍于h2o/sparkling water集群中数据大小的内存。
我可以将一个750gb大小的数据文件(csv)导入一个有4tb内存的sparklingwater集群(40个执行器,每个100gb)。但是,在加载更大的数据文件时遇到问题。这个(csv)文件大约有2.2tb大小(也有Parquet/snappy格式,550gb大小)。我已经创建了一个有100个100gb/executor执行器的sparklingwater集群。“解析”步骤运行大约60-70%,然后容器开始失败,错误代码为143和255。我已经把内存提高到12 tb,但仍然没有成功。
python代码是:

import h2o
h2o.init(ip='hdchdp01v03', port=9500, strict_version_check=False)
ls_hdfs="hdfs://HDCHDP01ns/h2o_test/csv_20171004"
print("Reading files from ", ls_hdfs)
sum_df = h2o.import_file(path = ls_hdfs, destination_frame="sum_df")

有人遇到过类似的问题吗?我的hadoop集群只有20tb内存,所以占用12tb内存本身在大多数情况下都是一段时间。
在我的第一个文件中,我看到数据导入集群后,似乎需要大约两倍于内存中的文件大小,但不确定如何恢复我分配的4x内存,直到sparkling water集群关闭。
那么,有没有其他的解决方法可以将这些数据加载到h2o中进行分析,并对可用的集群内存进行一些尽职调查?
香卡

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题