直接使用来自HDFS的数据训练ML模型的好策略

mwkjh3gx  于 2023-01-19  发布在  HDFS
关注(0)|答案(1)|浏览(211)

我想在一个计算节点上训练一个模型,但使用的是存储集群(HDFS)中的数据(parquet格式),而且我无法将HDFS中的整个数据集复制粘贴到我的计算节点上。
我做了一些研究,似乎Petastorm是一个有前途的解决方案。
然而,我发现another post说,引用,
建议的工作流程为:
使用Apache Spark加载和预处理数据(可选)。
使用Petastorm spark_dataset_converter方法将数据从Spark数据框转换为TensorFlow数据集或PyTorch数据加载器。
将数据输入DL框架进行训练或推理。
我不知道为什么我需要PySpark。所以我想知道是否有人知道为什么?如果有人做过类似的用例,你也可以分享你的解决方案吗?提前感谢!

lyr7nygr

lyr7nygr1#

如果文档说它可以使用Spark Dataframe ,那么是的,这将意味着PySpark。
(Py)Spark本身也有机器学习算法。
有人知道为什么吗?
正如您所说-您不能将训练数据集直接加载到一个节点中。

相关问题