直接使用来自HDFS的数据训练ML模型的好策略

mwkjh3gx 于 2023-01-19 发布在 HDFS

关注(0)|答案(1)|浏览(210)

我想在一个计算节点上训练一个模型，但使用的是存储集群（HDFS）中的数据（parquet格式），而且我无法将HDFS中的整个数据集复制粘贴到我的计算节点上。
我做了一些研究，似乎Petastorm是一个有前途的解决方案。
然而，我发现another post说，引用，
建议的工作流程为：
使用Apache Spark加载和预处理数据（可选）。
使用Petastorm spark_dataset_converter方法将数据从Spark数据框转换为TensorFlow数据集或PyTorch数据加载器。
将数据输入DL框架进行训练或推理。
我不知道为什么我需要PySpark。所以我想知道是否有人知道为什么？如果有人做过类似的用例，你也可以分享你的解决方案吗？提前感谢！

hdfs

来源：https://stackoverflow.com/questions/75138877/good-strategy-training-a-ml-model-directly-using-data-from-a-hdfs