我有大量的数据(图像),使用机器学习模型(CNN)来处理图像并给出结果。作为spark工作表现的一部分,我试图看到内部spark(YARN)工作流。Spark UI显示了Job,Stages - DAG,Executors和worker节点的详细信息,但我试图在控制台中查找/打印RDD的内容。有没有可能找到每个节点中的图像是如何分块的?
我试过df. rdd。glom().collect()并没有打印任何东西,df。collect()给出了数组的数组格式的图像值,但它是统一的。谢谢你的帮助
我有大量的数据(图像),使用机器学习模型(CNN)来处理图像并给出结果。作为spark工作表现的一部分,我试图看到内部spark(YARN)工作流。Spark UI显示了Job,Stages - DAG,Executors和worker节点的详细信息,但我试图在控制台中查找/打印RDD的内容。有没有可能找到每个节点中的图像是如何分块的?
我试过df. rdd。glom().collect()并没有打印任何东西,df。collect()给出了数组的数组格式的图像值,但它是统一的。谢谢你的帮助
1条答案
按热度按时间webghufk1#
Spark将数据加载到分区中,每个分区都在一个工作节点中。Spark提供了一个名为
foreachPartition
的分区迭代函数,你可以用它来打印每个分区的内容和与之关联的工作节点,下面是一个伪代码: