我正在尝试连接两个Dataframe。
数据:Dataframe[\u 1:bigint,\u 2:vector]
集群:Dataframe[cluster:bigint]
result = data.join(broadcast(cluster))
奇怪的是,所有的执行者在加入步骤上都失败了。
我不知道我能做什么。
hdfs上的数据文件是2.8gb,集群数据只有5mb。文件读取使用Parquet。
我正在尝试连接两个Dataframe。
数据:Dataframe[\u 1:bigint,\u 2:vector]
集群:Dataframe[cluster:bigint]
result = data.join(broadcast(cluster))
奇怪的是,所有的执行者在加入步骤上都失败了。
我不知道我能做什么。
hdfs上的数据文件是2.8gb,集群数据只有5mb。文件读取使用Parquet。
1条答案
按热度按时间xkrw2x1b1#
工作原理是:
将群集Dataframe直接添加到Dataframe中:
不起作用。
也不起作用,执行器在有足够内存的情况下失败。
不知道为什么不起作用。。。