我需要对考拉Dataframe执行元素操作。我使用考拉applymap方法。在执行时,考拉将所有数据移动到一个分区,然后应用该操作。结果是工作表现很差。
>>> sdf = spark.range(0, 10**7, 1, 10).toDF('col1').withColumn('col2', F.lit('[1,2]'))
>>> kdf = ks.DataFrame(sdf)
>>> kdf_new = kdf[['col2']].applymap(eval)
WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
如何强制考拉不洗牌数据并在现有分区中应用该操作?
暂无答案!
目前还没有任何答案,快来回答吧!