我正在使用pyspark在azuredatabricks中编程一个缓慢变化的维度工作流。在某一点上,我必须过滤掉发生在同一天的更新,并对待他们有点不同于日间更新。为此,我做了以下工作:
daily_updates_df = updates_df.where(delivery_df[effective_from] == target_delta_df[effective_from])
updates_df = updates_df.subtract(daily_updates_df)
包含每日更新的数据框已正确填写,但尝试从更新中减去时,不会减去任何内容。但是,在使用
daily_updates_df = updates_df.where(delivery_df[effective_from] == target_delta_df[effective_from])
updates_df = updates_df.exceptAll(daily_updates_df)
一切正常。这在以前的一个类似示例中发生过,并导致我在调试它时浪费了很多时间。
你知道这是怎么回事吗?
暂无答案!
目前还没有任何答案,快来回答吧!