我在两个Dataframe上做左外连接,其中左Dataframe的计数是x,右Dataframe的计数是y。我在本地机器和集群上做这个操作,问题是在本地模式和集群上连接后的记录数是不同的。
用于连接的两个Dataframe在本地和群集上的记录计数相同,连接条件也相同。但加入后的记录数在本地和集群中是不同的。
我在本地和集群中都使用spark版本2.4.0。
我在两个Dataframe上做左外连接,其中左Dataframe的计数是x,右Dataframe的计数是y。我在本地机器和集群上做这个操作,问题是在本地模式和集群上连接后的记录数是不同的。
用于连接的两个Dataframe在本地和群集上的记录计数相同,连接条件也相同。但加入后的记录数在本地和集群中是不同的。
我在本地和集群中都使用spark版本2.4.0。
暂无答案!
目前还没有任何答案,快来回答吧!