我在尝试比较两个pysparkDataframe的模式时遇到了一个问题。
如果我使用 df1.schema == df2.schema
它有时会回来 True
但有时会回来 False
(我确信模式是匹配的)
但是,当我使用 df1.printSchema() == df2.printSchema()
,输出总是 True
.
我知道df.schema的数据类型是pyspark.sql.types.structtype,但是为什么它有时会给出错误的比较结果呢?是Pypark里的虫子吗?
1条答案
按热度按时间63lcw9qa1#
如果您正在使用
pyspark
得到dtypes
返回List[(column_name, data_type)]
比较如下: