我有这样一个PyparkDataframe: `+
23c0lvtd1#
egmofgnx2#
试试这个-用scala编写,但是可以移植到pyspark,只需很少的改动
df.select(map_from_arrays(collect_list("name").as("name"), collect_list("value").as("value")).as("map")) .select(explode_outer($"map").as(Seq("name", "value"))) .show(false) /** * +----+-----+ * |name|value| * +----+-----+ * |id |1 | * |name|Joe | * |age |47 | * |food|pizza| * +----+-----+ */
wnvonmuf3#
chhqkbe14#
+我尝试过删除空值df.dropna(how='any'/'all')` 但是,通过分离列并删除空值,很难将它们重新连接在一起。
我尝试过删除空值
fcy6dtqo5#
juzqafwq6#
to94eoyn7#
8yparm6h8#
kokeuurv9#
tyg4sfes10#
kyxcudwk11#
ttisahbt12#
0yycz8jy13#
+我想从每个单独的列中删除空值,这样非空数据就可以排列起来。 所需输出为:+
我想从每个单独的列中删除空值,这样非空数据就可以排列起来。 所需输出为:
13条答案
按热度按时间23c0lvtd1#
egmofgnx2#
试试这个-用scala编写,但是可以移植到pyspark,只需很少的改动
wnvonmuf3#
chhqkbe14#
+
我尝试过删除空值
df.dropna(how='any'/'all')` 但是,通过分离列并删除空值,很难将它们重新连接在一起。fcy6dtqo5#
juzqafwq6#
to94eoyn7#
8yparm6h8#
kokeuurv9#
tyg4sfes10#
kyxcudwk11#
ttisahbt12#
0yycz8jy13#
+
我想从每个单独的列中删除空值,这样非空数据就可以排列起来。 所需输出为:
+