将pyspark Dataframe 转换为字典过滤并从列中收集值

qxsslcnc 于 2022-12-26 发布在 Spark

关注(0)|答案(1)|浏览(113)

我需要将此DataFrame转换为字典：
| 识别号|值-1|值-2|值-3|
| - ------| - ------| - ------| - ------|
| 1A|批准|零|零|
| 2B类|批准|批准|零|
| 3C语言|零|零|批准|
输出：

{'1A': [value-1], '2B': [value-1,value-2], '3C': [value-3]}

注意，我使用DataFrame第一列的值作为字典的键。

pyspark

来源：https://stackoverflow.com/questions/74879306/convert-a-pyspark-dataframe-into-a-dictionary-filtering-and-collecting-values-fr

1条答案

按热度按时间

vsikbqxv1#

基于array和array_remove，您可以使用如下代码：

from pyspark.sql import functions as F

# Set column to be used to get keys of the dict 
# and columns to be used to compute the values of the dict
dict_key = df.columns[0]
entry_cols = df.columns[1:]

{
    r[dict_key]: r.dict_entry
     for r in (
        df
        .select(
            dict_key,
            F.array_remove(
                F.array(*[
                    F.when(F.col(c) == 'Approve', F.lit(c)).otherwise('NULL')
                    for c in entry_cols
                ]),
                'NULL',
            ).alias('dict_entry')
        )
        .collect()
    )
}

这就是结果：

{'1A': ['value-1'], '2B': ['value-1', 'value-2'], '3C': ['value-3']}

赞(0）回复(0）举报 2022-12-26

我来回答

将pyspark Dataframe 转换为字典过滤并从列中收集值

1条答案

相关问题

热门标签

最新问答