在PySpark中更新一个列，同时执行多个内部联接？

jdzmm42g 于 2022-11-01 发布在 Spark

关注(0)|答案(2)|浏览(260)

我有一个SQL查询，我想把它转换成PySpark。在SQL查询中，我们连接了 * 三 * 个表，并更新了一个匹配的列。SQL查询如下所示：

UPDATE [DEPARTMENT_DATA]
INNER JOIN ([COLLEGE_DATA]
            INNER JOIN [STUDENT_TABLE]
            ON COLLEGE_DATA.UNIQUEID = STUDENT_TABLE.PROFESSIONALID)
ON DEPARTMENT_DATA.PUBLICID = COLLEGE_DATA.COLLEGEID
SET STUDENT_TABLE.PRIVACY = "PRIVATE"

这个逻辑我已经试过了：

df_STUDENT_TABLE = (
    df_STUDENT_TABLE.alias('a')
    .join(
        df_COLLEGE_DATA('b'),
        on=F.col('a.PROFESSIONALID') == F.col('b.UNIQUEID'),
        how='left',
    )
    .join(
        df_DEPARTMENT_DATA.alias('c'),
        on=F.col('b.COLLEGEID') == F.col('c.PUBLICID'),
        how='left',
    )
    .select(
        *[F.col(f'a.{c}') for c in df_STUDENT_TABLE.columns],
        F.when(
            F.col('b.UNIQUEID').isNotNull() & F.col('c.PUBLICID').isNotNull()
            F.lit('PRIVATE')
        ).alias('PRIVACY')
    )
)

这段代码添加了一个新的列“PRIVACY”，但是在运行后给出了空值。

pyspark

来源：https://stackoverflow.com/questions/74208732/update-a-column-in-pyspark-while-doing-multiple-inner-joins

2条答案

按热度按时间

vxf3dgd41#

我已经获取了一些示例数据，当我使用条件应用连接时，得到的结果如下（要求是以下记录的隐私需要设置为PRIVATE）

%sql

select student.*,college.*,department.* from department INNER JOIN college INNER JOIN student
ON college.unique_id = student.professional_id and department.public_id = college.college_id

当我使用您的代码（相同的逻辑）时，我得到了相同的输出，即，一个附加列被添加到 Dataframe 中，其中包含所需的值，而实际的privacy列为空。

from pyspark.sql.functions import col,when,lit

df_s = df_s.alias('a').join(df_c.alias('b'), col('a.professional_id') == col('b.unique_id'),'left').join(df_d.alias('c'), col('b.college_id') == col('c.public_id'),'left').select(*[col(f'a.{c}') for c in df_s.columns],when(col('b.unique_id').isNotNull() & col('c.public_id').isNotNull(), 'PRIVATE').otherwise(col('a.privacy')).alias('req_value'))
df_s.show()

由于req_value是具有所需值的列，并且这些值需要在privacy中反映出来，因此可以直接使用下面的代码。

final = df_s.withColumn('privacy',col('req_value')).select([column for column in df_s.columns if column!='req_value'])
final.show()

更新日期：

您还可以使用下面的代码，其中我使用withColumn而不是select更新了列。

df_s = df_s.alias('a').join(df_c.alias('b'), col('a.professional_id') == col('b.unique_id'),'left').join(df_d.alias('c'), col('b.college_id') == col('c.public_id'),'left').withColumn('privacy',when(col('b.unique_id').isNotNull() & col('c.public_id').isNotNull(), 'PRIVATE').otherwise(col('privacy'))).select(*df_s.columns)

# or you can use this as well, without using alias.

# df_s = df_s.join(df_c, df_s['professional_id'] == df_c['unique_id'],'left').join(df_d, df_c['college_id'] == df_d['public_id'],'left').withColumn('privacy',when(df_c['unique_id'].isNotNull() & df_d['public_id'].isNotNull(), 'PRIVATE').otherwise(df_s['privacy'])).select(*df_s.columns)

df_s.show()

赞(0）回复(0）举报 2022-11-01

z9gpfhce2#

在连接之后，您可以使用**nvl2**。它可以检查与最后一个 Dataframe （df_dept）的连接是否成功，如果成功，则您可以返回“PRIVATE”，否则返回df_stud.PRIVACY中的值。
输入：

from pyspark.sql import functions as F
df_stud = spark.createDataFrame([(1, 'x'), (2, 'STAY')], ['PROFESSIONALID', 'PRIVACY'])
df_college = spark.createDataFrame([(1, 1)], ['COLLEGEID', 'UNIQUEID'])
df_dept = spark.createDataFrame([(1,)], ['PUBLICID'])

df_stud.show()

# +--------------+-------+

# |PROFESSIONALID|PRIVACY|

# +--------------+-------+

# |             1|      x|

# |             2|   STAY|

# +--------------+-------+

脚本：

df = (df_stud.alias('s')
    .join(df_college.alias('c'), F.col('s.PROFESSIONALID') == F.col('c.UNIQUEID'), 'left')
    .join(df_dept.alias('d'), F.col('c.COLLEGEID') == F.col('d.PUBLICID'), 'left')
    .select(
        *[f's.`{c}`' for c in df_stud.columns if c != 'PRIVACY'],
        F.expr("nvl2(d.PUBLICID, 'PRIVATE', s.PRIVACY) PRIVACY")
    )
)
df.show()

# +--------------+-------+

# |PROFESSIONALID|PRIVACY|

# +--------------+-------+

# |             1|PRIVATE|

# |             2|   STAY|

# +--------------+-------+

赞(0）回复(0）举报 2022-11-01

我来回答

在PySpark中更新一个列，同时执行多个内部联接？

2条答案

相关问题

热门标签

最新问答