pandas 数据积木考拉:使用for循环创建带条件的新列,并根据旧列名动态命名新列

8yparm6h  于 2023-03-16  发布在  其他
关注(0)|答案(2)|浏览(73)

数据集示例:

kdf = ks.DataFrame({"power_1": [50, 100, 150, 120, 18], 
                   "power_2": [50, 150, 150, 120, 18],
                   "power_3": [60, 100, 150, 120, 18],
                   "power_4": [150, 90, 150, 120, 18],
                   "power_30": [50, 60, 150, 120, 18]
                   })

df = pd.DataFrame({"power_1": [50, 100, 150, 120, 18], 
                   "power_2": [50, 150, 150, 120, 18],
                   "power_3": [60, 100, 150, 120, 18],
                   "power_4": [150, 90, 150, 120, 18],
                   "power_30": [50, 60, 150, 120, 18]
                   })

我知道怎么在Pandas身上做。下面是我的代码:

cols = df.filter(regex='power_').columns
for col in cols:
    df[col] = pd.to_numeric(df[col],errors='coerce')
    df[col+'_Status']= ['OFF' if x<100 or np.isnan(x) else 'ON' for x in df[col]]

我可以创建新的列一个接一个在考拉使用:

kdf = kdf.assign(power_1_Status=(kdf['power_1'].gt(100)).astype(int).map({0:'OFF',1:'ON'}))

但是我不知道如何为所有的幂列做这件事,因为我的数据集真的很大,有50多个幂列和1000多个其他列。我使用的是Databricks。我不想为所有的幂列写50多行代码。我这里的问题是我不知道如何在Koalas的for循环中动态地将“_Status”添加到我原来的列名“power_1”中。我尝试过使用类似Pandas结构的for循环。下面是我尝试过但失败的结果。

for col in cols:
    kdf = kdf.assign(col+'Status'=(kdf[col].gt(100)).astype(int).map({0:'OFF',1:'ON'}))

谢谢

wsxa1bj1

wsxa1bj11#

我看了一下Koala的文档,使用了一些类似于pandas的函数,所以试试看它是否有效:

#select columns you are interested in into a separate dataframe
 filtered = df.filter(like='power_')

 #drop the filtered columns from df
 df = df.drop(filtered.columns,axis=1)

 #do some cleanup
 filtered = (filtered
            .astype(int)
            .gt(100)
            .applymap(lambda x: 'OFF' if x==0 else 'ON')
            .add_suffix('_STATUS'))

 #hook back to original dataframe
 pd.concat([df,filtered],axis=1)

在创建过滤的 Dataframe 时,您可能希望使用副本;只是一个建议,因为我不知道什么成本与考拉。

power_1_STATUS power_2_STATUS  power_3_STATUS  power_4_STATUS  power_30_STATUS
0   OFF              OFF              OFF            ON               OFF
1   OFF               ON              OFF            OFF              OFF
2   ON                ON               ON            ON               ON
3   ON                ON               ON            ON               ON
4   OFF              OFF              OFF            OFF              OFF
z0qdvdin

z0qdvdin2#

def function1(ss:pd.Series):
    col1=ss.lt(100)|ps.isna(ss)
    return ss.mask(col1,'OFF').where(col1,'NO')

kdf.filter(regex='power_').add_suffix("_Status").apply(function1)

输出:

power_1_STATUS power_2_STATUS  power_3_STATUS  power_4_STATUS  power_30_STATUS
0   OFF              OFF              OFF            ON               OFF
1   OFF               ON              OFF            OFF              OFF
2   ON                ON               ON            ON               ON
3   ON                ON               ON            ON               ON
4   OFF              OFF              OFF            OFF              OFF

相关问题