pandas 比较三个数据框以评估多个标准

wyyhbhjk 于 2022-11-20 发布在其他

关注(0)|答案(1)|浏览(102)

我有三个数据帧：

ob （ Orderbook ） - 包含零件编号、零件到期周数和生产零件所需小时数的订单。

| 部件编号|到期周|构建小时数|
| - -| - -| - -|
| A 级|小行星 2022 - 46|四个|
| A 级|小行星 2022 - 46|五个|
| 乙|小行星 2022 - 46|八个|
| C 语言|小行星 2022 - 47|一点六|

osm （操作员技能矩阵） - 包含操作员姓名和零件号的技能矩阵

| 操作员|零件编号|
| - -| - -|
| Mr.One |A 级|
| Mr.One |乙|
| Mr.Two |A 级|
| Mr.Two |乙|
| 三太太|C 语言|

ah （可用小时数） - 包含操作员在给定周内可工作小时数的列表

| 操作员|年 - 年 - 月|小时数|
| - -| - -| - -|
| Mr.One |2022 年至 45 年|四十|
| Mr.One |小行星 2022 - 46|三十五|
| Mr.Two |小行星 2022 - 46|三十七|
| Mr.Two |小行星 2022 - 47|三十九|
| 三太太|小行星 2022 - 47|四十|
| 三太太|小行星 2022 - 48|四十五|
我试着计算出每周是否有足够的操作员，有合适的技能，工作足够的时间来完成订单簿上的所有订单。如果没有，找出无法完成的订单。
一步一步看起来会像这样：
1.取订单簿第一行的零件号。
1.搜索技能矩阵，找到可以构建该部件的操作员列表。
1.搜索工时表，检查操作员在订单到期的那一周是否有可用的工时。
1.如果操作员有可用的小时数，则将其姓名添加到订单簿的该行。
1.从 Avalible Hours df 中的 Avalible 小时数中减去订单簿中的 Build 小时数。
1.对订单簿中的每一行重复此操作，直到所有订单都有名称或没有剩余的可用小时数。
我唯一能想到的尝试是一堆嵌套的 for 循环，但是由于有数千行，完成一次迭代需要大约 45 分钟，如果不是几周的话，完成整个过程需要几天。

#for each row in the orderbook
for i, rowi in ob_sum_hours.iterrows():
    #for each row in the operator skill matrix
    for j, rowj in osm.iterrows():
        #for each row in the avalible operator hours
        for y, rowy in aoh.iterrows():
            if(rowi['Material']==rowj['MATERIAL'] and rowi['ProdYYYYWW']==rowy['YYYYWW'] and rowj['Operator']==rowy['Operator'] and rowy['Hours'] > 0):`
        rowy['Hours'] -=rowi['PlanHrs']
        rowi['HoursAllocated'] = rowi['Operator']

中的每一个
最终结果如下所示：
| 部件编号|到期周|构建小时数|操作员|
| - -| - -| - -| - -|
| A 级|小行星 2022 - 46|四个| Mr.One |
| A 级|小行星 2022 - 46|五个| Mr.One |
| 乙|小行星 2022 - 46|八个| Mr.Two |
| C 语言|小行星 2022 - 47|一点六| Mrs.Three |
有没有更好的方法来实现这一点？

pandas

来源：https://stackoverflow.com/questions/74391747/comparing-three-data-frames-to-evaluate-multiple-criteria

1条答案

按热度按时间

ej83mcc01#

每一条线上都有一个线圈。
groupby（Orderbook.index）按索引分组，即my_func遍历每一行，仍然比循环好。
在“aaa”列表中，我们将获得匹配的唯一运算符列表。在“bbb”列表中，筛选可用依据：'YYYYWW'、'Operator'（使用isin作为唯一运算符列表）和'Hours'大于0。进一步在循环中，使用'bbb'索引，我们检查空闲时间，如果'ava'大于零，则使用显式索引loc设置值。

import pandas as pd

Orderbook = pd.read_csv('Orderbook.csv', header=0)
Operator = pd.read_csv('Operator.csv', header=0)
Avaliable= pd.read_csv('Avaliable.csv', header=0)

Orderbook['Operator'] = 'no'

def my_func(x):
    aaa = Operator.loc[Operator['Part number'] == x['Part Number'].values[0], 'Operator'].unique()
    bbb = Avaliable[(Avaliable['YYYYWW'] == x['Due Week'].values[0]) &
                    (Avaliable['Operator'].isin(aaa)) & (Avaliable['Hours'] > 0)]

    for i in bbb.index:
        ava = Avaliable.loc[i, 'Hours'] - x['Build Hours'].values
        if ava >= 0:
            Avaliable.loc[i, 'Hours'] = ava
            Orderbook.loc[x.index, 'Operator'] = Avaliable.loc[i, 'Operator']
            break# added loop interrupt

Orderbook.groupby(Orderbook.index).apply(my_func)

print(Orderbook)
print(Avaliable)

更新18.11.2022我没有周期。但是，你需要检查。如果你发现不正确的地方，请让我知道。你也可以通过在开始处输入以下内容来测量确切的处理时间：

import datetime

now = datetime.datetime.now()

最后打印经过的时间：

time_ = datetime.datetime.now() - now
print('elapsed time', time_)

代码：

Orderbook = pd.read_csv('Orderbook.csv', header=0)
Operator = pd.read_csv('Operator.csv', header=0)
Avaliable = pd.read_csv('Avaliable.csv', header=0)

Orderbook['Operator'] = 'no'

aaa = [Operator.loc[Operator['Part number'] == Orderbook.loc[i, 'Part Number'], 'Operator'].unique() for i in
       range(len(Orderbook))]

def my_func(x):
    bbb = Avaliable[(Avaliable['YYYYWW'] == x['Due Week'].values[0]) &
                    (Avaliable['Operator'].isin(aaa[x.index[0]])) & (Avaliable['Hours'] > 0)]

    fff = Avaliable.loc[bbb.index, 'Hours'] - x['Build Hours'].values
    ind = fff[fff.ge(0)].index
    Avaliable.loc[ind[0], 'Hours'] = fff[ind[0]]
    Orderbook.loc[x.index, 'Operator'] = Avaliable.loc[ind[0], 'Operator']

Orderbook.groupby(Orderbook.index).apply(my_func)

print(Orderbook)
print(Avaliable)

赞(0）回复(0）举报 2022-11-20

我来回答

pandas 比较三个数据框以评估多个标准

1条答案

相关问题

热门标签

最新问答