pandas 使用AIF360计算组公平性指标

mec1mxoz  于 2023-01-01  发布在  其他
关注(0)|答案(3)|浏览(208)

我想使用AIF360计算组公平性指标。这是一个样本数据集和模型,其中性别是受保护的属性,收入是目标。

import pandas as pd
from sklearn.svm import SVC
from aif360.sklearn import metrics

df = pd.DataFrame({'gender': [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1],
                  'experience': [0, 0.1, 0.2, 0.4, 0.5, 0.6, 0, 0.1, 0.2, 0.4, 0.5, 0.6],
                  'income': [0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1]})

clf = SVC(random_state=0).fit(df[['gender', 'experience']], df['income'])

y_pred = clf.predict(df[['gender', 'experience']])

metrics.statistical_parity_difference(y_true=df['income'], y_pred=y_pred, prot_attr='gender', priv_group=1, pos_label=1)

它抛出:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-7-609692e52b2a> in <module>
     11 y_pred = clf.predict(X)
     12 
---> 13 metrics.statistical_parity_difference(y_true=df['income'], y_pred=y_pred, prot_attr='gender', priv_group=1, pos_label=1)

TypeError: statistical_parity_difference() got an unexpected keyword argument 'y_true'

类似的错误为disparate_impact_ratio。似乎数据需要输入不同的,但我还没有能够弄清楚如何。

bnlyeluc

bnlyeluc1#

这可以通过将数据转换为StandardDataset,然后调用下面的fair_metrics函数来完成:

from aif360.datasets import StandardDataset
from aif360.metrics import BinaryLabelDatasetMetric, ClassificationMetric

dataset = StandardDataset(df, 
                          label_name='income', 
                          favorable_classes=[1], 
                          protected_attribute_names=['gender'], 
                          privileged_classes=[[1]])

def fair_metrics(dataset, y_pred):
    dataset_pred = dataset.copy()
    dataset_pred.labels = y_pred
        
    attr = dataset_pred.protected_attribute_names[0]
    
    idx = dataset_pred.protected_attribute_names.index(attr)
    privileged_groups =  [{attr:dataset_pred.privileged_protected_attributes[idx][0]}] 
    unprivileged_groups = [{attr:dataset_pred.unprivileged_protected_attributes[idx][0]}] 

    classified_metric = ClassificationMetric(dataset, dataset_pred, unprivileged_groups=unprivileged_groups, privileged_groups=privileged_groups)

    metric_pred = BinaryLabelDatasetMetric(dataset_pred, unprivileged_groups=unprivileged_groups, privileged_groups=privileged_groups)

    result = {'statistical_parity_difference': metric_pred.statistical_parity_difference(),
             'disparate_impact': metric_pred.disparate_impact(),
             'equal_opportunity_difference': classified_metric.equal_opportunity_difference()}
        
    return result

fair_metrics(dataset, y_pred)

返回正确的结果(image ref):

{'statistical_parity_difference': -0.6666666666666667,
 'disparate_impact': 0.3333333333333333,
 'equal_opportunity_difference': 0.0}

vsdwdz23

vsdwdz232#

删除函数调用中的y_true=y_pred=字符,然后重试。正如在documentation中所看到的,函数原型中的*y代表任意数量的参数(参见this post)。因此,这是最符合逻辑的猜测。
换句话说,y_truey_pred是NOT关键字参数,因此不能将它们的名称传递给函数。关键字参数在函数原型中表示为**kwargs

2g32fytz

2g32fytz3#

我遇到了同样的问题。y_pred_default是数组类型,整个数据集是 Dataframe 。但是如果你将y_pred_default转换为 Dataframe ,你将失去值的顺序,结果它将显示新数据集的nan值。所以我将数据集转换为numpy数组。然后与y_pred_default数组连接并转换为 Dataframe 。另外,你必须更改列名,因为现在有数字了。这样你就得到了你想要的,一个包含x值和相应的y预测值的 Dataframe ,用来计算spd指标。

相关问题