我有一个包含fraud_label
和一些其他特征变量集的数据集,如何找到最佳规则来帮助我正确识别fraud_label
,并获得最佳的查准率和查全率?特征示例为number_of_site_visits, external_fraud_score etc.
,我需要能够提出一个规则,即如果number_of_site_visits
小于X且external_fraud_score
大于Y,则我们将得到最好的精确度和召回率。我必须用Python来做这件事,你能提供的任何帮助或指导都会非常有帮助。
我已经尝试了随机森林模型,但它给我的特征重要性和不准确的阈值。
1条答案
按热度按时间nhhxz33t1#
要找到以最佳精确度和召回率值正确标识fraud_label的最佳规则,最好的方法是使用监督式机器学习算法,如逻辑回归或支持向量机。这些算法可用于在数据集上训练模型,然后使用训练好的模型预测fraud_label。然后可使用精确度和召回率等度量评估模型。
您还可以使用网格搜索或交叉验证来查找模型的最佳参数,这将帮助您确定每个特征变量的最佳阈值。这将允许您创建一个规则,为您提供最佳精度和召回率值。
在Python中,可以使用scikit-learn库来实现这些算法。