python-3.x 查找优化阈值

eh57zj3b  于 2023-02-01  发布在  Python
关注(0)|答案(1)|浏览(163)

我有一个包含fraud_label和一些其他特征变量集的数据集,如何找到最佳规则来帮助我正确识别fraud_label,并获得最佳的查准率和查全率?特征示例为number_of_site_visits, external_fraud_score etc.,我需要能够提出一个规则,即如果number_of_site_visits小于X且external_fraud_score大于Y,则我们将得到最好的精确度和召回率。我必须用Python来做这件事,你能提供的任何帮助或指导都会非常有帮助。
我已经尝试了随机森林模型,但它给我的特征重要性和不准确的阈值。

nhhxz33t

nhhxz33t1#

要找到以最佳精确度和召回率值正确标识fraud_label的最佳规则,最好的方法是使用监督式机器学习算法,如逻辑回归或支持向量机。这些算法可用于在数据集上训练模型,然后使用训练好的模型预测fraud_label。然后可使用精确度和召回率等度量评估模型。
您还可以使用网格搜索或交叉验证来查找模型的最佳参数,这将帮助您确定每个特征变量的最佳阈值。这将允许您创建一个规则,为您提供最佳精度和召回率值。
在Python中,可以使用scikit-learn库来实现这些算法。

相关问题