我参加了一个udemy课程,该课程为仅规范化列车数据(从测试数据中分离后)提供了强有力的理由,因为模型通常由新数据使用,具有原始数据集的比例特征。如果你缩放了测试数据,那么你就没有正确地给模型打分。
另一方面,我发现我的两类logistic回归模型(用azure机器学习工作室创建)在z-score只缩放火车数据后得到了糟糕的结果。
答。这仅仅是azure工具的问题吗?b。当需要缩放特征数据时(一个、两个或三个数量级的差异),什么是好的经验法则?
我参加了一个udemy课程,该课程为仅规范化列车数据(从测试数据中分离后)提供了强有力的理由,因为模型通常由新数据使用,具有原始数据集的比例特征。如果你缩放了测试数据,那么你就没有正确地给模型打分。
另一方面,我发现我的两类logistic回归模型(用azure机器学习工作室创建)在z-score只缩放火车数据后得到了糟糕的结果。
答。这仅仅是azure工具的问题吗?b。当需要缩放特征数据时(一个、两个或三个数量级的差异),什么是好的经验法则?
1条答案
按热度按时间qncylg1j1#
由于标准化测试集而没有正确地对模型进行评分似乎是没有意义的:您可能还将标准化用于未来预测的数据。
我在datascience stackexchange中发现了一个类似的问题,上面的答案表明,不仅测试数据必须标准化,还需要应用与训练数据完全相同的缩放比例,因为您的模型还考虑了数据的比例:不同比例的测试/预测数据可能会导致特征的过度/过度夸张。