spark分割规范化数据集logistic回归

e7arh2l6  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(407)

我得到了一个数据集,它已经被分成两个文件,一个测试数据文件和一个列车数据文件。两个文件中的数据都是标准化的。我被要求做二项逻辑回归和评估模型使用一些指标和创建一个培训总结使用Spark。我将python与spark结合使用。
我们的目标是开发一个spark应用程序,它将首先使用train数据集构建一个分类模型,然后使用测试数据集对其进行测试。最后,我将执行spark应用程序并研究模型性能,同时改变训练期间允许的最大迭代次数。我必须用我为最大迭代次数选择的五个值来执行应用程序。对于每次执行,我需要记录至少三个模型性能指标,例如roc曲线下的面积、准确性、精确度、召回率等

Train: https://pastebin.com/KWsp6jAp
Test: https://pastebin.com/KVYEWZeA

我已经完成了编码,但是我很困惑,因为数据集已经被拆分了。
我的问题是:
我是否:
需要检查这两个文件,训练并测试缺失值或0,并用nan替换它们(因为它们已经标准化了)?
两个文件的输入?
把两个不同的单一向量(每个文件一个)所有的功能?
standardscaler为两个向量缩放特征列?
检查列车数据是否不平衡并处理?
如何找出我应该运行哪五次迭代?
我遵循以下指南:https://github.com/dhirajprai/sparkml/blob/master/sparkml/logisticregression.ipynb (此处使用的数据集似乎有不同的值/未规范化)

iq3niunx

iq3niunx1#

这更像是一个常识问题。
看看这个例子http://www.semspirit.com/artificial-intelligence/machine-learning/preparing-the-data/preparing-the-data-in-python/splitting-the-dataset-into-training-and-test-sets/. 我刚在google上发现了这个,尽管我从机器学习课程中也知道了同样的情况。另外,你自己的参考也提到了同样的问题。
从这两个来源可以看出一般方法:
他们做你提到的所有操作。
然后他们分开了。
为什么你的数据是作为火车和测试提前交付我不清楚,因为它不是通常。
您提到的所有方面都已经做得很有可能了—因为您的状态数据是规范化的。
标准化是一种缩放技术,在这种技术中,值被移动并重新缩放,以便它们最终在0到1之间。它也被称为最小-最大缩放。所以你不需要做任何关于0(某物)值的事情。在某些情况下,关于这方面的一些争论。
因此,只需要步骤3和6。

相关问题