预处理和特征工程

jckbn6z7  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(295)

我不明白什么时候同时使用“fit”和“transform”,而什么时候只使用“transform”。
以下转换器同时使用拟合和变换:
R公式
量化器
标准定标器
minmaxscaler公司
最大分频器
字符串索引器
矢量索引器
计数矢量器
主成分分析
Chisq选择器
以下变压器仅使用transform:
sqltransformer公司
矢量汇编程序
巴基策
ElementWise产品
标准化器
索引
单色编码器
标记器
正则化器
停止字移动器
恩格拉姆
我无法直观地理解何时同时使用拟合和变换,而何时仅使用变换。
请解释一下。谢谢。

dgiusagp

dgiusagp1#

最终,所有这些组件都是用来“转换”数据、索引/缩放/bucketize等的。其中一些组件不需要了解任何数据就可以完成工作。例如,stopwordsremover只应用要删除的停止字列表,而不考虑数据。
有些组件确实需要理解它们正在操作的数据,以便正确地转换数据。例如,minmaxscaler需要知道数据的最小/最大值才能执行缩放。
因此,所有这些都公开了transform()方法,但只有一些方法需要首先对数据进行fit()。

相关问题