我正在尝试将代码从python转换为scala,我被困在sciketlearn中的函数中,没有在scalaspark中找到它 selector= SelectKBest(k=1).fit(X=x, y=y)
在文档中https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.selectkbest.html 它说默认值是default,默认值是f\u classif
spark mlib文件:http://spark.apache.org/docs/latest/ml-features.html#feature-选择器
只有
矢量切片器
R公式
Chisq选择器
在scala中,有没有基于方差分析f检验(f\u classif)选择top k的替代软件包?
1条答案
按热度按时间ws51t4hk1#
在我看来,你有两个选择:
a) 只需等到2021年初发布spark 3.1版。
查看源代码,anovaselector已经实现,请参阅:
https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/feature/anovaselector.scala
只是还没有发布。
有关释放窗口,请参见https://spark.apache.org/versioning-policy.html
spark 3.1释放窗口
日期事件
2020年12月初代码冻结。松开分支切口。
2020年12月中旬质保期。关注bug修复、测试、稳定性和文档。
通常,不会合并新功能。
2021年1月初发布候选人(rc)、投票等,直到最终发布通过
或者b)从github获取源代码,自己添加到代码中/编译最新的spark版本
后一种选择当然仍然会留给你一些工作在你这边。。。
希望这个答案能对你有所帮助。