如何使用本地booster文件预测分布式sparkDataframe?

kx5bkwkv  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(319)

我保存了一个使用xgboost4j sparkscalaapi训练的模型助推器到本地

xgbRegressionModel.nativeBooster.saveModel()

我想用它来预测sparkDataframe(df1)。
我可以用python在本地完成。通过跑步

import xgboost as xgb

model = xgb.Booster()
model.load_model(loc + model_file)

df3 = df1.select(*(col(c).alias(c) for c in var_list)).limit(10).toPandas()
model.predict(xgb.DMatrix(df3))

但是,df1太大,无法完全下载到本地,所以我的问题是,是否可以分发booster文件并在spark/pyspark中生成预测,而不是将其分解?
短暂性脑缺血发作

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题