如何在hadoop集群上运行xgboost进行分布式模型训练?

vshtjzan  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(513)

我正在尝试建立一个ctr预测模型,使用xgboost对1亿个上下文广告的印象进行预测,为了达到同样的效果,我想在hadoop上尝试xgboost,因为我有hdfs中可用的所有印象数据。
有人能引用python的工作教程吗?

rn0zuynd

rn0zuynd1#

有很多方法可以做到:
如果您有一些较低级别的逻辑分组,比如某个项目部门的ctr,并且您希望为部门建立本地化模型,那么您可以使用map REDUCT类型的设置。它将确保属于单个部门的所有数据都将在单个容器中结束,并且您可以在该数据上构建模型。nlineinputformat是一个聪明的技巧,可以使这个map-only进程比基于map-reduce的进程更快。
您可以使用xgboost的spark版本进行分布式机器学习,以获取更多信息http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
如果您正在决定您的基础设施,那么也可以尝试一下aws,如这里所述。它不是hadoop,而是伪分布式机器学习:https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

相关问题