我得到了这个前景数据集:
ID Company_Sector Company_size DMU_Final Joining_Date Country
65656 Finance and Insurance 10 End User 2010-04-13 France
54535 Public Administration 1 End User 2004-09-22 France
字符串
销售数据集:
ID linkedin_shared_connections online_activity did_buy Sale_Date
65656 11 65 1 2016-05-23
54535 13 100 1 2016-01-12
型
我想建立一个模型,为前景表中的每个前景分配成为客户的概率。该模型将预测前景是否会购买,并返回概率。销售表提供有关2015年销售的信息。我的方法-“已购买”列应该是模型中的标签,因为1表示前景在2016年购买,0表示没有销售。另一个有趣的列是在线活动,范围从5到685。它越高-前景对产品越积极。所以我尝试做随机森林模型,然后以某种方式把每个前景的概率在新的意图列。是随机森林一个有效的模型在这种情况下,或者也许我应该使用另一个。我如何将模型结果应用到第一个表中每个前景的新“意图”列中。
1条答案
按热度按时间7ajki6be1#
TL;医生:随机森林很好,但由于数据不平衡,似乎不合适。你应该阅读推荐系统,以及更流行的、性能良好的模型,如Wide and Deep
答案取决于:您有多少数据?在推断过程中,您可以使用哪些数据?在客户购买之前,您是否可以看到潜在销售的当前“online_activity”属性?许多问题可能会改变适合您的任务的整个方法。
建议:
一般来说,这是一种业务,你通常要处理非常不平衡的数据-低数量的“did_buy”=1对大量的潜在客户.
在数据科学方面,你应该为成功定义一个有价值的衡量标准,尽可能地将其直接Map到金钱上。在这里,通过广告或接近更有可能的客户来采取行动似乎可以提高“did_buy”/“was_approach”是衡量成功的一个很好的指标。随着时间的推移,如果你提高了这个数字,你就成功了。
另一件需要考虑的事情是,您的数据可能是稀疏的。我不知道您通常得到多少购买,但它可能是您只有1个来自每个国家等。这也应该考虑在内,因为简单的随机森林可以很容易地针对这一列在其大多数随机模型和过度拟合将是一个大问题。**决策树遭受不平衡的数据集。但是,通过在叶中获取每个标签的概率而不是决策,有时可能有助于简单的可解释模型,并且它反映了不平衡的数据。**老实说,我并不真正相信这是正确的方法。
如果我在你那里:
我首先通过以下方式将“潜在客户”列嵌入到一个向量中:
然后,
最后,