pandas 预测客户意图

qfe3c7zg  于 2023-11-15  发布在  其他
关注(0)|答案(1)|浏览(72)

我得到了这个前景数据集:

ID     Company_Sector         Company_size  DMU_Final  Joining_Date  Country
65656  Finance and Insurance       10        End User   2010-04-13   France
54535  Public Administration       1         End User   2004-09-22   France

字符串
销售数据集:

ID    linkedin_shared_connections   online_activity  did_buy   Sale_Date
65656            11                        65           1      2016-05-23
54535            13                        100          1      2016-01-12


我想建立一个模型,为前景表中的每个前景分配成为客户的概率。该模型将预测前景是否会购买,并返回概率。销售表提供有关2015年销售的信息。我的方法-“已购买”列应该是模型中的标签,因为1表示前景在2016年购买,0表示没有销售。另一个有趣的列是在线活动,范围从5到685。它越高-前景对产品越积极。所以我尝试做随机森林模型,然后以某种方式把每个前景的概率在新的意图列。是随机森林一个有效的模型在这种情况下,或者也许我应该使用另一个。我如何将模型结果应用到第一个表中每个前景的新“意图”列中。

7ajki6be

7ajki6be1#

TL;医生:随机森林很好,但由于数据不平衡,似乎不合适。你应该阅读推荐系统,以及更流行的、性能良好的模型,如Wide and Deep
答案取决于:您有多少数据?在推断过程中,您可以使用哪些数据?在客户购买之前,您是否可以看到潜在销售的当前“online_activity”属性?许多问题可能会改变适合您的任务的整个方法。

建议:

一般来说,这是一种业务,你通常要处理非常不平衡的数据-低数量的“did_buy”=1对大量的潜在客户.
在数据科学方面,你应该为成功定义一个有价值的衡量标准,尽可能地将其直接Map到金钱上。在这里,通过广告或接近更有可能的客户来采取行动似乎可以提高“did_buy”/“was_approach”是衡量成功的一个很好的指标。随着时间的推移,如果你提高了这个数字,你就成功了。
另一件需要考虑的事情是,您的数据可能是稀疏的。我不知道您通常得到多少购买,但它可能是您只有1个来自每个国家等。这也应该考虑在内,因为简单的随机森林可以很容易地针对这一列在其大多数随机模型和过度拟合将是一个大问题。**决策树遭受不平衡的数据集。但是,通过在叶中获取每个标签的概率而不是决策,有时可能有助于简单的可解释模型,并且它反映了不平衡的数据。**老实说,我并不真正相信这是正确的方法。
如果我在你那里:
我首先通过以下方式将“潜在客户”列嵌入到一个向量中:

  • 将类别转换为随机向量(针对每个类别)或one-hot编码。
  • 将公司规模标准化或分段化为符合预测模型的数字(下一个)
  • 关于日期的想法是一样的。在这里,也许年可能是有问题的,但月/日应该是有用的。
  • 国家肯定是分类的,也许再加一个“未知”的国家类。

然后,

  • 我会使用一个实际上可以根据不同成本进行优化的模型。Logistic回归是一个广泛的选择,深度神经网络是另一个选择,或者看看谷歌的Wide and deep的组合。
  • 将成本设置为我的黄金数字(用标签表示的货币度量标准),或者尽可能接近的值。
  • 运行实验

最后,

  • 检查我的结果以及失败的原因。
  • 建议其他型号/功能
  • 重复.
  • 去吃发射。
  • 问一堆数据问题。
  • 至少试着回答一些。
  • 在数据中发现新的有趣关系。
  • 提出一些有趣的建议。
  • (明天)重复。

相关问题