我得到了这个前景数据集:
ID Company_Sector Company_size DMU_Final Joining_Date Country
65656 Finance and Insurance 10 End User 2010-04-13 France
54535 Public Administration 1 End User 2004-09-22 France
和销售数据集:
ID linkedin_shared_connections online_activity did_buy Sale_Date
65656 11 65 1 2016-05-23
54535 13 100 1 2016-01-12
我想建立一个模型,为前景表中的每个潜在客户分配成为客户的概率。该模型将预测潜在客户是否会购买,并返回概率。销售表提供有关 2015 年销售的信息。我的方法——“确实购买”列应该是模型中的标签,因为 1 代表潜在客户在 2016 年购买,0 意味着没有销售。另一个有趣的栏是在线活动,范围从 5 到 685。它越高,潜在客户对该产品越活跃。所以我可能尝试做随机森林模型,然后以某种方式将每个潜在客户的概率放入新的意图列中。在这种情况下,随机森林是一种有效的模型吗?或者我应该使用另一种模型。如何将模型结果应用到第一个表中每个潜在客户的新“意图”列中。
TL;DR:随机森林很好,但由于数据不平衡,似乎不合适。您应该阅读有关推荐系统的内容,以及更时尚的性能良好的模型,例如Wide 和 Deep
答案取决于:您有多少数据?推理过程中您有哪些可用数据?在客户购买之前,您能否看到潜在销售的当前“online_activity”属性?许多问题可能会改变适合您任务的整个方法。
建议:
一般来说,这是一种通常会处理非常不平衡数据的业务 - 少量的“did_buy”=1 与大量的潜在客户。
在数据科学方面,您应该定义有价值的成功指标,并尽可能直接映射到金钱。在这里,通过广告或接近更有可能的客户采取行动似乎可以提高“did_buy”/“was_approached”,这是衡量成功的一个重要指标。加班后,如果你提高这个数字,你就成功了。
要考虑的另一件事是您的数据可能很稀疏。我不知道您通常会购买多少商品,但可能每个国家/地区只有 1 个商品等。这一点也应该考虑在内,因为简单的随机森林可以轻松地在大多数随机模型中针对此列,并且过度拟合将成为一个大问题。 决策树受到不平衡数据集的影响。然而,通过计算叶子中每个标签的概率,而不是做出决定,有时对简单的可解释模型很有帮助,并且它反映了不平衡的数据。 说实话,我并不真正相信这是正确的方法。
如果我在你身边:
我首先将 Prospects 列嵌入到向量中:
那么,
最后,