我正在一个项目中,我需要为每个数据行提供一个从我的机器学习模型中获得预测的原因。我正在使用Logistic回归模型(二进制分类)来获得预测,临界阈值为0.6。我尝试使用SHAP和ELI5来识别最重要的功能,但这对于所有数据点都是全局的。我想为每个数据点给出一个为什么将其归类为1的原因。我真的不确定如何使它能够在本地解释以供人类理解预测。
我认为在某些假设下可以:
1. we use LR instead of NN
2. each variable "X" treated as binary variable
对于LR方程式:
y = 1/1+exp(-wi*xi)
由于xi属于{0,1},我们可以认为w_i是特征重要性。
对于您提到的每个实例,我们都可以用w_i对x_i进行排名,并找出该实例中x_i是0还是1。然后应该使用前10个(也许是50个)x_i进行解释。