LogisticRegression scikit在培训中学习协变量（列）顺序问题

Question

由于某些原因，协变量的顺序似乎与scikit-learn中的LogisticRegression分类器有关，这对我来说似乎很奇怪。我有9个协变量和一个二进制输出，当我改变列的顺序并调用fit()然后调用predict_proba()时输出是不同的。下面的玩具示例

logit_model = LogisticRegression(C=1e9, tol=1e-15)

下列

logit_model.fit(df['column_2','column_1'],df['target'])
logit_model.predict_proba(df['column_2','column_1'])

array([[ 0.27387109,  0.72612891] ..])

给出不同的结果：

logit_model.fit(df['column_1','column_2'],df['target'])
logit_model.predict_proba(df['column_1','column_2'])

array([[ 0.26117794,  0.73882206], ..])

这对我来说似乎很令人惊讶，但也许这就是我对算法内部和拟合方法缺乏了解。

我错过了什么？

编辑：这是完整的代码和数据

数据：https://s3-us-west-2.amazonaws.com/gjt-personal/test_model.csv

import pandas as pd
from sklearn.linear_model import LogisticRegression

df = pd.read_csv('test_model.csv',index_col=False)

columns1 =['col_1','col_2','col_3','col_4','col_5','col_6','col_7','col_8','col_9']
columns2 =['col_2','col_1','col_3','col_4','col_5','col_6','col_7','col_8','col_9']

logit_model = LogisticRegression(C=1e9, tol=1e-15)

logit_model.fit(df[columns1],df['target'])
logit_model.predict_proba(df[columns1])

logit_model.fit(df[columns2],df['target'])
logit_model.predict_proba(df[columns2])

原来它与tol=1e-15有关，因为这给出了不同的结果。

LogisticRegression(C=1e9, tol=1e-15)

但是这给出了相同的结果。

LogisticRegression(C=1e9)

Answer 1

感谢您添加示例数据。

深入了解您的数据显然不是标准化的。如果您要将StandardScaler应用于数据集并再次尝试拟合，您会发现预测差异消失。

虽然这个结果至少是一致的，但仍然令人不安的是它引发了LineSearchWarning和ConvergenceWarning。对于那个我会说你在1e-15这里有一个非常低的容忍度。鉴于您已经应用的非常高的正则化惩罚率（1e9），将tol降低到默认的1e-4将真的没有任何影响。这允许模型正确地收敛并且仍然产生相同的结果（在更快的运行时间内）。

我的完整过程如下所示：

import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

ss = StandardScaler()
cols1 = np.arange(9)
cols2 = np.array([1,0,2,3,4,5,6,7,8])
X = ss.fit_transform(df.drop('target', axis=1))

lr = LogisticRegression(solver='newton-cg', tol=1e-4, C=1e9)
lr.fit(X[:, cols1], df['target'])
preds_1 = lr.predict_proba(X[:, cols1])

lr.fit(X[:, cols2], df['target'])
preds_2 = lr.predict_proba(X[:, cols2])

preds_1 
array([[  0.00000000e+00,   1.00000000e+00],
       [  0.00000000e+00,   1.00000000e+00],
       [  0.00000000e+00,   1.00000000e+00],
       ...,
       [  1.00000000e+00,   9.09277801e-31],
       [  1.00000000e+00,   3.52079327e-35],
       [  1.00000000e+00,   5.99607407e-30]])

preds_2
array([[  0.00000000e+00,   1.00000000e+00],
       [  0.00000000e+00,   1.00000000e+00],
       [  0.00000000e+00,   1.00000000e+00],
       ...,
       [  1.00000000e+00,   9.09277801e-31],
       [  1.00000000e+00,   3.52079327e-35],
       [  1.00000000e+00,   5.99607407e-30]])

断言preds_1 == preds_2将失败，但每个值的差异大约为1e-40 +，我认为这远远超出任何合理的重要性水平。

Answer 2

这是在两个代码示例中测量相同的内容。

当我们将DataFrame提供给sklearn中的分类器时，它会在数据帧的每一行上进行训练（每行对应一个观察点）

因此，行的顺序无关紧要，因为您获得的输出是特定行对应于每个可能类的概率。

例如：

array([[ 0.26117794, 0.73882206], ..])的输出意味着我们输入分类器的行有大约26％的机会在0级，大约有74％的机会在1级。这个测量并没有说明各个列。只是整排。

让我知道这是否有帮助，如果我能澄清我的答案。

LogisticRegression scikit在培训中学习协变量（列）顺序问题

问题描述投票：5回答：2

2个回答

最新问题

LogisticRegression scikit在培训中学习协变量（列）顺序问题

问题描述 投票：5回答：2

2个回答

最新问题

问题描述投票：5回答：2