我正在使用liblinear库在我的数据上训练一个线性SVM。我可以获得训练模型的每个类的权重。但我需要弄清楚哪些训练实例是作为支持向量的。
liblinear库似乎没有提供这些向量作为模型属性。而且我似乎也不知道如何能手动找到它们。如果我有训练数据,并且我有定义超平面的权重,那么我如何去寻找这些支持向量呢?
答案可以在 LIBLINEAR FAQ. 简而言之,你不能。你需要修改源码。
问:我如何知道哪些训练实例是支持向量?
有些 LIBLINEAR 求解器考虑的是原始问题,所以在训练过程中不会得到支持向量。对于双解算器,我们只输出原始权重向量w,所以支持向量不存储在模型中。这与LIBSVM不同。
要想知道支持向量,可以修改线性.cpp的solve_l2r_l1l2_svc()中的以下循环,打印出指数。
for(i=0; i<l; i++)
{
v += alpha[i]*(alpha[i]*diag[GETI(i)] - 2);
if(alpha[i] > 0)
++nSV;
}
请注意,在调用这个子程序之前,我们将同一类的数据分组。因此,你的训练实例的顺序已经被改变。您可以在使用 liblinear 之前对您的数据进行排序(例如,在负数实例之前对正数实例进行排序)。那么指数将是相同的。
您可以使用以下方法获得支持向量 clf.support_vectors_
.
绘制支持向量。
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
# we create 40 separable points
np.random.seed(0)
X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
Y = [0] * 20 + [1] * 20
# fit the model
clf = svm.SVC(kernel='linear', C=1)
clf.fit(X, Y)
# get the separating hyperplane
w = clf.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(-5, 5)
yy = a * xx - (clf.intercept_[0]) / w[1]
margin = 1 / np.sqrt(np.sum(clf.coef_ ** 2))
yy_down = yy - np.sqrt(1 + a ** 2) * margin
yy_up = yy + np.sqrt(1 + a ** 2) * margin
plt.figure(1, figsize=(4, 3))
plt.clf()
plt.plot(xx, yy, 'k-')
plt.plot(xx, yy_down, 'k--')
plt.plot(xx, yy_up, 'k--')
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80,
facecolors='none', zorder=10, edgecolors='k')
plt.scatter(X[:, 0], X[:, 1], c=Y, zorder=10, cmap=plt.cm.Paired,
edgecolors='k')
plt.axis('tight')
x_min = -4.8
x_max = 4.2
y_min = -6
y_max = 6
XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]
Z = clf.predict(np.c_[XX.ravel(), YY.ravel()])
# Put the result into a color plot
Z = Z.reshape(XX.shape)
plt.figure(1, figsize=(4, 3))
plt.pcolormesh(XX, YY, Z, cmap=plt.cm.Paired)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()