使用为sklearn.svm`回归者定制的内核有歧义

Question

我想在Epsilon-Support Vector Regression的Sklearn.svm模块中使用自定义内核函数。我发现这段代码是the scilit-learn documentation上svc定制内核的一个例子：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets

# import some data to play with
iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features. We could
                  # avoid this ugly slicing by using a two-dim dataset
Y = iris.target


def my_kernel(X, Y):
    """
    We create a custom kernel:

                 (2  0)
    k(X, Y) = X  (    ) Y.T
                 (0  1)
    """
    M = np.array([[2, 0], [0, 1.0]])
    return np.dot(np.dot(X, M), Y.T)


h = .02  # step size in the mesh

# we create an instance of SVM and fit out data.
clf = svm.SVC(kernel=my_kernel)
clf.fit(X, Y)

# Plot the decision boundary. For that, we will assign a color to each
# point in the mesh [x_min, x_max]x[y_min, y_max].
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

# Put the result into a color plot
Z = Z.reshape(xx.shape)
plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Paired)

# Plot also the training points
plt.scatter(X[:, 0], X[:, 1], c=Y, cmap=plt.cm.Paired, edgecolors='k')
plt.title('3-Class classification using Support Vector Machine with custom'
      ' kernel')
plt.axis('tight')
plt.show()

我想定义一些函数，如：

def my_new_kernel(X):
    a,b,c = (random.randint(0,100) for _ in range(3))
    # imagine f1,f2,f3 are functions like sin(x), cos(x), ...
    ans = a*f1(X) + b*f2(X) + c*f3(X)
    return ans

我对内核方法的看法是，它是一个函数，它将特征矩阵（X）作为输入并返回一个形状矩阵（n，1）。然后svm将返回的矩阵附加到要素列，并使用它来对标签Y进行分类。

在上面的代码中，内核用于svm.fit函数，我无法弄清楚内核及其形状的X和Y输入是什么。如果X和Y（my_kernel方法的输入）是数据集的特征和标签，那么内核如何为我们没有标签的测试数据工作？

实际上我想使用svm作为形状为(10000, 6)的数据集，（5列=特征，1列=标签）然后如果我想使用my_new_kernel方法那么输入和输出及其形状。

Answer 1

你的确切问题很不清楚;这里有一些可能有用的评论。

我无法弄清楚内核及其形状的X和Y输入是什么。如果X和Y（my_kernel方法的输入）是数据集的特征和标签，

确实他们是;来自documentation的fit：

参数：

X：{array-like，sparse matrix}，shape（n_samples，n_features）

训练向量，其中n_samples是样本数，n_features是要素数。对于kernel =“precomputed”，X的预期形状是（n_samples，n_samples）。

y：类似数组，形状（n_samples，）

目标值（分类中的类别标签，回归中的实数）

与默认的可用内核完全一样。

那么内核如何为我们没有标签的测试数据工作呢？

仔细查看您提供的代码将显示标签Y确实仅在训练期间使用（fit）;它们当然不会在预测中使用（上面的代码中的clf.predict() - 不要与yy混淆，Y与qazxswpoi无关）。

使用为sklearn.svm`回归者定制的内核有歧义

问题描述投票：0回答：1

1个回答

最新问题

使用为sklearn.svm`回归者定制的内核有歧义

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1