在LDA中应用fit_transform时输入形状不正确

Question

我在我的数据集上应用了get_dummies()方法之后，当我尝试应用它输出的LDA的fit_transform()方法时，将数据集拆分用于训练和测试目的：

ValueError：输入形状错误（26905,8）

我究竟做错了什么？我不确定问题是由于get_dummies()方法还是我遗漏的其他问题

# Sample Code


df = pd.read_csv('/Users/rushirajparmar/Downloads/Problem 16 (1)/Problem 16/Problem 16/train_file.csv')


df.drop(['UsageClass','CheckoutType','CheckoutYear','CheckoutMonth'],axis = 1,inplace = True)


Y=pd.get_dummies(df,columns = ['MaterialType'])
X=pd.get_dummies(df,columns = ['Title','Creator','Subjects','Publisher','PublicationYear'])


X.drop(['MaterialType'],axis = 1,inplace = True)


Y.drop(['ID','Checkouts','Title','Creator','Subjects','Publisher','PublicationYear'],axis = 1,inplace = True)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.15)


from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)


from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
lda = LDA(n_components = 1)
X_train = lda.fit_transform(X_train, y_train)
X_test = lda.transform(X_test)

Dataset:

这是train_file.csv供参考

Answer 1

您无需在目标变量上应用get_dummies。您可以直接将多类标签提供给LDA。

From Documentation:

fit_transform（X，y =无，** fit_params）

适合数据，然后转换它。

使用可选参数fit_params使变换器适合X和y，并返回X的变换版本。

参数： X：numpy数组形状[n_samples，n_features]训练集。

y：numpy shape of shape [n_samples]目标值。

返回：X_new：numpy形状数组[n_samples，n_features_new]转换后的数组。

因此，你的y必须是一维的。

X_train, X_test, y_train, y_test = train_test_split(X, df['MaterialType'], test_size = 0.15)

lda = LDA(n_components = 1)
X_train = lda.fit_transform(X_train, y_train)

在LDA中应用fit_transform时输入形状不正确

问题描述投票：1回答：1

Dataset:

1个回答

最新问题

在LDA中应用fit_transform时输入形状不正确

问题描述 投票：1回答：1

Dataset:

1个回答

最新问题

问题描述投票：1回答：1