我曾经创建循环来为模型找到最佳参数,这增加了我的编码错误,所以我决定使用GridSearchCV
。我正在尝试为我的模型找出PCA的最佳参数(我要在其上进行网格搜索的唯一参数)。在此模型中,归一化后,我想将原始特征与PCA简化特征结合起来,然后应用线性SVM。然后,我保存整个模型以预测我的输入。我在尝试拟合数据的行中出现错误,因此可以使用best_estimator_
和best_params_
函数。该错误说:TypeError: The score function should be a callable, all (<type 'str'>) was passed.
我没有使用任何可能需要在GridSearchCV
中提供字符串的参数,所以不确定为什么我会出现此错误我还想知道是否在保存模型之前的行print("shape after model",X.shape)
中是否应该基于所有可能的参数同时打印(150, 7) and (150, 5)
?
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest
from sklearn.preprocessing import StandardScaler
from sklearn.externals import joblib
from numpy import array
iris = load_iris()
X, y = iris.data, iris.target
print(X.shape) #prints (150, 4)
print (y)
#cretae models and piplline them
combined_features = FeatureUnion([("pca", PCA()), ("univ_select", SelectKBest(k='all'))])
svm = SVC(kernel="linear")
pipeline = Pipeline([("scale", StandardScaler()),("features", combined_features), ("svm", svm)])
# Do grid search over n_components:
param_grid = dict(features__pca__n_components=[1,3])
grid_search = GridSearchCV(pipeline, param_grid=param_grid, cv=5, verbose=10)
grid_search.fit(X, y)
print("best parameters", grid_search.best_params_)
print("shape after model",X.shape) #should this print (150, 7) or (150, 5) based on best parameter?
#save the model
joblib.dump(grid_search.best_estimator_, 'model.pkl', compress = 1)
#new data to predict
Input=[ 2.9 , 4. ,1.2 ,0.2]
Input= array(Input)
#use the saved model to predict the new data
modeltrain="model.pkl"
modeltrain_saved = joblib.load(modeltrain)
model_predictions = modeltrain_saved.predict(Input.reshape(1, -1))
print(model_predictions)
我根据答案更新了代码
您在SelectKBest中提供'all'
作为参数。但是根据documentation,如果要传递“全部”,则需要将其指定为:
SelectKBest(k='all')
原因是它是一个关键字参数,应使用关键字指定。因为SelectKBest的第一个参数是评分功能的位置参数。因此,当您不指定param
时,'all'被认为是函数的输入,因此是错误。
更新:
现在有关形状,原始X
将不会更改。因此它将打印(150,4)
。数据将即时更改,在我的PC上,best_param_
为n_components=1
,因此到达svm的最终形状为(150, 5)
,PCA为1,SelectKBest为4。