我导入了具有各种股票价格的数据集,并正在尝试制作一个可以粗略预测价格的程序。如何手动选择训练哪些数据和测试哪些数据。到目前为止,这是我的代码
下面是我的代码
data = pd.read_csv("/Users/x/x/x")
data = data[['PAST', 'FUTURE']]
x = np.array(data.drop([predict], 1))
y = np.array(data[predict])
x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(x,y,test_size=0.1, random_state= 10)
linear = linear_model.LinearRegression()
linear.fit(x_train, y_train)
通过某种方式,您正在手动选择测试数据集:
x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(x,y,test_size=0.1, random_state= 10)
.train_test_split()
的参数是数据列表x
和y
,然后test_size
是要用于测试的数据的某些百分比,并且random_state
定义了用于随机数的种子数字生成器。
您当前已将测试数据的大小设置为提供的模型数据的10%,并且模型将随机选择10%的数据用于测试。如果您打算手动创建训练数据集,例如要在2005-2019年的苹果股票数据上训练模型,并在最近一年进行测试,则必须手动分离2005-2019年的数据从2019-2020年的数据中选择2019年,并调用x_train
和x_test
而不是使用sklearn.model_selection.train_test_split()
方法。