如何手动选择要测试的数据[关闭]

问题描述 投票:-2回答:1

我导入了具有各种股票价格的数据集,并正在尝试制作一个可以粗略预测价格的程序。如何手动选择训练哪些数据和测试哪些数据。到目前为止,这是我的代码

下面是我的代码

data = pd.read_csv("/Users/x/x/x")

data = data[['PAST', 'FUTURE']]

x = np.array(data.drop([predict], 1))
y = np.array(data[predict])

x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(x,y,test_size=0.1, random_state= 10) 

linear = linear_model.LinearRegression()

linear.fit(x_train, y_train)
python tensorflow machine-learning predict manual
1个回答
0
投票

通过某种方式,您正在手动选择测试数据集:

x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(x,y,test_size=0.1, random_state= 10)

.train_test_split()的参数是数据列表xy,然后test_size是要用于测试的数据的某些百分比,并且random_state定义了用于随机数的种子数字生成器。

您当前已将测试数据的大小设置为提供的模型数据的10%,并且模型将随机选择10%的数据用于测试。如果您打算手动创建训练数据集,例如要在2005-2019年的苹果股票数据上训练模型,并在最近一年进行测试,则必须手动分离2005-2019年的数据从2019-2020年的数据中选择2019年,并调用x_trainx_test而不是使用sklearn.model_selection.train_test_split()方法。

© www.soinside.com 2019 - 2024. All rights reserved.