我使用以下代码将 Excel 文件导入到 Python 中:
import pandas as pd
file_name = (file.direction)
ExcelData = pd.read_excel(file_name, sheet_name = "File Name", header = 0)
Data = ExcelData.head()
此后我会:
df = pd.DataFrame(Data)
我的问题是我想从 sklearn.linear_model 类创建一个线性回归模型,为此我需要定义 X 和 Y 列。问题是:按照我导入数据的方式,如何引用 x 和 y 变量中的列?现在我正在做以下事情:
X = df[["ColumnName1", "ColumnName2", "ColumnName3"]]
y = df["ColumnName4"]
如果有人知道如何将列放入 x 和 y 变量中,我将不胜感激:)
要使用 scikit-learn Linear_model 中的“fit”方法,您可以直接使用 pandas DataFrame 来表示 X 向量,使用 pandas Series 来表示 y。
它应该可以工作,您可以使用下面的代码作为基础:
import pandas as pd
from sklearn import linear_model
my_df = pd.DataFrame({'col1': [0,1,2], 'col2': [0.5,1.5,2.5], 'col3': [1,2,3]})
reg = linear_model.LinearRegression()
X = my_df[['col1','col2']]
y = my_df['col3']
reg.fit(X, y)
reg.coef_