数值变量和分类变量之间的简单线性回归

问题描述 投票:0回答:1

我需要你的帮助,因为我是数据分析方面的新手。我有一个数据框 iv csv,其中包含有关销售业绩的数据。数据集的列为“SalesDate”为 datetime64[ns]、“ProductCategory”为对象、“SalesAmount”为 int64、“CustomerAge”为 int64、“CustomerGender”为对象、“CustomerLocation”为 int64 和“ProductRatings”为 int64。除“SalesDate”和“SalesAmount”之外的所有变量都必须是分类变量。我的问题是:

  1. 我是否必须首先将变量转换为分类变量,然后使用方法 dummies 或 one-hot-encoding?
  2. 如何建立“SalesAmount”和“ProductCategory”之间的线性回归并进行预测?
python linear-regression categorical-data
1个回答
0
投票

您可以截取前五行数据的屏幕截图并分享吗?

根据您提供的信息:

  1. 我会查看您正在进行的分析类型,并将日期时间转换为更精确的格式。例如,如果您正在分析几年的数据,并且确切的销售日期不相关,则可以将日期时间列分成两个新列:月份和年份。

  2. 这取决于您想要预测的内容。因此,您应该将这些参数之一作为目标变量,并将其与数据集的其余部分分开。如果产品类别是您的目标变量,那么它不应该是分类任务而不是回归任务吗?

另外,我不确定为什么客户年龄(int 64)会是一个分类变量(除非它是一个范围)。因此,您可能想首先更仔细地研究数据。

© www.soinside.com 2019 - 2024. All rights reserved.