我对机器学习还很陌生,我想知道某些算法/模型(即逻辑回归)是否可以将列表作为其变量的值来处理。到目前为止,我一直使用非常标准的数据集,其中有几个变量,关联的值,然后是这些值集的分类(请参见示例1)。但是,我现在有一个类似的数据集,但其中包含一些变量的列表(请参见示例2)。这是逻辑回归模型可以解决的问题,还是我必须进行某种特征提取才能将此数据集转换为仅像示例1一样的普通数据集?
示例1(正常):
+---+------+------+------+-----------------+
| | var1 | var2 | var3 | classification |
+---+------+------+------+-----------------+
| 1 | 5 | 2 | 526 | 0 |
| 2 | 6 | 1 | 686 | 0 |
| 3 | 1 | 9 | 121 | 1 |
| 4 | 3 | 11 | 99 | 0 |
+---+------+------+------+-----------------+
示例2(列表):
+-----+-------+--------+---------------------+-----------------+--------+
| | width | height | hlines | vlines | class |
+-----+-------+--------+---------------------+-----------------+--------+
| 1 | 115 | 280 | [125, 263, 699] | [125, 263, 699] | 1 |
| 2 | 563 | 390 | [11, 211] | [156, 253, 399] | 0 |
| 3 | 523 | 489 | [125, 255, 698] | [356] | 1 |
| 4 | 289 | 365 | [127, 698, 11, 136] | [458, 698] | 0 |
| ... | ... | ... | ... | ... | ... |
+-----+-------+--------+---------------------+-----------------+--------+
为我的特定问题提供一些其他背景信息。我试图代表图纸。工程图具有宽度和高度(规则变量),但是工程图还具有一组水平线和垂直线(表示为它们在各自轴上的坐标列表)。这是您在示例2中看到的。我正在使用的实际数据集甚至更大,还包含一些变量,这些变量包含包含每行粗细的列表,包含每行扩展名的列表,包含各行之间空格颜色的列表。最后,我想对我进行逻辑回归分析,以了解制作精美图纸的结果。例如,如果有太多的线条,线条太接近,则绘制效果不好。该模型应该根据构成“好”和“坏”图纸的这些“特征”进行自我评估。
我没有包括这些信息,因为设置数据的方式有点难以解释,如果我能解决上述数据集的问题,我觉得我也可以对其余数据集使用该解决方案的原理。但是,如果您需要其他(完整)详细信息,请随时询问!
提前感谢!
不,它不能直接处理这种输入结构。输入必须是齐次的2D数组。您可以做的是,使用new功能来捕获列表中包含的一些相关信息。例如,对于包含沿轴的线坐标的列表(而不是实际值本身),列表可以是线之间的间距或线的总数,也可以是一些统计信息,例如平均位置等。
因此解决此问题的方法是通过feature engineering。实际上,这是大多数情况下必须处理的事情。在许多ML问题中,您不仅可能具有描述每个数据样本的