TF-IDF +多元回归预测问题

我在类似于Craigslist的门户网站上销售了大约10,000排车辆的数据集。列包括价格，里程，没有。以前的所有者，汽车出售的时间（以天为单位），最重要的是描述车辆的文本正文（例如“无事故，定期维修”）。

我想知道哪些关键字（如果包含在内）会导致汽车越早销售。但是我知道汽车出售的时间也取决于其他因素，特别是价格和里程。

在scikit-learn中运行TfidfVectorizer导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格，里程等，因为它看起来很复杂。目前我正在考虑对数据的特定部分重复TF-IDF回归，这个数据足够巨大（也许丰田的价格在1万美元到2万美元之间）。

最后的手段是绘制两个直方图，一个是包含特定单词/短语的车辆清单，另一个是不包含特定单词/短语的直方图。这里的限制是我选择绘制的单词将基于我的主观意见。

是否有其他方法可以找出哪些关键字可能很重要？提前致谢。

0
投票

正如你所提到的，你只能用文本正文来表达，这意味着文本对销售汽车的影响程度。

尽管该模型的预测准确性非常差，但您可以提前了解特征的重要性，以了解推动销售的单词是什么。

通过将ngram_range参数设置为(1,2)，在tfidf矢量化程序中包含短语这可能会为您提供一个很小的指示，说明哪些短语会影响汽车的销售。

如果还建议你将tfidf的norm参数设置为None，检查是否有影响。默认情况下，它适用于l2规范。

差异将来自您正在使用的分类模型。尝试更改模型也作为最后一个选项。