TF-IDF +多元回归预测问题

问题描述 投票:1回答:1

我在类似于Craigslist的门户网站上销售了大约10,000排车辆的数据集。列包括价格,里程,没有。以前的所有者,汽车出售的时间(以天为单位),最重要的是描述车辆的文本正文(例如“无事故,定期维修”)。

我想知道哪些关键字(如果包含在内)会导致汽车越早销售。但是我知道汽车出售的时间也取决于其他因素,特别是价格和里程。

在scikit-learn中运行TfidfVectorizer导致预测准确性非常差。不确定我是否应该尝试在回归模型中包括价格,里程等,因为它看起来很复杂。目前我正在考虑对数据的特定部分重复TF-IDF回归,这个数据足够巨大(也许丰田的价格在1万美元到2万美元之间)。

最后的手段是绘制两个直方图,一个是包含特定单词/短语的车辆清单,另一个是不包含特定单词/短语的直方图。这里的限制是我选择绘制的单词将基于我的主观意见。

是否有其他方法可以找出哪些关键字可能很重要?提前致谢。

python scikit-learn nlp regression prediction
1个回答
0
投票

正如你所提到的,你只能用文本正文来表达,这意味着文本对销售汽车的影响程度。

尽管该模型的预测准确性非常差,但您可以提前了解特征的重要性,以了解推动销售的单词是什么。

通过将ngram_range参数设置为(1,2),在tfidf矢量化程序中包含短语这可能会为您提供一个很小的指示,说明哪些短语会影响汽车的销售。

如果还建议你将tfidf的norm参数设置为None,检查是否有影响。默认情况下,它适用于l2规范。

差异将来自您正在使用的分类模型。尝试更改模型也作为最后一个选项。

© www.soinside.com 2019 - 2024. All rights reserved.