我正在建立一个模型,该模型将预测流经管道的产品的交付周期。
我有许多不同的功能,一个是包含有关产品用途的几个单词的字符串(通常是缩写,它将是应用程序的名称的一部分,依此类推)。进行要素工程时,我以前根本没有使用过该字段。
我以为对这种数据进行某种类型的聚类,然后将聚类ID用作我的模型的功能会很好,也许交货时间与该字段中存在的信息类型相关。] >
这是我的想法)
1)清洁和标记文本。
2)TF-IDF
3)聚类
但是仔细考虑之后,这是一个坏主意吗?因为聚类是基于旧数据的,所以如果在新数据中引入了新单词,则聚类算法将不会捕获到新单词,因此现在应该对数据进行不同的聚类。这是否意味着我想预测新数据点时就必须重新训练整个模型(k均值模型,然后是监督模型)?是否有任何最佳做法?
是否有更好的方法来查找文本数据的簇以用作监督模型中的特征?
我正在建立一个模型,该模型将预测流经管道的产品的交付周期。我有很多不同的功能,一个是包含一些有关...
我了解先使用无人监督的聚类算法以亲自了解发现了哪些聚类的冲动。当然,如果这样的方法可以帮助您完成任务,则可以尝试。