如何对 x 和 y 坐标进行聚类以描绘住房子市场?

问题描述 投票:0回答:0

我正在尝试开发一个预测房价的模型。该模型的输入之一是给定邮政编码中的中位数和平均价格。这种方法的问题在于,在相同的邮政编码内,每平方英尺的价格可能从 1 倍到 3 倍不等,具体取决于房屋/公寓的位置。通常,位于边境的房屋与相邻邮政编码的相邻房屋比同一房屋内的其他房屋有更多共同点。这是因为有无数的外部因素可以影响给定房屋周长内的价格。

我想从数据中推导出住房子市场的划分,而不是强加它们。想象一下,只要周围环境的价格相同,周长就会变大。所以在一个范围内我们可以有多个邮政编码,有时它可能仅限于一个街区甚至一个街区。

挑战在于,在人口密度较低的农村地区,每平方英尺的价格波动很大,在这种情况下,我想避免为每个家庭地块设置一个集群。并强制算法选择包括最少数量的房屋,即使它们的价格/平方英尺可能大不相同。

另一个挑战是,有时住房成本可能非常相似,但每平方英尺的可变价格可能会有很大差异。发生这种情况是因为每增加一平方英尺,增加一平方英尺的边际成本往往会降低。换句话说,我如何控制较小的房屋每平方英尺成本较高的事实?我是否需要对每个类别的房屋进行多次聚类(从 0 - 100、100 - 200 ...)?

最接近我想要完成的想法是层次聚类。但我不确定它会给我预期的结果。

我尝试将 x 和 y 坐标直接输入我的 RF 模型。 r2 提高了 1%,这告诉我在我的数据集中更多地关注房屋的位置是改进我的模型的一个很好的方法。这就是我提出上述想法的原因。

谢谢你的帮助

machine-learning hierarchical-clustering
© www.soinside.com 2019 - 2024. All rights reserved.