Python / SQL / Excel我有12个数据集,我想将它们组合成一个代表集

问题描述 投票:0回答:1

我正在尝试使用12个不同的经验数据数据集创建预测曲线。基本上我想编写一个传递2个变量(应用程序数,天数)的函数,并根据我拥有的12个数据集生成预测曲线。数据集全部有60天,应用程序数量从500到100,000。

我不太确定最好的方法是什么,我想可能会考虑每天申请总数的平均百分比(例如:第1天平均有3%的申请总数,平均每天10天)是10%,等等)是一个很好的起点,但我不确定这是不是最好的方法。

我有python,SQL和excel可供我使用,但我不一定只是寻找一个特定的解决方案,只是对方法的一般建议。任何帮助将非常感激!

python sql excel statistics
1个回答
0
投票

听起来你想将它全部分成3列的(60 * 12)行:一列记录应用程序号,另一列记录时间,另一列记录位置。然后,模型可以将每个位置虚拟为预测器,并且您可以生成12个具有不确定性的模拟预测。然后,为了获得一个整体预测,请对这些预测进行平均 - 引导,然后在您喜欢的情况下汇总预测。你想要的模型时间 - 自回归,卡尔曼滤波器,最近邻(尽管可能没有足够的数据)。只是不要单独模拟每个时间点,否则你将拥有一个完美的模型。

但请注意您可以在此处建模的位置之间可能存在的相互作用。将它们全部弄清楚假定它们之间没有任何相互作用,或者至少一个你关心的,或与你关心的任何事物有关。它只是考虑固定效应,即你假设每个位置内的动态时间是相同的,只是某些位置总体而且平均而言具有比其他位置更高的应用程序数量。您可以根据其他位置的应用程序编号(当前编号,过去编号等)得出大量与任何给定位置相关的预测变量。所有这些都取决于您认为可能的内容和信息。

© www.soinside.com 2019 - 2024. All rights reserved.