我正在创建一个“假”数据集。让我解释一下,我已经有了一个数据集(当然,我尝试尽可能多地研究它的拓扑结构。那就是研究相关性以及变量与变量之间的关系)。我现在的问题是,我“知道了数据集的特征”,我如何才能以最好的方式创建一个尽可能类似于我的原始数据集的数据集,同时希望能够整合扰动。
正如我所说,我只看一下数据“拓扑”。从这里我不相信做什么/怎么做。
如果你想获得一个真实的“假”数据集,你可以尝试在你的真实数据上训练一个生成模型。
假设您正在处理表格数据,CTGAN 或 TVAE 等架构可能会很方便。
有关该主题的一些有用链接:
https://towardsdatascience.com/how-to-generate-tabular-data-using-ctgans-9386e45836a6