根据R中的邮政编码通过均等地划分行来创建两个数据集

问题描述 投票:0回答:1

我有一个包含客户代码,客户名称和邮政编码的数据集。数据集有149130行。我想将其平均分为两个数据集(每个74565行)并在excel中导出。但是我想确保一个邮政编码是否有两个客户-一个去数据集1,另一个去数据集2。其余的可以是客户的随机选择。我是r的新手,曾经尝试过各种培训/测试和示例代码-但是我无法达到所需的结果。

总结-我试图从数据框中创建2个随机样本,但要确保如果在某个邮政编码下有2个以上的客户-应该在两个样本之间平均分配他们。

TIA

r random dplyr tidyverse purrr
1个回答
0
投票

我的一般做法是:

  • 从起始数据集中创建具有唯一邮政编码的额外数据集
  • 如有必要,随机洗牌
  • 将其分成两半
  • 右加入起始数据集,其中一半在邮政编码上以获得第一个样本,而另一半则获得第二个样本
© www.soinside.com 2019 - 2024. All rights reserved.