我有一个包含客户代码,客户名称和邮政编码的数据集。数据集有149130行。我想将其平均分为两个数据集(每个74565行)并在excel中导出。但是我想确保一个邮政编码是否有两个客户-一个去数据集1,另一个去数据集2。其余的可以是客户的随机选择。我是r的新手,曾经尝试过各种培训/测试和示例代码-但是我无法达到所需的结果。
总结-我试图从数据框中创建2个随机样本,但要确保如果在某个邮政编码下有2个以上的客户-应该在两个样本之间平均分配他们。
TIA
我的一般做法是: