Git 仓库结构(多个数据集合并为一个主数据集)

问题描述 投票:0回答:0

我有不同的数据集 A、B 和 C,它们是分别收集和处理的,但需要合并到一个主数据集中。每个数据集将以不同的时间间隔更新,主数据集也将相应更新。来自与项目无关的人的贡献,例如开源贡献者,也将被接受。

我的数据集都在 csv 文件中,所有数据处理都是使用 R 完成的。

目前我有单独的 git 存储库用于数据集 A、B 和 C,具有以下项目文件夹结构: 源数据
原始数据
处理过的数据

函数
markdown(每个数据集的数据处理RMD文件)

并且每个数据集都被手动复制到主存储库中,在那里它们被合并到一个主数据集中,生成了 d 数据摘要,并发布在 github 页面上。

从我的谷歌搜索中,我发现以下选项可能可用:
(a) 将所有内容放在一个回购协议中。
(b) 一个存储所有数据集的存储库,每个数据集都有一个单独的分支
(c) Git 子模块(最好不要 https://medium.com/@uttamkini/sharing-code-and-why-git-submodules-is-a-bad-idea-1efd24eb645d
(d) Multiple repos (for each dataset and master):但在这种情况下,每次更新数据集时,将每个数据集复制到主存储库的过程是什么?

你认为哪个选项最适合我?在 (a) 或 (b) 的情况下,您将如何最好地构建 git repo。

database git github r-markdown project-management
© www.soinside.com 2019 - 2024. All rights reserved.