我注意到在 Databricks 中,有一个“Workspace”文件夹部分和一个“Repos”文件夹 - 如下所示:
我一直在网上研究有什么区别,但没有运气。看起来他们的目的是一样的?我能够管理两者的源代码。
两者有什么区别吗?是否有我应该使用的最佳实践 - 特别是当我与团队合作时。
如您所见,有一个
Users
部分,其中有用户列表。配置用户后,每个用户的资源都可以轻松管理。
请参阅此Microsoft 官方文档,其中包含有关 Databricks 工作区的详细信息。
Repos基本上用于GIT集成。您可以添加您的存储库,如下所示:
每当我们想要使用 GIT 存储库时,我们都会使用 Repos,并且支持所有常规 GIT 操作。
请参阅此Microsoft 官方文档以完全了解 Databricks 存储库的功能。
所以,据我所知,当你的工作包括通过GIT进行开发时,你会选择Databricks Repos。任何不涉及 GIT 集成的事情都可以通过 Databricks Workspace 资源本身进行。
这些现已更新为同一事物的一部分:
虽然它们看起来仍然有点独立,但如果您愿意,您也可以在它们之间交叉引用 - 例如,要从工作区运行存储库中的笔记本,您可以编写
%run "/Workspace/Repos/[email protected]/repo-name/some-folder-in-the-repo/notebook-name"
我还没有测试其他方式(从存储库访问工作区文件夹),但如果你真的想要的话,想必这也可以工作 - 你可以通过使用省略号来获取某些内容的完整路径: