Apache Spark 为每个数据工程师提供一个专用的数据砖开发环境

vcirk6k6  于 2023-05-07  发布在  Apache
关注(0)|答案(1)|浏览(152)

我是一个使用Databricks的新手,我来自SQL Server平台,每个开发人员都有一个小型的本地开发环境,每个人都可以在其中部署代码,运行本地测试等等。
不是服务器在本地,更重要的是开发人员A可以从他的本地分支仓库部署代码,开发人员B也可以这样做,而不会覆盖彼此的代码。
所以我的场景是,有一个功能分支,两个或更多的数据工程师在同一个功能上一起工作。它们各自交付一部分工作,当然它们处理不同的对象(也就是说,它们交付不同的视图和表)。
有一个远程特性分支和两个本地特性分支,每个开发人员一个。
开发人员A为视图编写代码,并且希望在代码提交到远程分支之前对其进行测试,他/她将在哪里测试视图?“createview....”代码将在哪里运行,对于该特性的特定开发者本地分支,而不干扰第二个开发者的工作?
这对于可靠的CI流是需要的,其中每个开发人员可以在提交到远程分支之前用数据测试自己的代码,加上devops触发提交到分支共享环境的能力,其中运行进一步的测试以确保开发人员A提交不会中断开发人员B的工作等。
这在数据砖设置中如何工作?有没有人做过类似的事情?是否有工具可以创建这样的环境?
我知道在数据砖中,每个开发人员都可以拥有自己的笔记本和代码库,但是我如何为每个开发人员(以及每个分支)管理单独的目录/模式?

b4wnujal

b4wnujal1#

Databricks Enterprise 2.0中提供了多个工作区功能。此功能允许您为每个开发人员创建单独的工作区,使他们能够处理自己的代码,而不会相互干扰
参见:Functional Workspace Organization on Databricks
至于为每个开发人员管理单独的目录或模式,您可以在工作区中创建单独的数据库,并授予每个开发人员对他们自己的数据库的访问权限。这样,每个开发人员都可以处理自己的一组表和视图,而不会相互干扰。

相关问题