如何在hadoop中构造代码目录

5n0oy7gb  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(367)

我们正在建立新的项目级代码目录,它将为不同的子项目托管pyspark、hive、sqoop和shell Package 器脚本。我们需要考虑长期目标来规划代码目录的结构。
目前我有这样的结构-

Conf/
Scirpts/
  - hql
  - shell
  - pyspark
  ...

但是上面的结构变得混乱,因为多个子项目开始有代码,太多的文件和太多的管理和搜索困难。
有人可以建议,什么是理想的方式或更好的方式来安排代码目录根据过去的经验?

wvmv3b1j

wvmv3b1j1#

考虑到代码通常是从边缘节点提交的,我建议限制对某些用户的ssh访问,然后至少将hdfs划分为用户帐户。。。hdfs已经有一个 /user 目录,从那里开始。
hortonworks至少将配置单元的公共文件放入 /apps/hive/ ,Spark /apps/spark 所以共享库有一个登陆点。
如果项目特定的文件不能放在单个目录中,并且需要比用户目录更细粒度的ACL,那么 /projects 或者只是在hdfs的根目录中创建一个全新的文件夹就可以了。
划分完全孤立的项目的ocd方法是设置hdfs联合体和名称空间,在这里,您可以为公司内的每个主要计划设置一个名称节点。

相关问题