我们正在建立新的项目级代码目录,它将为不同的子项目托管pyspark、hive、sqoop和shell Package 器脚本。我们需要考虑长期目标来规划代码目录的结构。目前我有这样的结构-
Conf/ Scirpts/ - hql - shell - pyspark ...
但是上面的结构变得混乱,因为多个子项目开始有代码,太多的文件和太多的管理和搜索困难。有人可以建议,什么是理想的方式或更好的方式来安排代码目录根据过去的经验?
wvmv3b1j1#
考虑到代码通常是从边缘节点提交的,我建议限制对某些用户的ssh访问,然后至少将hdfs划分为用户帐户。。。hdfs已经有一个 /user 目录,从那里开始。hortonworks至少将配置单元的公共文件放入 /apps/hive/ ,Spark /apps/spark 所以共享库有一个登陆点。如果项目特定的文件不能放在单个目录中,并且需要比用户目录更细粒度的ACL,那么 /projects 或者只是在hdfs的根目录中创建一个全新的文件夹就可以了。划分完全孤立的项目的ocd方法是设置hdfs联合体和名称空间,在这里,您可以为公司内的每个主要计划设置一个名称节点。
/user
/apps/hive/
/apps/spark
/projects
1条答案
按热度按时间wvmv3b1j1#
考虑到代码通常是从边缘节点提交的,我建议限制对某些用户的ssh访问,然后至少将hdfs划分为用户帐户。。。hdfs已经有一个
/user
目录,从那里开始。hortonworks至少将配置单元的公共文件放入
/apps/hive/
,Spark/apps/spark
所以共享库有一个登陆点。如果项目特定的文件不能放在单个目录中,并且需要比用户目录更细粒度的ACL,那么
/projects
或者只是在hdfs的根目录中创建一个全新的文件夹就可以了。划分完全孤立的项目的ocd方法是设置hdfs联合体和名称空间,在这里,您可以为公司内的每个主要计划设置一个名称节点。