我试图理解模拟在hadoop环境中是如何工作的。我找到了一些资源,比如:关于doa和代理用户-hadoop kerberos指南和关于令牌-委托令牌。
但我没能把所有的点点滴滴都和整个行动联系起来。我目前的理解是:
用户执行kinit并执行面向最终用户的程序,如beeline、spark submit等。
这个程序是特定于应用程序的,可以获得hdfs的服务票
然后,它获取在作业执行期间可能需要的所有服务的令牌,并将令牌保存在hdfs目录中。
然后,该程序将作业执行器(使用作业执行器的服务票证)例如yarn与作业信息和令牌路径连接起来。
作业执行器获取tocken并初始化ugi,所有与hdfs的通信都是使用令牌完成的,kerberos票证不使用。
上述高层理解是否正确(我有更多的后续查询。)是否可以跳过令牌mecahnism并在每一层仅使用kerberos,如果可以,任何资源都会有所帮助。
我的最终目标是为不使用hadoop(令牌)但支持kerberos的数据存储系统编写一个支持模拟的spark连接器。
感谢与问候-sri
暂无答案!
目前还没有任何答案,快来回答吧!