在hadoop中,对通过knox+webhdfs访问的数据大小有限制吗?

8xiog9wr  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(393)

在hadoop中,通过knox+webhdfs可以访问/摄取到hdfs的数据大小有没有限制?

des4xlb0

des4xlb01#

理论上,没有限制。但是,使用knox会造成瓶颈。纯webhdfs将每个块的读/写请求重定向到(可能)不同的datanode,并行化访问;但是对于knox,所有的东西都通过一个网关进行路由和序列化。
也就是说,您可能不想使用knox和webhdfs上传一个巨大的文件。它只会花费太长时间(根据您的客户机,您可能会得到一个超时)

3gtaxfhh

3gtaxfhh2#

当您需要从受防火墙保护的集群外部访问webhdfs资源时,apacheknox是最佳选择。如果您不能访问所有的datanode端口,那么直接访问webhdfs将不适合您。为所有这些打开防火墙孔host:ports defeats 防火墙的目的,引入了一个管理噩梦,不必要地向外部客户泄露网络细节。
正如hellmar所指出的,这取决于您的特定用例和客户机。如果您需要摄取大量文件或大量文件,那么您可能需要考虑一种不同的方法来访问这些客户机的集群内部结构。如果您只需要访问任何大小的文件,那么您应该能够将该访问扩展到许多客户机。
不必使用kerberos/spnego进行身份验证来访问这些资源,就可以打开许多可能的客户端,否则这些客户端将无法用于安全集群。
knox用户指南提供了访问webhdfs资源的示例—您可以找到它们:http://knox.apache.org/books/knox-0-7-0/user-guide.html#webhdfs -这也说明了nox提供的基于groovy的脚本。这可以让你做一些真正有趣的事情。

相关问题