我最近遇到了apachekylin,很好奇它的用例是什么。据我所知,它似乎是一个工具,旨在解决与100多亿行、聚合、缓存和查询来自其他来源(hbase、hadoop、hive)的数据相关的非常具体的问题。我的假设正确吗?
sdnqo3pr1#
apachekylin的用例是hadoop上的交互式大数据分析。它可以让您在亚秒的延迟下通过3个简单的步骤查询大型配置单元表。在星型架构中标识一组配置单元表。在脱机批处理过程中从配置单元表构建多维数据集。使用sql查询配置单元表,并通过restapi、odbc或jdbc在几秒钟内获得结果。这个用例非常通用,只要您可以从表中定义星型模式和模型立方体,它就可以快速查询任何配置单元表。如果您不确定什么是星型模式,什么是立方体,请查看kylin术语。kylin提供了ansisql接口,因此您可以像以前一样查询配置单元表。然而,一个限制是kylin只提供聚合结果,或者换句话说,sql应该包含一个“groupby”子句来产生正确的结果。这通常是好的,因为大数据分析更多地关注聚合结果,而不是单个记录。
1条答案
按热度按时间sdnqo3pr1#
apachekylin的用例是hadoop上的交互式大数据分析。它可以让您在亚秒的延迟下通过3个简单的步骤查询大型配置单元表。
在星型架构中标识一组配置单元表。
在脱机批处理过程中从配置单元表构建多维数据集。
使用sql查询配置单元表,并通过restapi、odbc或jdbc在几秒钟内获得结果。
这个用例非常通用,只要您可以从表中定义星型模式和模型立方体,它就可以快速查询任何配置单元表。如果您不确定什么是星型模式,什么是立方体,请查看kylin术语。
kylin提供了ansisql接口,因此您可以像以前一样查询配置单元表。然而,一个限制是kylin只提供聚合结果,或者换句话说,sql应该包含一个“groupby”子句来产生正确的结果。这通常是好的,因为大数据分析更多地关注聚合结果,而不是单个记录。