我有一个sas应用程序,我从oracle中提取数据,并使用基本sas和sas宏生成到excel的报告。现在的问题是,我的数据库一天比一天大,从oracle获取数据要花更多的时间,结果我的工作速度很慢。因此,我希望我的应用程序是建立在hadoop的报告和分析的目的。有没有人能给我一些建议,以及我需要用什么工具来实现这个目标。
zyfwsgd61#
简单的回答是:视情况而定。对于从oracle卸载数据,我建议您使用sqoop(http://sqoop.apache.org/),它是为这个特定的用例设计的,甚至可以进行增量加载,并且可以为卸载的数据创建配置单元表卸载数据后,可以使用impala构建所需的报告。 Impala 天生就可以和Hivetable一起工作,所以唱歌非常简单。当然,您必须将sas代码重写为一组运行在impala之上的sql语句。接下来,如果您需要可视化工具在上面运行,您可以尝试tableau之类的工具,或者任何其他能够利用odbc/jdbc连接到impala的工具最后,我认为hadoop+sqoop+impala可以满足您的需求。但我建议您也看看mpp数据库,因为使用sas意味着您拥有非常结构化的数据,mpp数据库更适合这种情况
1条答案
按热度按时间zyfwsgd61#
简单的回答是:视情况而定。
对于从oracle卸载数据,我建议您使用sqoop(http://sqoop.apache.org/),它是为这个特定的用例设计的,甚至可以进行增量加载,并且可以为卸载的数据创建配置单元表
卸载数据后,可以使用impala构建所需的报告。 Impala 天生就可以和Hivetable一起工作,所以唱歌非常简单。当然,您必须将sas代码重写为一组运行在impala之上的sql语句。
接下来,如果您需要可视化工具在上面运行,您可以尝试tableau之类的工具,或者任何其他能够利用odbc/jdbc连接到impala的工具
最后,我认为hadoop+sqoop+impala可以满足您的需求。但我建议您也看看mpp数据库,因为使用sas意味着您拥有非常结构化的数据,mpp数据库更适合这种情况