我对talend和apachespark在大数据生态系统中的位置感到困惑,因为apachespark和talend都可以用于etl。有人能举例说明一下吗?
fiei3ece1#
talend studio为spark提供内置组件,spark是这一点的主要引擎。由于内置的组件,它减少了编码时间。但是,如果您将直接使用spark和scalajava或python编写代码,那么构建公共组件就需要时间。talend使生活变得更简单,而且对于传统的etl开发人员来说也很容易采用。例如,如果有人来自abiinitio,他们可以通过查看talend提供的图或谱系来关联。但是为了扩展业务组件,人们需要编写代码i。talend工作室里的java和spark。还有一件事,talend负责打包jar并将其从windows部署到服务器,然后运行并在控制台中显示结果。
vql8enpb2#
事实上,talend big data studio为设计的etl作业生成apache spark代码。所以本质上他们是一样的。
hyrbngr73#
talend是一种基于工具的大数据方法,支持所有具有内置组件的大数据应用程序。其中as-spark是基于代码的方法,您需要为用例编写代码。
3条答案
按热度按时间fiei3ece1#
talend studio为spark提供内置组件,spark是这一点的主要引擎。由于内置的组件,它减少了编码时间。但是,如果您将直接使用spark和scalajava或python编写代码,那么构建公共组件就需要时间。talend使生活变得更简单,而且对于传统的etl开发人员来说也很容易采用。例如,如果有人来自abiinitio,他们可以通过查看talend提供的图或谱系来关联。但是为了扩展业务组件,人们需要编写代码i。talend工作室里的java和spark。还有一件事,talend负责打包jar并将其从windows部署到服务器,然后运行并在控制台中显示结果。
vql8enpb2#
事实上,talend big data studio为设计的etl作业生成apache spark代码。所以本质上他们是一样的。
hyrbngr73#
talend是一种基于工具的大数据方法,支持所有具有内置组件的大数据应用程序。其中as-spark是基于代码的方法,您需要为用例编写代码。