oracle—将etl作业从ibm datastage转换为apache spark

ao218c7q 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(500)

我们所有的etl工作负载都是在ibmdatastage和oracle上作为数据库设计的，已经有大约10年了，但是现在，企业正在寻找开源平台的选择，这些平台提供分布式并行计算，以在更短的时间内完成相同的任务，并在技术上节省一些成本。我从来都不是一个java人，但是我有python知识，我也接受了apachespark的正式培训，我想利用这些知识将我们现有的datastage设计转换成spark。下面给出了我们目前在所有datastage作业上执行的一些常见操作
从平面文件（txt/csv）读取数据
对其他小数据表执行查找（正常/范围/稀疏）
执行与其他大表的联接
将数据写入表
调用siebel enterprise integration manager将数据从一个表加载到siebel表
从多个表中提取数据并创建单个平面文件（txt/csv）
将文件ftp到目标服务器
所有这些操作都能在spark上完成吗？至少我正在努力重新创建spark中的第1步、第2步、第3步、第4步和第6步，就我的spark知识而言，这是可以实现的。
请帮助/引导我找到在这方面有帮助的资源。

apache-spark oracle datastage

来源：https://stackoverflow.com/questions/63912208/translating-etl-jobs-from-ibm-datastage-to-apache-spark