🍒在上一章中,我们介绍了DataWorks的基本组成结构,其实和我在滴滴实习时候的数梦如出一辙,但是很多其他同学可能没有接触过这一类的产品,这篇博客我将在DataWorks上通过创建项目、同步数据、编写SQL程序、配置调度任务、运维监控等环节,实现完整的数据处理流程。 对往期内容感兴趣的同学可以查看下面的内容👇:
🍊本文主要是通过实验来看看DataWorks是如何处理数据的,各种功能的说明都将以实验步骤的形式展现给大家。模拟Mysql数据库为生产系统,实现从生产系统抽取数据到MaxCompute中,进行数据自动化分析处理。
1. 环境准备
启动DataWorks环境:
进入数据开发:
2. 数据同步
2.1 创建数据库
- 选择RDS(分布式Mysql):
- 找到创建的实例:
- 创建数据库:(名字随便)
- 创建数据库账号:(用户名和名字符合要求,一定要记住呀!)
创建成功:
- 登录数据库:
2.2 上传数据到数据库
- 上一节我们创建了数据库,但里面没有表和数据,所以我们在数据库里创建数据表:
- 上传本地数据:
- 任务调度选择执行变更
执行成功
- 查看数据库中的数据:
2.3 ODPS中添加RDS数据源
这一部分是在大数据环境中配置外部数据源。
- 在DataWorks中点击数据集成:
- 新增数据源
- 选择我们的mysql
- 连接数据源:
连接成功:
2.4 同步RDS数据到ODPS
数据源配置好了,然后需要将数据导入到DataWorks中。
- DataWork中新建业务流程
- 业务流程命名:
- 点击离线同步
- 双击节点,进行数据同步设置。
- 设置数据来源,选择MySQL库,rds_lab数据源,t_dml_data表。
- 设置数据去向,选择ODPS库,odps_first数据源,点击一键生成目标表。
- 设置完保存,记得一定要保存。
- 同步数据,设置完成后,“提交”业务流程。
- 可以预览数据表:
3. 数据开发
本小节目的是创建目标表t_dml_result,用于存储数据分析后产生的结果。
3.1 创建开发的表
- 进入数据开发页面,点击“临时查询”,右键新建节点ODPS SQL;
- 输入节点名字,提交:
- 我们创建一张分区表
- 创建成功后,在公共表中可以找到:
3.2 新建业务流程
- 进入数据开发页面,展开左侧菜单,点击“数据开发”,选择“新建业务流程”;
- 新建虚拟节点:打开业务流程,在“通用”中点击“虚拟节点”,输入节点名后点击“提交”。
- 在“MaxCompute”中,点击“ODPS SQL”,输入节点名称后点击“提交”。
- 双击数据节点,编辑SQL语句, 点击“保存”。
- 设置依赖关系
- 节点间通过拖拽连线形成上下游依赖关系。
- 提交业务流程
- 右击节点查看属性
4. 任务运维
4.1 打开运维中心
- DataWorks的右上角‘运维中心’
4.2 运维中心功能
- 运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控五大模块。
任务列表分周期任务和手动任务。
- 周期任务:调度系统按照调度配置自动定时执行的任务。
- 手动任务:新建任务时,调度类型选择手动任务后,提交到调度系统的任务。
- 选择左侧菜单栏中的“周期任务运维“->“周期任务”,查看已提交的周期任务。选中任务,点击鼠标右键,可执行相应操作。
4.3 智能监控模块
智能监控模块在如下位置:
- 智能监控监控规则
5. 数据管理
- 这部分主要是在数据地图中实现
- 然后查找你需要的表
- 数据地图模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。
6. 总结
在这一部分中,主要实现的是数据源的接入、简单的数据开发、调度任务的发布、数据地图的查看这一系列流程,博主在滴滴实习时,和这套流程一模一样,当做是又开发了一个项目吧,哈哈哈!区别在于,以前加入项目,创建表啥的都需要主管审批,但做这次的实验,权限控制需要自己来设置,也算是体验了一把拥有高级权限的感觉,大家可以看着我的过程慢慢理解!
7. 参考资料
《阿里云全球培训中心》
《阿里云DataWorks使用手册》