流程和文化

x33g5p2x  于2022-02-07 转载在 其他  
字(3.3k)|赞(0)|评价(0)|浏览(240)

一 研发阶段典型流程

二 需求阶段

一般在需求阶段都是产品经理写需求,程序员和架构师参与需求评审,确定实现需求的可行性和代价。一个高效的团队要有一套需求管理的系统,该系统能够展示需求的状态,是“未评审”“开发中”还是“已发布”等,并且记录整个需求的生命周期,通过该系统协同产品、设计、开发、测试等多个团队一起工作。

在评审需求时,产品经理要保证需求的完整性——开发人员和测试人员通过阅读需求单就可以进行后续工作,而不是还要通过开会才能详细了解需求。产品经理要保证文档尽量详细,内容无歧义。

目前可选用的工具是腾讯的 TAPD,业内也有许多其他类似的敏捷开发平台产品。开发团队依托于敏捷开发管理系统,管理项目在生命周期内的流转,需求管理系统为多团队敏捷开发提供了基础工具平台。

作为架构师,在需求评审阶段要为产品经理提供决策所需要的必要信息,包括实现的可行性、难度,大致工期的数量级(数量级可以为周、月、季度等)。有时要了解产品经理的真正需求,在需求评审阶段交换意见,最终确定实现目标的最优方案。否则可能会因为实现难度大,或者交付系统后用户不认可,最终返工。

三 开发阶段

1 架构评审

在开发阶段要进行架构评审,由具体开发人员和架构师设计系统的架构方案,然后同团队的资深工程师进行集体架构评审,主要是对架构的合理性和方案的优劣进行评审。

什么样的方案需要进行架构评审?通常开发的工作量超过三人天的方案,就可以进行架构评审。因为三人天是一个比较长的工期,对于长工期的工作,为了防止设计有偏差导致返工,花一些时间编写架构评审文档是值得的。如果工期很短的方案修改,则可以不经过评审。

架构设计模板

  • 需求背景
  • 系统限制
  • 设计思路
  • 整体架构
  • 对外接口
  • 数据结构和算法
  • 主要流程描述
  • 数据库表设计
  • 性能分析

2 代码开发

如果团队采用 Git ,则可以使用 Gitflow 工作流程,保证团队开发井井有条、高效协作。

当然 Git 只是一个工具,即使团队采用其他的工具,也可参考 Gitflow 流程,或者指定一套符合实际情况的代码开发流程,保证多个开发人员多条线进行开发代码时代码不冲突。

3 开发环境和运维环境分开

在开发过程中,针对不同的目标构建多种运行环境。

  • 开发环境:开发工程师开发代码时使用的环境,主要用于本地调试。
  • 自测环境:开发工程师自测时使用的环境,用来和上下游关联的系统联调时使用。可以长期部署稳定的代码,在提交到测试环境前,一般都会使用。
  • 测试环境:测试人员测试时使用的环境,开发人员不会对该环境进行操作,当开发人员提交测试申请时,测试人员根据提测的代码分支,把代码部署到这个环境中进行测试。
  • 预发布环境:在系统正式上线前,开发人员把要上线的代码发布到预发布环境,用于系统上线前的验证和测试。
  • 正式环境:外部用户所访问的环境,代码发布时的最终环境。

4 完善日志,设置告警百分比

在开发阶段就要把相应的日志、上报属性都添加好。

添加完日志和上报属性后,也要设置合理的告警,一般告警的属性值占全部属性上报量的 30 % 左右。

设置告警值的几种场景如下:

  • 出现异常,需要人为干预的场景
  • 超过正常请求量阈值的场景(发送消息数量超过了日常数值)
  • 请求量降低到正常值以下的场景
  • 资源消耗超过合理阈值的场景(CPU、内存、磁盘、网络带宽)

5 代码 review

代码提交测试前要进行代码评审工作,代码经过评审后才能提交测试。

评审代码是工程师之间互相学习的好方法,可以站在另一个人的角度发现代码的问题,增强开发人员的代码质量。

四 测试阶段

代码完成后,代码功能的正确性要通过测试来验证。

在将代码发给专职的测试人员之前,开发人员还需要自己进行测试。

自测主要验证两个方面:

  • 逻辑正确性
  • 性能瓶颈

逻辑正确性一般通过自动化测试和单元测试进行测试。

衡量测试工具是否合适有两点:

  • 测试用例是否方便执行
  • 测试执行是否快速

一般单元测试用例都在代码库里,当提交代码的时候,会自动触发集成程序运行用例,保证用例启动,并且执行成功后会反馈测试结果。

由于保留了测试用例,接手程序的新开发人员通过测试用例就可以了解程序的内部原理,这也是一种快速熟悉项目的方法。

还有一种自动测试的方法就是构建测试平台,测试平台以外部用户的角度进行黑盒测试。开发人员在提交代码后,触发测试平台进行自动化测试。测试时可以看到测试用例运行的效率和正确率。

除了验证逻辑正确性,在后台程序中,还要通过压测来验证程序的性能,找到程序的性能瓶颈。压测相对于对程序的一个小规模的模拟演习。

开发人员自测和测试人员测试的角度是不同的。测试人员的测试更多是对程序的边界,以及是否符合产品需求类对程序验证。开发人员的自测关注程序内部逻辑多一些,更多关注输入与输出是否符合预期。两种测试实现互补。

五 发布阶段

发布主要分为大版本和小特性发布。

大版本发布的是软件的一个新版本,通常涉及很多功能的变更,或者是一个从 0  到 1 的新系统。产品经理、项目经理、开发人员、测试人员、设计人员等都要在上线前体验预发布环境,验证发布的版本是否符合预期。一都会有一个 Checklist,针对每个角色需要做的工作,由相应负责人按照模板检查后一一填写结果。最终确定没问题后,开发人员和运维人员再按照发布节奏发布软件。

这里的 Checklist 大多是一些例行事务的检查。以开发为例,包含以下内容。

  • 确认发布时间
  • 确定发布顺序
  • 检查需要的资源和权限
  • 评审执行的脚本命令
  • 检查依赖软件是否正常安装并配置正确

如果是小特性发布,那么一般是为了增强系统提供的能力、修复 bug 等,可以直接创建特性分支。在小特性发布前,仅需要开发人员内部进行检查,然后发布即可。小特性发布相比大版本发布参与的角色会少很多,但对于开发侧,执行的方式,还有待发布的认真程度是一样的。凡是对运营环境进行变更操作,我们都要有敬畏之心,要保持谨慎的态度,以系统稳定为首要目标。

开发完成之后,还要写部署文档,下面是一个模板示例。

  • 业务背景
  • 业务流程
  • 业务模块上下游负责人
  • 实际部署架构图
  • 申请权限
  • 监控视图地址
  • 部署机器的IP地址
  • 对环境是否有要求
  • 项目代码路径
  • 其他

六 运营阶段

在运营阶段,工程师要多关注运营数据、程序上报日志和告警,针对运营环境的变化对程序部署进行处理。

在运营阶段,有时会因为一些变更,或者外部原因导致程序触发 bug,运行的程序产生异常,对用户造成影响,形成事故。

处理事故时要注意以下两点:

  • 及时将事故同步给 Leader 和相关人。
  • 尽快恢复业务。

在业务恢复后,再查找事故具体原因,对程序进行修复和加固。针对事故的原因和问题进行复盘,寻求解决方案。可以按照事故报告模板进行书写和跟进。

书写事故报告是为了积累经验,从事故中学习事故的处理方法,而不是为了处罚,要以正确的心态对待事故报告。

事故报告主要包含下面内容:

  • 事故的具体描述
  • 处理过程
  • 事故影响
  • 问题分析
  • 改进措施

七 管理机制

1 值班机制

在互联网行业,一般在节假日期间,用户的访问量会突增。但这个时候往往也是开发人员最少的时候,在节假日,开发人员要保持手机畅通,能够通过 VPN 处理紧急事故。同时要有人在节假日期间安排值班,观察服务是否正常,快速处理隐患。

2 项目交接

互联网业务发展比较快,行业人员变动比较大。项目有时要进行交接,由于开发频率很快,所以文档即使完善,也达不到传统软件文档的完备程度。

一个成熟的团队要有一套完备的项目交接流程。

最基本的要求是要让接手人熟悉项目架构文档和项目部署文档,了解项目设计原理和实际部署情况。

八 文化

1 工具文化

如果一个操作,你已经手工做过三次,那么要尽快用工具来实现这个操作。

对于反复重复的工作,都要思考是否能将其做成服务化的模块,或者变成自动的。

2 学习分享

互联网技术更新速度快,我们要持续学习,才不至于落后,对于新技术要有敏锐的嗅觉,多接触外界的新技术,新想法,多多 demo 进行测试,然后试验项目,最终达到大规模应用的目的,最好还能输出方法论。

3 就事论事

在开发过程中,对于技术方案,团队成员之间的理解不一定一致,这种情况下要直言不讳,针对需求或方案提出自己的观点,其他人的反对观点也要直接说出来,就事论事,站在技术的角度去讨论需求或方案。这样才能发现问题,团队技术能力才能提高。

相关文章