软件交付效能度量——从吞吐量和稳定性开始


cover

为了提升软件交付效能,你的团队或组织可能已经开始采取行动,引入敏捷方法、DevOps实践甚至还有架构重构。但你如何知道这些改进措施起了作用呢,或者它们压根就水土不服呢?简单来说,除了感性的工作体验外,你需要一些指标来度量交付效能。

唯快不破

提升交付效能的最重要的目标之一就是能”快起来”,那么如何定义”快”呢?我们更倾向于度量吞吐量,吞吐量是指单位时间内团队完成的工作量。

1.变更前置时间

Lead Time for Changes,变更前置时间指的是开始编码到部署所耗费的时间。如果变更前置时间过长,可能意味着开发或部署过程的某些环节出现了问题或阻碍。这是一个典型的吞吐量指标,更强调的是对于单个用户故事/用例需要花费多长时间才能获得实际反馈。

我之前受邀参与某个项目,当时团队的直观感受是进度滞后。通过度量变更前置时间,我们发现用户故事从进入”开发中”到”准备QA测试”(意味着开发同事已经完成了开发并按照验收标准进行了自行验证)的中位数时间是4.5天,这意味着近一半的用户故事在一个工作周内都不会得到有效的反馈,而在一周之后往往可以”惊喜”地发现实现方案有问题,需要返工。因此,我们把降低变更前置时间、增加吞吐量作为目标,帮助业务分析师和Tech Leader在保证INVEST原则的情况下进一步拆分故事卡作为手段,在三周之后将变更前置时间的中位数降低到2.5天。虽然更细粒度的故事卡带来了更频繁的开卡、关卡活动,看似造成了更多的工作量,但由此带来的频繁交流和目标拉通,降低了返工的可能,使得项目进度逐渐恢复正常。

2.部署频率

Deployment Frequency,部署频率,我认为这是吐吞量的另一种度量方式,更频繁的部署往往意味着单次部署包含的变更更少,但对于某个特性来说,可以更快地获得产生价值,获得实际反馈。而且,同变更前置时间相比,部署频率往往更直接地意味着团队/组织在工程实践方面有着良好的理解和应用。

唯快不破,并非只强调快

我曾经在一家传统企业工作,在没有敏捷方法和工程实践加持的情况下,我们也做到了每周一次发布。但几乎每次发布后,随之而来的是紧急发布,以修复发布后出现的各种问题。在一次对客服中心的拜访中,我了解到客服部门对IT部门的每周发布并没有什么好感,因为每次发布后都如临大敌,客户投诉可能呼啸而至。因此,我们在追求“快”的同时,还得保住“稳”,否则频繁出现故障的使用体验,甚至会抵消快速创新的努力。 那么,我们应该关注哪些“稳定性”指标呢?

3.变更失败率

Change Fail Rate,变更失败率是指发生变更后出现故障的几率。理论上来说,当我们引入敏捷方法和DevOps实践快速迭代时,随着时间的推移和实践及工具的成熟,单次部署/发布包含的变更项会逐渐减少,由此变更失败率也会最终降低。因此,如果变更失败率居高不下,可能意味着在过程或工程实践中出现了某些问题或阻碍

4.服务恢复耗时

Time to restore service,服务恢复耗时是指当服务中断或降级后,需要花费多少时间将服务恢复正常。每次部署包含的变更多寡、技术债务堆积程度对该指标有一定影响,但将该指标放在这里有一些争议,因为在一些合作模式中,造成故障的部分原因或修复措施并不在交付团队的工作范围内(例如基础设施)。

为什么优先度量这些指标

读到这里,你可能会发现以上四个关键指标来自于一份业界知名的DevOps报告,为什么在度量交付效能的时候,要优先考虑DevOps指标呢?

在19年4月的技术雷达中,是这样回答的

研究人员证实,只需四个关键指标就能区分低绩效、中绩效和高绩效人员:前置时间、部署频率、平 均修复时间(MTTR)和变更失败率。的确,我们已经发现这四个关键指标是个简单却强大的工具,可帮助领导和团队专注于衡量并改进重要的环节。

从另一个角度来说,这四个指标距离客户的直观感受更接近,这意味着它们更能体现真实的价值。同样的情况可以参考应用监控,在《Practical Monitoring》一书中,作者极力推荐优先从用户视角建立监控指标,这比底层指标更容易得出结论:例如响应延迟,是用户是能感受到的,延迟升高了可能意味着出现问题,但CPU使用率用户是感受不到的,其增高也未必说明问题,可能有些应用运行在高负载CPU是常态。

最后则是从成本考虑,避免在一开始的时候就规划并实施一个大而全的度量体系,从而付出不必要的管理成本

度量需要投入团队的时间,项目管理人员的时间,质量保障人员的时 间,以及公司管理人员的时间,还可能会有工具和基础设施的投入。围绕 各种目标需要度量体系的设计和实施,体系的运转需要数据的收集、分析 和汇报,这些环节做得不到位是不可能产生预期效果的,而要做到位,所 需的投入可能并不是一个可以忽略的小数目。因此,目标和指标的选择就 显得特别重要,试图实施一个大而全的度量体系,通常弊大于利。

​《精益软件度量》,度量不是什么

诊断型指标

如果说以上四个关键指标告诉我们的是交付效能的变化趋势,那么下一步,我们可以寻找更细粒度的指标来告诉我们如何进一步改进它们。

之前的四个关键指标更像体温计,它们可以快速地反映现在是否健康,但它们不能告诉我们病因。接下来我们需要的是验血报告,报告中有很多明细的指标,单个指标或许并不能说明什么,但若干异常指标的组合在一起往往可以帮助医生判断病灶,或许可以将这些明细指标称作”诊断型”指标。

常见的”诊断型”指标包括但不限于:

  1. 平均构建时间
  2. 测试覆盖率
  3. 代码圈复杂度
  4. 团队速率

以上这些(以及更多其他)指标从代码复杂度、测试策略、基础设施水平等更”底层”的维度解释交付效能健康或不健康的原因,它们可以帮助团队在做出进一步针对性的改进。

总结

  1. 除了感性的工作体验外,我们还需要指标来度量改进措施是否对提升软件交付效能有帮助。
  2. 过多的指标会对团队造成不必要的管理成本,也容易让团队失去关注焦点。
  3. 从吞吐量和稳定性两个维度考量的四个关键指标是简单但有效的指标,建议优先度量。

参考

Accelerate: State of DevOps 2018 Strategies for a New Economy, By DevOps Research & Assessment

https://www.thoughtworks.com/cn/radar/techniques/four-key-metrics

Practical Monitoring, By (author) Mike Julian

《精益软件度量》,作者: 张松


Published on 04 May 2019.
Comments
Category: Rambings


不就是个短信验证嘛,还真挺复杂的——如何为ThoughtWorks设计可复用组件


cover

不就是个短信验证嘛,有这么复杂吗?

安全专家马伟老师日前发布了《#博客大赛#不就是个短信验证嘛,有这么复杂吗?》一文,引起广泛关注。

文章以“新增手机号和短信验证码登录”简单的一句话需求最终演变为

故事卡-274 作为用户,我可以通过手机号和短信验证码登录,以便于我更方便的登录。 安全验收标准:

  • 短信验证码有效期2分钟
  • 验证码为6位纯数字
  • 每个手机号60秒内只能发送一次短信验证码,且这一规则的校验必须在服务器端执行
  • 同一个手机号在同一时间内可以有多个有效的短信验证码
  • 保存于服务器端的验证码,至多可被使用3次(无论和请求中的验证码是否匹配),随后立即作废,以防止暴力攻击
  • 短信验证码不可直接记录到日志文件
  • (可选)发送短信验证码之前,先验证图形验证码是否正确
  • (可选)集成第三方API做登录保护

实际上,根据我的经验,还可以再加一些验收条件

  • 应该可以通过配置白名单的方式,只向特定手机号码发送验证码,以免在非生产环境测试时发生打扰真实用户的事故
  • 应该可以通过配置By Pass的方式,在特定环境禁用短信验证码发送,并总是验证通过,以便在非生产环境节约短信配额

一个小小的需求可以衍生出如此之多的验收条件,而且其中不少是非功能性的(不容易识别的、不容易实现的),以至于有同学感叹:

厉害,短信验证这个事,如果有人做成整套解决方案直接调用就好了,就像keycloak一样

实际上,我深有同感,今年某客户项目上,想开发一个手机号码验证的功能,我原以为都8102年了,阿里云应该有全套解决方案了,结果只能提供短信发送服务(其实单就发送短信来说,开发体验已经很不错了),但验证的工作还是要自己开发的。我也咨询过一些“老法师”:

这个验证其实也很简单,可能就没有开发可复用解决方案的价值了吧?

反正我确实没找到整套解决方案。。。

那谁,出门时把门带下,我要造车了

在微服务的大潮下,如果想要复用短信验证的能力,最先想到的是开发一个短信验证服务,开放API给Consumer验证手机号码或是短信登录,名字我都想好了,叫sms-otp(OPT为one time password缩写)。

cover

sms-otp 服务

如果我是甲方IT部门,可能就这么做了,找到一个软件集成商实现sms-otp就行了。

虽然这辆特斯拉很酷,但我不会开车

作为数字化厂商,ThoughtWorks可能需要为很多客户交付短信验证服务,并且出于专业要求,我们并不会把为A客户定制的代码复制到B家使用,这时候一个开箱即用的微服务是最佳选择吗?让我们一起先来看看有哪些问题需要解决

  1. 看似简单的需求,其实有很多隐藏的验收条件,稍有不慎,容易阴沟翻船
  2. 虽然软件开发是一种手艺,但没人想一直重复开发同样的功能,我们不是一家意大利公司
  3. 虽然是比较通用的需求,但需要易于集成(例如集成不同的短信供应商)
  4. 好吧,就算我们是一家意大利公司,但是这样太贵了

微服务对于1,2,3都算解决的不错,但如果还有其他的“通用”需求呢?例如支付宝支付、微信登录呢,微服务的数量就开始膨胀了。在一些项目中,部分客户的IT基础设施比较滞后,尤其是一些跨国公司的中国分公司,甚至没有中国区的软件系统,合作初期的项目规模也不大,这类项目未必适合以微服务启动。

那有没有更灵活的方案,既可以在单体应用中开箱即用,又可以按需扩展为独立服务呢?

这里有一把锤子

提到开箱即用,近几年在Java业界最火的就是Spring Boot了,Auto Configuration大大提高了新应用搭建的速度,在需要定制时又不失灵活性。我觉得这是把好锤子,来敲两下看看是不是找对了钉子?

image-20181213160831916

由外滩一号孵化中的Custom Spring Boot Starter,大名。ThoughtWorks“外滩一号”是一个内部自发建立的组织,通过扣命小程序(详见#博客大赛# 数字化敏捷交付的尝试——以“扣命小程序”为例 ),积累了一定的孵化方法。

为项目添加Starter:

compile group: "com.github.hippoom:sms-verification-starter:${latestVersion}"

# 如果需要使用开箱即用的Redis验证码存储
compile "org.springframework.data:spring-data-redis:2.1.2.RELEASE"
# 如果需要使用开箱即用的Aliyun短信服务
compile("com.aliyun:aliyun-java-sdk-core:4.0.6")
compile("com.aliyun:aliyun-java-sdk-dysmsapi:1.1.0")

为应用注入配置项:

# application-{profile}.properties

# 如果使用开箱即用的Aliyun短信服务
daming.sms.provider=aliyun
daming.aliyun.accessKeyId={your key id}
daming.aliyun.accessKeySecret={your key secret}
daming.aliyun.sms.signature={your text} # 阿里云短信服务的签名,可以在控制台找到,如是中文,请转为Unicode
daming.aliyun.sms.templateCode={your code} #阿里云短信服务的模板Code,可以在控制台找到

# 设置私钥地址,此私钥会用来签名被验证过的手机号码
daming.jwt.privateKeyFileLocation=/home/your-app/sms-verification-private.der

启动应用,并请求验证码:

>curl -H 'Content-Type: application/json' -XPOST ${host}:${port}/api/sms/verification/code -d '{"mobile": "${your mobile}"}'

在收到验证短信后,尝试验证:

>curl -H 'Content-Type: application/json' -XDELETE ${host}:${port}/api/sms/verification/code -d '{"mobile": "${your mobile}","code":"${the code}"}'
{"token":"{a very long string}"}%

在Response中可以得到一个JWT,前端应用将该JWT提交给Consumer应用,Consumer应用使用私钥对应的公钥即可验证该手机号码实现业务目标(如登录或保存验证过的手机号码)。

一些自问自答

什么样的需求适合用这个方案解决

如果我们使用领域驱动设计来分析,可以发现我们需要解决的问题分为

  • 核心子域:它是一个唯一的、定义明确的领域模型,你要在这里进行战略投资,并在一个明确的限界上下文中投入大量资源去精心打磨通用语言。它是组织中最重要的项目,因为这将是你与其他竞争者的区别所在。正是因为你的组织无法在所有领域都出类拔萃,所以你必须把核心域打造成组织的核心竞争力。做出这样的决定需要对核心域进行深入地学习与理解,而这需要承诺、协作与试验。这是组织最需要在软件中倾斜其投资的方向。

  • 支撑子域:这类建模方式提倡的是“定制开发”,因为找不到现成的解决方案。你对它的投入无论如何也达不到与核心域相同的程度。你也许会考虑使用外包的方式实现此类限界上下文,以避免因错误的认为其具有战略意义而进行巨额的投资。这类软件模型仍旧非常重要,核心域的成功离不开它。

  • 通用子域:通用子域的解决方案可以采购现成的,也可以采用外包的方式,亦或是由内部团队实现,但我们不用为其分配与核心域同样优质的研发资源,甚至都不如支撑子域。请注意不要把通用子域误认为是核心域。你并不希望对其投资过甚。当讨论一个正在实施DDD的项目时,我们最有可能讨论的是核心域。

​ ——《DDD精粹:运用子域进行战略设计》Vaughn Vernon

可以发现核心子域是没有必要尝试代码层面的“复用”,这里应该使用定制的方式来实现差异化。通用子域是比较合适的,或者说尝试复用的投资收益最大的那一部分,另外,复用有可能将一部分支撑子域简化为通用子域。例如短信登录没有现成的方案(支撑子域),但如果我们找到了复用的方法,其实现难度和所需要的研发资源就简化为了通用子域。

如果是Starter的话,如何灵活定制呢?

接上一问的答案,既然这些Starter都是解决支撑/通用子域的问题,那么其领域规则、业务流程是比较固定、不易变化的。需要灵活定制的部分其实是技术实现,使用端口和适配器架构(详见《#博客大赛#端口和适配器架构——DDD好帮手》)可以将这两部分隔离开,使用适配器扩展/变更技术解决方案。举个例子:

image-20181213185923220

大名的端口和适配器架构

各个出口端口(右侧橙色板块的Port)作为扩展点,定制的Driven Adapter通过Spring注入。

为什么要绑定技术栈?非Java技术栈怎么办?

可以使用该Starter快速搭建一个微服务。。。

为什么要开源?

  1. 因为TWer都是对质量很挑剔的人,开源的方式最容易让大家接受

  2. 开源最容易从机制上鼓励质量提升、驱动代码的演化

  3. 竞争对手不管用不用我们的开源成果,其报价也比我们低

这玩意靠谱不?有人用了没

大名还处于早期阶段,欢迎捉虫和Pull Request。目前还没有人用,欢迎试用。

有没有前端的开箱即用方案 ?

还没有,我也不是前端专家,我猜测前端的开箱即用方案可以做成类似于Ant DesignElement UI但更专用的组件?

如何为ThoughtWorks设计可复用组件

大名是一个尝试,并不是一个答案(至少还不是)。把这个问题转个各位TWer吧:

  1. ThoughtWorks需要可复用的组件吗?
  2. 如果需要,它应该是什么样子的?

花絮

  • 大名,是上海市大名路的简称,位于外滩附近


Published on 12 December 2018.
Comments
Category: Rambings


© Copyright2014-2021