为了提升软件交付效能,你的团队或组织可能已经开始采取行动,引入敏捷方法、DevOps实践甚至还有架构重构。但你如何知道这些改进措施起了作用呢,或者它们压根就水土不服呢?简单来说,除了感性的工作体验外,你需要一些指标来度量交付效能。
提升交付效能的最重要的目标之一就是能”快起来”,那么如何定义”快”呢?我们更倾向于度量吞吐量,吞吐量是指单位时间内团队完成的工作量。
1.变更前置时间
Lead Time for Changes,变更前置时间指的是开始编码到部署所耗费的时间。如果变更前置时间过长,可能意味着开发或部署过程的某些环节出现了问题或阻碍。这是一个典型的吞吐量指标,更强调的是对于单个用户故事/用例需要花费多长时间才能获得实际反馈。
我之前受邀参与某个项目,当时团队的直观感受是进度滞后。通过度量变更前置时间,我们发现用户故事从进入”开发中”到”准备QA测试”(意味着开发同事已经完成了开发并按照验收标准进行了自行验证)的中位数时间是4.5天,这意味着近一半的用户故事在一个工作周内都不会得到有效的反馈,而在一周之后往往可以”惊喜”地发现实现方案有问题,需要返工。因此,我们把降低变更前置时间、增加吞吐量作为目标,帮助业务分析师和Tech Leader在保证INVEST原则的情况下进一步拆分故事卡作为手段,在三周之后将变更前置时间的中位数降低到2.5天。虽然更细粒度的故事卡带来了更频繁的开卡、关卡活动,看似造成了更多的工作量,但由此带来的频繁交流和目标拉通,降低了返工的可能,使得项目进度逐渐恢复正常。
2.部署频率
Deployment Frequency,部署频率,我认为这是吐吞量的另一种度量方式,更频繁的部署往往意味着单次部署包含的变更更少,但对于某个特性来说,可以更快地获得产生价值,获得实际反馈。而且,同变更前置时间相比,部署频率往往更直接地意味着团队/组织在工程实践方面有着良好的理解和应用。
我曾经在一家传统企业工作,在没有敏捷方法和工程实践加持的情况下,我们也做到了每周一次发布。但几乎每次发布后,随之而来的是紧急发布,以修复发布后出现的各种问题。在一次对客服中心的拜访中,我了解到客服部门对IT部门的每周发布并没有什么好感,因为每次发布后都如临大敌,客户投诉可能呼啸而至。因此,我们在追求“快”的同时,还得保住“稳”,否则频繁出现故障的使用体验,甚至会抵消快速创新的努力。 那么,我们应该关注哪些“稳定性”指标呢?
3.变更失败率
Change Fail Rate,变更失败率是指发生变更后出现故障的几率。理论上来说,当我们引入敏捷方法和DevOps实践快速迭代时,随着时间的推移和实践及工具的成熟,单次部署/发布包含的变更项会逐渐减少,由此变更失败率也会最终降低。因此,如果变更失败率居高不下,可能意味着在过程或工程实践中出现了某些问题或阻碍
4.服务恢复耗时
Time to restore service,服务恢复耗时是指当服务中断或降级后,需要花费多少时间将服务恢复正常。每次部署包含的变更多寡、技术债务堆积程度对该指标有一定影响,但将该指标放在这里有一些争议,因为在一些合作模式中,造成故障的部分原因或修复措施并不在交付团队的工作范围内(例如基础设施)。
读到这里,你可能会发现以上四个关键指标来自于一份业界知名的DevOps报告,为什么在度量交付效能的时候,要优先考虑DevOps指标呢?
在19年4月的技术雷达中,是这样回答的
研究人员证实,只需四个关键指标就能区分低绩效、中绩效和高绩效人员:前置时间、部署频率、平 均修复时间(MTTR)和变更失败率。的确,我们已经发现这四个关键指标是个简单却强大的工具,可帮助领导和团队专注于衡量并改进重要的环节。
从另一个角度来说,这四个指标距离客户的直观感受更接近,这意味着它们更能体现真实的价值。同样的情况可以参考应用监控,在《Practical Monitoring》一书中,作者极力推荐优先从用户视角建立监控指标,这比底层指标更容易得出结论:例如响应延迟,是用户是能感受到的,延迟升高了可能意味着出现问题,但CPU使用率用户是感受不到的,其增高也未必说明问题,可能有些应用运行在高负载CPU是常态。
最后则是从成本考虑,避免在一开始的时候就规划并实施一个大而全的度量体系,从而付出不必要的管理成本
度量需要投入团队的时间,项目管理人员的时间,质量保障人员的时 间,以及公司管理人员的时间,还可能会有工具和基础设施的投入。围绕 各种目标需要度量体系的设计和实施,体系的运转需要数据的收集、分析 和汇报,这些环节做得不到位是不可能产生预期效果的,而要做到位,所 需的投入可能并不是一个可以忽略的小数目。因此,目标和指标的选择就 显得特别重要,试图实施一个大而全的度量体系,通常弊大于利。
《精益软件度量》,度量不是什么
如果说以上四个关键指标告诉我们的是交付效能的变化趋势,那么下一步,我们可以寻找更细粒度的指标来告诉我们如何进一步改进它们。
之前的四个关键指标更像体温计,它们可以快速地反映现在是否健康,但它们不能告诉我们病因。接下来我们需要的是验血报告,报告中有很多明细的指标,单个指标或许并不能说明什么,但若干异常指标的组合在一起往往可以帮助医生判断病灶,或许可以将这些明细指标称作”诊断型”指标。
常见的”诊断型”指标包括但不限于:
以上这些(以及更多其他)指标从代码复杂度、测试策略、基础设施水平等更”底层”的维度解释交付效能健康或不健康的原因,它们可以帮助团队在做出进一步针对性的改进。
Accelerate: State of DevOps 2018 Strategies for a New Economy, By DevOps Research & Assessment
https://www.thoughtworks.com/cn/radar/techniques/four-key-metrics
Practical Monitoring, By (author) Mike Julian
《精益软件度量》,作者: 张松
安全专家马伟老师日前发布了《#博客大赛#不就是个短信验证嘛,有这么复杂吗?》一文,引起广泛关注。
文章以“新增手机号和短信验证码登录”简单的一句话需求最终演变为
故事卡-274 作为用户,我可以通过手机号和短信验证码登录,以便于我更方便的登录。 安全验收标准:
- 短信验证码有效期2分钟
- 验证码为6位纯数字
- 每个手机号60秒内只能发送一次短信验证码,且这一规则的校验必须在服务器端执行
- 同一个手机号在同一时间内可以有多个有效的短信验证码
- 保存于服务器端的验证码,至多可被使用3次(无论和请求中的验证码是否匹配),随后立即作废,以防止暴力攻击
- 短信验证码不可直接记录到日志文件
- (可选)发送短信验证码之前,先验证图形验证码是否正确
- (可选)集成第三方API做登录保护
实际上,根据我的经验,还可以再加一些验收条件
一个小小的需求可以衍生出如此之多的验收条件,而且其中不少是非功能性的(不容易识别的、不容易实现的),以至于有同学感叹:
厉害,短信验证这个事,如果有人做成整套解决方案直接调用就好了,就像keycloak一样
实际上,我深有同感,今年某客户项目上,想开发一个手机号码验证的功能,我原以为都8102年了,阿里云应该有全套解决方案了,结果只能提供短信发送服务(其实单就发送短信来说,开发体验已经很不错了),但验证的工作还是要自己开发的。我也咨询过一些“老法师”:
这个验证其实也很简单,可能就没有开发可复用解决方案的价值了吧?
反正我确实没找到整套解决方案。。。
在微服务的大潮下,如果想要复用短信验证的能力,最先想到的是开发一个短信验证服务,开放API给Consumer验证手机号码或是短信登录,名字我都想好了,叫sms-otp
(OPT为one time password缩写)。
sms-otp 服务
如果我是甲方IT部门,可能就这么做了,找到一个软件集成商实现sms-otp
就行了。
作为数字化厂商,ThoughtWorks可能需要为很多客户交付短信验证服务,并且出于专业要求,我们并不会把为A客户定制的代码复制到B家使用,这时候一个开箱即用的微服务是最佳选择吗?让我们一起先来看看有哪些问题需要解决
微服务对于1,2,3都算解决的不错,但如果还有其他的“通用”需求呢?例如支付宝支付、微信登录呢,微服务的数量就开始膨胀了。在一些项目中,部分客户的IT基础设施比较滞后,尤其是一些跨国公司的中国分公司,甚至没有中国区的软件系统,合作初期的项目规模也不大,这类项目未必适合以微服务启动。
那有没有更灵活的方案,既可以在单体应用中开箱即用,又可以按需扩展为独立服务呢?
提到开箱即用,近几年在Java业界最火的就是Spring Boot
了,Auto Configuration
大大提高了新应用搭建的速度,在需要定制时又不失灵活性。我觉得这是把好锤子,来敲两下看看是不是找对了钉子?
由外滩一号孵化中的Custom Spring Boot Starter,大名。ThoughtWorks“外滩一号”是一个内部自发建立的组织,通过扣命小程序(详见#博客大赛# 数字化敏捷交付的尝试——以“扣命小程序”为例 ),积累了一定的孵化方法。
为项目添加Starter:
compile group: "com.github.hippoom:sms-verification-starter:${latestVersion}"
# 如果需要使用开箱即用的Redis验证码存储
compile "org.springframework.data:spring-data-redis:2.1.2.RELEASE"
# 如果需要使用开箱即用的Aliyun短信服务
compile("com.aliyun:aliyun-java-sdk-core:4.0.6")
compile("com.aliyun:aliyun-java-sdk-dysmsapi:1.1.0")
为应用注入配置项:
# application-{profile}.properties
# 如果使用开箱即用的Aliyun短信服务
daming.sms.provider=aliyun
daming.aliyun.accessKeyId={your key id}
daming.aliyun.accessKeySecret={your key secret}
daming.aliyun.sms.signature={your text} # 阿里云短信服务的签名,可以在控制台找到,如是中文,请转为Unicode
daming.aliyun.sms.templateCode={your code} #阿里云短信服务的模板Code,可以在控制台找到
# 设置私钥地址,此私钥会用来签名被验证过的手机号码
daming.jwt.privateKeyFileLocation=/home/your-app/sms-verification-private.der
启动应用,并请求验证码:
>curl -H 'Content-Type: application/json' -XPOST ${host}:${port}/api/sms/verification/code -d '{"mobile": "${your mobile}"}'
在收到验证短信后,尝试验证:
>curl -H 'Content-Type: application/json' -XDELETE ${host}:${port}/api/sms/verification/code -d '{"mobile": "${your mobile}","code":"${the code}"}'
{"token":"{a very long string}"}%
在Response中可以得到一个JWT,前端应用将该JWT提交给Consumer应用,Consumer应用使用私钥对应的公钥即可验证该手机号码实现业务目标(如登录或保存验证过的手机号码)。
什么样的需求适合用这个方案解决
如果我们使用领域驱动设计来分析,可以发现我们需要解决的问题分为
核心子域:它是一个唯一的、定义明确的领域模型,你要在这里进行战略投资,并在一个明确的限界上下文中投入大量资源去精心打磨通用语言。它是组织中最重要的项目,因为这将是你与其他竞争者的区别所在。正是因为你的组织无法在所有领域都出类拔萃,所以你必须把核心域打造成组织的核心竞争力。做出这样的决定需要对核心域进行深入地学习与理解,而这需要承诺、协作与试验。这是组织最需要在软件中倾斜其投资的方向。
支撑子域:这类建模方式提倡的是“定制开发”,因为找不到现成的解决方案。你对它的投入无论如何也达不到与核心域相同的程度。你也许会考虑使用外包的方式实现此类限界上下文,以避免因错误的认为其具有战略意义而进行巨额的投资。这类软件模型仍旧非常重要,核心域的成功离不开它。
通用子域:通用子域的解决方案可以采购现成的,也可以采用外包的方式,亦或是由内部团队实现,但我们不用为其分配与核心域同样优质的研发资源,甚至都不如支撑子域。请注意不要把通用子域误认为是核心域。你并不希望对其投资过甚。当讨论一个正在实施DDD的项目时,我们最有可能讨论的是核心域。
——《DDD精粹:运用子域进行战略设计》Vaughn Vernon
可以发现核心子域是没有必要尝试代码层面的“复用”,这里应该使用定制的方式来实现差异化。通用子域是比较合适的,或者说尝试复用的投资收益最大的那一部分,另外,复用有可能将一部分支撑子域简化为通用子域。例如短信登录没有现成的方案(支撑子域),但如果我们找到了复用的方法,其实现难度和所需要的研发资源就简化为了通用子域。
如果是Starter的话,如何灵活定制呢?
接上一问的答案,既然这些Starter都是解决支撑/通用子域的问题,那么其领域规则、业务流程是比较固定、不易变化的。需要灵活定制的部分其实是技术实现,使用端口和适配器架构(详见《#博客大赛#端口和适配器架构——DDD好帮手》)可以将这两部分隔离开,使用适配器扩展/变更技术解决方案。举个例子:
大名的端口和适配器架构
各个出口端口(右侧橙色板块的Port)作为扩展点,定制的Driven Adapter通过Spring注入。
为什么要绑定技术栈?非Java技术栈怎么办?
可以使用该Starter快速搭建一个微服务。。。
为什么要开源?
因为TWer都是对质量很挑剔的人,开源的方式最容易让大家接受
开源最容易从机制上鼓励质量提升、驱动代码的演化
竞争对手不管用不用我们的开源成果,其报价也比我们低
这玩意靠谱不?有人用了没
大名还处于早期阶段,欢迎捉虫和Pull Request。目前还没有人用,欢迎试用。
有没有前端的开箱即用方案 ?
还没有,我也不是前端专家,我猜测前端的开箱即用方案可以做成类似于Ant Design或Element UI但更专用的组件?
大名是一个尝试,并不是一个答案(至少还不是)。把这个问题转个各位TWer吧: