蘑菇街的稳定性实践

2017 年 5 月 13 日，又拍云旗下技术主题分享沙龙—— Open Talk 重回杭州，举办了 Open Talk 美丽联合集团专场，这是 Open Talk 的第 31 期。来自美丽联合集团的无相作了题为《蘑菇街的稳定性实践》的分享，以下是演讲实录：

促销情况下的稳定性保障流程

蘑菇街是一个电商平台，每年会做四次大促，3.21、6.18、双11、双12。大促保障涉及到流量评估、依赖梳理、单链路压测、全链路压测等。蘑菇街大促的基本流程，基本是按照系统峰值评估、依赖关系梳理、单链路压测、系统扩容、全链路压测等几个环节展开的。

在保障大促稳定性工作的时候，稳定性团队会有一个KPI：这次大促不能出某个级别以上的故障，如果出了这个级别以上的故障这个KPI就挂掉了。第一次接到稳定性工作，我也是很迷茫——很多事情是其他团队小伙伴做的事情，万一他们的疏忽出了一个故障，这个也要我一起背吗？后来逐渐摸索出一套应对大促带来大流量，行之有效的大促稳定性保障方案。

Clipboard Image.png

评估系统峰值

机器和成本总是有限的，因此在每次大促之前必须要估出一个合理的峰值，根据峰值合理地扩容。每次大促开始前，必须找到运营方沟通大促的业务目标：大促GMV，包括预估的PV、UV、客单价、转化率。根据运营给出的数据，推算出所有系统的峰值，其中重要是下单系统的峰值。

倒金字塔梳理系统峰值

下单峰值的评估，有点像我们做应用题一样。已知运营给出大促的目标，包括PV、UV、GMV，要求推算出下单交易系统峰值。这里分享一个经验公式，“预估大促GMV/历史大促GMV×历史客单价/预估客单价”，一般就等于历史大促峰值。通过这个可以算出这次下单大概峰值是多少。

Clipboard Image.png

算出了下单峰值之后，再套入一个倒金字塔的模型。电商场景都是有一定特点的：最前面流量会从会场、首页、外部分享页进来，然后进店铺页面、图墙页面、搜索页面。到了这些页面之后会进入详情页；到了这里用户可以加入购物车，做购物车的操作；然后就可以下单、支付了。浏览了详情页后，有多少人基本会下单，这个比例我们称之为“转化率”，转化率可以预估出来了。

Clipboard Image.png

根据一定的比例关系，一旦确定好下单数额之后，就可以倒推出每个系统在本次大促是要承担多少QPS，把每个系统的峰值算出来。推算出每个系统QBS之后，再根据以往经验进行对比，比如对比3.21大促的预估峰值跟实际峰值，假如当时估值偏低，那在下次大促时稍微调高一点，这样就会确定本次大促各自系统峰值是多少。

关注运营玩法和架构的变化

电商平台的运营玩法层出不穷，一定要关注运营玩法和架构上的新变动，这对预估峰值来说很重要！蘑菇街吃过这方面的亏。

比如今年3.21大促的时候，运营在晚上10点时候会上线有一波游戏，App会有信息推送，首页会会弹出直达这个游戏的提示框，有好几种方法可以把流量迅速导到游戏会场去。在游戏开始之前我们没有太关注这个游戏的玩法，只是按照以往的经验简单估了一下这个值。但是游戏的流量比预估值高上一倍！那次大促有一半的KBS直接被限掉了，这对客户体验非常不好。

后来总结经验，对于这些玩法的变动，一定要做大促稳定性保障，一定要了解的细致，不能只是很泛泛地去问一下：玩法有没有新变动？是不是跟以前一样的？要具体到运营的每一个步骤，不问清楚很有可能对流量预估产生影响。

架构上有新变动带来的影响更不要说了，比如你以前应用是部署在物理机上的，现在部署在虚拟机上了；或者之前用A中间件，现在用是B中间件。架构上的变动一定要重点关注。

梳理依赖关系

一旦业务变大或服务化细致之后，依赖关系会变得非常复杂，梳理起来很麻烦。有时候某一个应用挂了，可能是某一个依赖方挂了；你负责的应用挂了之后又会导致所有调用此应用的应用也挂了。

在全链路监控系统上线之前，做依赖关系的梳理其实是一个非常麻烦的事情，假如开发人员出现了流动，新人接手这个系统，只有看代码才能知道依赖关系，对代码不太熟悉的话还会出现漏判的情况。有些代码因为业务逻辑关系非常复杂，很难判断和梳理，用比例无法精确计算。

依赖关系不明确，万一带大促的时候这个依赖发生了状况，但没有做预案处理，可能对系统本身的稳定性会产生影响。

Clipboard Image.png

现在蘑菇街是通过全链路监控系统来梳理依赖关系，因为全链路监控系统可以知道一条链路下来的每次调用，通过计算可以知道调用者和被调用者之间的调用比例关系，甚至可以详细到接口。

通过全链路监控系统梳理出来的全站应用拓扑，最前端的应用是Web Trode Order，调用了很多的应用。只要把这个关系出来就一目了然，再也不用看代码，而且直接知道它们之间的关系。

系统压测和扩容

蘑菇街的步骤是，先做单链路压测，再做扩容，最后做全链路压测。

在没有统一的全链路压测平台之前，业务方都是自己组织压力测试的，各种各样的压测工具都有。这里有几个注意点，一个是当你需要压到很高的QPS的时候，本身有限制，QPS不是很稳定。另外如果压测数值很高，业务方手里没有机器，他要跑到PE去申请，PE一般也不会给机器，这怎么办？基于这个问题，蘑菇街开发了全链路压测平台，把机器当成一种资源：只要告诉链路定义、场景定义和任务定义，简单定义之后就可以压测了。

单链路压测

在单链路压测阶段，各业务方把各自需求应用全部做完100%流量的压测，并且要验证所有的流量、限流策略是否正确。

单链路压测的时候有一个“局部集中”的概念，在做单链路压测的时候，电商基础相关的业务压测要尽量放在一起压，比如详情、促销、优惠、交易、下单，之前都是各自压测，但这些应用互相都是有交互情况的，最好在同一天单链路压测的时候就一起进行调。如果有问题可以提前发现解决掉，而不会把这些问题推到全链路压测的时候去解决。

系统扩容靠单机压测

单链路压测完了之后就开始做系统扩容。蘑菇街做系统扩容，必须要由单机压测系统提供水位报告，有数据说话，拒绝拍脑袋，才能够减少机器、降低成本。

比如有些应用压测出来要扛5千QPS，但是我只能抗3千，这就需要找PE扩容机器。扩容要尽量节约成本。业务方为了自己的应用更安全一点，通常会多要几台机器，能扛多一点，心里安全一点。如果对每一个业务方都心慈手软的话，你就放出去太多机器了，成本没法控制，必须要求业务方要拿着单机水位压测包来扩容，不能拍脑袋说“再给我5台机器，让我更安全一点”。

为此蘑菇街做了单机压测系统，它有两种方法，一种可以把线上真实流量全部会聚到其中某一台机器上去，这样可以测这台机器的真实水位到底是多少。另外一种情况，可以利用全链路压测平台，打模拟流量到一台机器上去，这样也可以测出这台机器真实水位是多少。

打流量的时候也不是一次打，假如你预测这台机器单机水位大概能达到1千KPS，我可能从100开始打，100打完了打200，直到测出你这个系统单机水位。这里的判断标准和预值通常是让业务方自己测，比如他测试CUO到了一定值之后，比如到了80%，就可以认为到极限了。业务方完成单机压测后，方可拿到机器进行扩容。

全链路压测要尽量真实

扩容之后要进行全链路压测。各自做单链路压测是不行的，因为在所有流量会聚到一起的时候，对整个系统某些平行点可能会发生意想不到的情况。所以在单链路压测做完之后，一定要把所有系统会聚在一起做全链路压测，一般会做两到三次。

一般认为全链路压测知道压过就OK，其实不是，全链路压测都够了，后来大促发现了问题，问题在哪里呢？因为全链路压测是模拟流量，平日的真实流量没有到大促那一天这么大，没有那么多的数据用于模拟流量数据库；比如线上商品有10万，业务方为了简单化，后来在测试数据库里只有2万的商品，所以在做全链路压测的时候没有发现这个问题，测试时的网卡流量虽然比较大，但是没有把网卡打爆。但是在真正大促当天，10万商品的流量一下子下来之后，就把网卡打爆了。

进行反思后，蘑菇街要求全链路压测数据要尽量真实，尽量模拟现场的情况。但是全链路压测的成本也要考虑好，这之间的度要把握好。

Clipboard Image.png

全链路压测是一个苦活，通常在晚上12点之后，持续四到五个小时，一直到凌晨。这里要提高人效、降低成本，蘑菇街尽量减少晚上压测的成本，如果白天压测50%的量，晚上可以从75%开始压了，这样就可以节约了晚上的压测时间，就不用到凌晨4点、5点，一般凌晨2点就可以手工了。

2017年蘑菇街也在想一些办法，可不可以在白天也做一些全链路压缩；白天做全链路压测的方向是有的，就是隔离出两个动态环境，一部分环境是线上流量，另一部分环境专门用于压测，这样互相不影响。这个方案还在可行性验证当中。

以上工作准备充分以后，还要准备一份预案评审和作战手册。

预案是为了大促如果真发生了事情到底怎么办，包括前面做依赖梳理的时候，一个系统如果有三个依赖的话，需要对每个依赖都要做好一个预案：这个依赖如果挂了怎么办，降级还是别的处理方案？

作战手册就比较简单明了，出现什么问题，团队成员能够在作战手册里第一时间找到应对方案和措施，及时应对，解决突发情况。

lurker：蘑菇街全链路监控平台

为了加强稳定性工作，蘑菇街开发了一个全链路监控平台工具——lurker。取这个名字的初衷，是希望它埋伏在地底下，在设计和使用的时候，尽量地减少业务方对这个东西的感知，但实际上lurker又帮助他们解决了实际问题。

在开发lurker的时候，蘑菇街95%代码以上还是PHP，部分代码做了PHP服务化，服务可以互相去调用的。比如想监控PHP服务里面的每一个函数，到底是不是每一个函数时间过长。所以我们当时想了一个办法，Facebook有一个xhprof的工具，可以监控每个函数，通过PHP扩展实现。我们在xhprof的基础上改了一下，就变成蘑菇街的lurker，它的原理是什么？PHP有一个绽裂引擎，有一个函数执行指针，把这个指针替换成蘑菇街的hook函数，然后做了一些处理，可以让业务方判定哪些函数是需要监控的。此外还修改了curl以及php-curl的实现。

Clipboard Image.png

全链路监控的原理早期是由Google Dappen提出的，是一个分布式的监控系统。当本身的应用逐步服务化的时候，服务拆分会越来越细，现在蘑菇街有大几百个应用，应用之间互相有很复杂的调用。某一条复杂的链路可能要涉及到几百次调用，如果一次调用IP超时的话，怎么知道这么复杂的链路里面到底哪个超时了？

它的原理，每次调用都有一个全局唯一的Trace lD，它里面包括了一些业务含义，比如当时请求进来的机器IP、请求发生时间、进程ID等等，这些信息的加入，本身是为了保证全局唯一的特性。

另外一个是Span lD，是为了区分调用中是一个顺序关系或者嵌套层次的关系。Trace Context是在哪里产生的？因为所有的请求进来都是在nginx，所以蘑菇街直接在nginx端做了插件，插件里面会产生Trace Context，它就会从请求进来的最前方开始一直传到最后面；它通过Servlet Filter去实现在前端加入外部应用。

全链路监控系统架构

Clipboard Image.png

蘑菇街全链路监控系统的架构如图所示。通过插件放在应用集群，不管是PHP还是Java，日志都会在本地落款。本地落款相对通过网络上传会更安全一点，出问题概率会小一点。

日志在本地落款之后再实时收集到Kafka，进入Kafka之后数据分三份：

· 一份数据进入Storm，然后进入ES Index里；

· 一部分原始日志直接放在Infobright；

· 一部分数据进入到HPS

这个系统要支持多维查询，数据一开始放到支持全文检索的ES里，但ES数据不做压缩，存储成本很高。当时数据一天有好几T，存不了多久。后来用了Infobright，节约了很多成本，很好用。但Infobright是开源版，有一个人为设置，写数据的时候不能读。另外它只能单线，速度很慢，读一条日志需要6、7秒的情况。今年Q2，蘑菇街模仿Infobright做了一个类似存储的东西，现在已经差不多完成了，测试的结果性能还是相当不错的，压测率和Infobright差不多，速度很快。

Kafka另外一部分数据进入到HPS，主要是适应不适合用Storm做实时计算的情况。

全链路监控系统的作用

Clipboard Image.png

在蘑菇街 lurker 示意图里，左边可以看到整个链路呈竖状的结构，1是1.1、1.2、1.3、1.4和1.5，1.4里面又有1.41，1.5调了1.51，每次调用服务、方法都写在这里，时间后面有Timeline，整个调用关系一目了然。

Clipboard Image.png

除了调用关系之外， lurker 还能统计应用信息。每次调用和被调用者都有一条固定的认证关系，可以算出每个应用的直接应用来源、去向应用的数量，蘑菇街称之为“法拉力应用”，每个时间点上QPS到底是多少，有没有出错，都可以在应用信息统计上看到。假如调用了一个前端应用，还可以看到URL是多少。假如调用了一个后端服务，还能看到最最前面的应用，就是最早进来的URL，或者来源于哪几个应用。

利用监控系统，可以画出所有应用之间互相依赖的关系，并且把互相调用的比例也算出来。

lurker 带有一个多维查询的功能，有些业务方可能想根据某些特殊条件，比如应用名、服务名、方法名、业务响应码或者是IP，都可以通过多维查询搜出来。多维查询的要求还是很高的，因为后续查询、后续数据存储都是需要解决的问题。

lurker 尚需解决的问题

在开发 lurker 的过程中，蘑菇街也碰到了一些问题：

· 数据存储

· 跨线程传递trace context

· 前端应用接入不全，导致后端应用QPS不准确

· 周期性任务，链路路过⻓长，展示有问题

数据存储问题如上文所说，历经几版，希望我们最近研发的产品能够撑住平台上产生的巨大数据量。

第二是跨线程传递，因为trace context从前端要往最后端传，为了给业务方不产生影响，或者让它们尽量没有感知，我们就把trace context放在这里面。但会出现一个问题，假如中间的一些工具有自己的现成词句，那就传不过去，信息就丢失了，链路到这一步就断掉了。我们想了几个办法，第一把trace context做的东西放进去，但是业务方不知道去用，他们不愿意去用，觉得比较麻烦。第二去修改现成词，直接把这些数据弄进去，但是修改以后业务方觉得修改后的这些东西到底靠不靠谱？所以目前碰到这个问题的时候，基本上建议业务方手工传一下，要不然在里面看不到。

第三个问题：前端应用接入不全。在推这个产品的时候，没有强制去接入，监控系统强大了之后，所有的前端用户都接入了，到后面的调用就没有被记录下来，所以后端应用QPS不准确。

最后是一些周期性任务。有一些任务链路比较长，比如一次跑一个小时，可能调个1万字也有可能，这个内容展示会有些问题。

全面分析全链路压测系统

全链路压测的意义在前文已经讲过了，在于验证瓶颈是否存在，以及找出可能的瓶颈，具体来说有以下几点：

· 对线上真实环境进行大流量演练

· 验证链路在超大流量系统里，容量和资源分配是否合理

· 找出链路中可能存在的瓶颈

· 验证网络设备、集群容量和预案、限流策略

建立压测模型

为了找到这个瓶颈，使蘑菇街的系统更加灵活，在设计压测模型的时候会有一些考虑：压测链路、压测场景、流量模型、压测任务、压测脚本。

所谓链路，一个URL就是一个链路，场景是链路上一层的概念，一个场景可以有单个或者多个链路组合而成。在电商环境下，某些场景是可以复用的。

压测场景以后，加上流量模型就可以构成一个压测任务，流量模型就是压测的时候流量怎么来，是一条直线比值压，还是要阶梯爬坡？

压测任务又会转化成压测脚本，这是一一对应的。

Clipboard Image.png

以支付里面的一个场景为例。支付收单是一个链路，流量从虚拟根节点进来之后，100%流量会去到支付收单节点，然后100%流量又会进入到收银台渲染节点，5%的流量会去A节点，40%去B节点，55%去C节点，最后100%去D节点。通过鼠标拽一下，一旦规定了入口接点是多少，就可以把整个场景规定下来。

Clipboard Image.png

电商场景是可以嵌套，比如3.21交易之后的全链路，里面包括了促销压测模型、交易模型、支付模型、支付成功页，这些全部可以复用。假如说业务场景的逻辑不变，下次大促时这一个场景直接可以附在上面。

压测脚本做了二次改造，能够支持这四种不同的协议。第一会做脚本的确认，第二是数据确认，可以上传一些压测数据。第三是开始之后状态的检控以及结果的展示。

全链路压测系统架构解析

Clipboard Image.png

蘑菇街的全链路压测系统基于master slave开发，搭建速度很快。

这里有一个比较坑的地方，系统仅仅是支持单master，一套系统部署起来只支持一个master，我们要尽量避免单点。当时全链路压测系统刚完成1.0版，第二周就要压测，当时我们担心这个master会不会贵？结果果真贵了。贵的原因是什么？它和slave有交互，全链路压缩大概有100台压测机，特别是当压力压的比较大的时候，容易出错。

之后做了一些改造，包括实时回传、发起压测命令、上传压测数据、观察压测进度、收集压测结果。改造之后master好了很多。生成完了之后有一个数据工厂，它会自动生成要压测的那些数据，比如商品流数据、交易数据、促销数据都是从这个数据工厂里面来。

全链路压测系统还有一个OSS Storage，用于存储压测脚本和压测数据。OSS Storage有好几个备份，而且能够保障数据文件的安全，不需要再次关注。

全链路压测系统也碰到一些问题。蘑菇街的场景非常大，场景里面有很多内容定义，脚本会编译成JVM方法，大小不能超过65535。解决方法是——拆场景，比如把交易支付拆成一个场景，把搜索拆成一个场景。假如有100台机器，每一台机器跑一个脚本，这样就绕开脚本大小的限制了。

整个全链路压测系统要表面单点，它没有办法加载太大的压测数据文件。有一些业务方会要求回访现场数据，一拿回来就是几个G，这会需要非常长的时间，所以不推荐。蘑菇街现在的应对做法是把数据分割开。

讲师简介

促销情况下的稳定性保障流程

评估系统峰值

倒金字塔梳理系统峰值

关注运营玩法和架构的变化

梳理依赖关系

系统压测和扩容

单链路压测

系统扩容靠单机压测

全链路压测要尽量真实

lurker：蘑菇街全链路监控平台

全链路监控系统架构

全链路监控系统的作用

lurker 尚需解决的问题

全面分析全链路压测系统

建立压测模型

全链路压测系统架构解析

本期其它主题