记一次生产环境Nginx间歇性502的事故分析过程

最近我们我们在将部分业务从自有机房迁移到国内某云服务器上,在小规模上量后,发现Nginx间接性出现大量502。异常出现的特点是,一瞬间后端多个独立部署的服务全部出现502。

我们的服务架构如下:

+--------+  HTTP   +-------+  HTTP   +-------+
| Client | ------> | | ------> | API A |
+--------+ | | +-------+
| | HTTP +-------+
| Nginx | ------> | API B |
| | +-------+
| | HTTP +-------+
| | ------> | API C |
+-------+ +-------+

一般讲,Nginx 502就是后端处理不过来,但查看监控后端几个API的负载均很低,当前请求的QPS远远低于服务的上限。而且同一瞬间,多套独立部署的API均处理不过来的概率也比较低。

more >>