尊敬的极光用户:
极光推送平台在 2017 年 03 月 21 日出现很多用户连不上极光的服务器,新用户无法注册,影响到客户端所有业务。根据技术部门的反馈,详细情况如下:
故障时间:2017 年 03 月 21 日 16:40-19:30
影响范围:
- 故障期间使用 JPush sdk 和 JMessage sdk 的新用户无法注册
故障原因:
- 由于数据库出现故障,无法正常写表,导致所有的注册请求无反应
解决过程:
- 16:40 服务器端收到报警,注册出现堵塞,模块开发人员介入,同时有技术支持反馈
- 16:50 查看注册模块日志,出现注册请求超时断链
- 17:30 根据后台日志模块分析,发现写数据库异常,导致堆积堵塞
- 17:40 运维人员介入排查问题,确认数据集群中有一台服务器异常
- 17:55 运维人员切换主从,同时开发人员处理程序访问进行db切换操作处理
- 18:00 业务恢复正常,开始逐步处理堆积数据
- 19:10 所有堵塞的注册请求全部处理完成,服务完全恢复
后续改进措施:
- 加强数据库的监控,避免人为切换操作处理,提高高可用
- 后台程序增加监控点,以便能快速定位故障点
其他说明:
- 此次事故中,所有的注册请求都有保存,没有丢失,故障处理后这些注册请求都被正常处理,所以不会导致新注册用户数据的缺失
因此给您带来的不便我们深表歉意,再次感谢您的理解与支持!
0条评论