尊敬的极光用户:

极光推送平台在 2017 年 03 月 21 日出现很多用户连不上极光的服务器,新用户无法注册,影响到客户端所有业务。根据技术部门的反馈,详细情况如下:

故障时间:2017 年 03 月 21 日 16:40-19:30

影响范围

  • 故障期间使用 JPush sdk 和 JMessage sdk 的新用户无法注册

故障原因

  • 由于数据库出现故障,无法正常写表,导致所有的注册请求无反应

解决过程

  1. 16:40 服务器端收到报警,注册出现堵塞,模块开发人员介入,同时有技术支持反馈
  2. 16:50 查看注册模块日志,出现注册请求超时断链
  3. 17:30 根据后台日志模块分析,发现写数据库异常,导致堆积堵塞
  4. 17:40 运维人员介入排查问题,确认数据集群中有一台服务器异常
  5. 17:55 运维人员切换主从,同时开发人员处理程序访问进行db切换操作处理
  6. 18:00 业务恢复正常,开始逐步处理堆积数据
  7. 19:10 所有堵塞的注册请求全部处理完成,服务完全恢复

后续改进措施

  1. 加强数据库的监控,避免人为切换操作处理,提高高可用
  2. 后台程序增加监控点,以便能快速定位故障点

其他说明

  • 此次事故中,所有的注册请求都有保存,没有丢失,故障处理后这些注册请求都被正常处理,所以不会导致新注册用户数据的缺失

因此给您带来的不便我们深表歉意,再次感谢您的理解与支持!