尊敬的极光客户:
2018 - 06 - 08 01:50:00 ~ 2018 - 06 - 12 06:00:00,kylin 升级后业务查询和构建偶尔失败导致统计查询出错。具体的故障报告如下:
故障时间:
- 2018 - 06 - 08 01:50:00 ~ 2018 - 06 - 12 06:00:00
影响范围:
- 偶尔会出现线上统计业务查询失败。
故障原因:
kylin 升级集群之后查询服务 jitomcat 下的查询和相关的临时缓存数据被定时清理任务删除,由于上个版本的 kylin 在 tomcat 下生成了大量的临时文件导致磁盘空间占用过高,我们部署了脚本定时清理。升级之后定时清理任务没有停,但是新的版本不能删除临时数据,所以导致查询失败
kylin 元数据正常情况下是写到 habse,但是升级之后被写到了 hdfs 上,由于多个实例会读写同一个文件,导致 hdfs 文件操作冲突,影响查询和构建
目前进展 & 后续改进:
回退到升级前的旧版本,服务恢复正常
测试环境要尽可能的模拟线上环境,虽然本次升级之前进行了详细的和长时间的测试,但一些细小的差异还是造成了影响。
不涉及数据的服务程序的更新、升级上线前除了测试外,还要在预发布环境运行和观察一段时间。
添加和优化服务级别的监控,及时发现问题。
给贵方带来的不便我们深表歉意,感谢您的理解与支持!
0条评论