尊敬的极光客户:

2018 - 06 - 08 01:50:00 ~ 2018 - 06 - 12 06:00:00,kylin 升级后业务查询和构建偶尔失败导致统计查询出错。具体的故障报告如下:

故障时间:

  • 2018 - 06 - 08 01:50:00 ~ 2018 - 06 - 12 06:00:00

影响范围:

  • 偶尔会出现线上统计业务查询失败。

故障原因:

  1. kylin 升级集群之后查询服务 jitomcat 下的查询和相关的临时缓存数据被定时清理任务删除,由于上个版本的 kylin 在 tomcat 下生成了大量的临时文件导致磁盘空间占用过高,我们部署了脚本定时清理。升级之后定时清理任务没有停,但是新的版本不能删除临时数据,所以导致查询失败

  2. kylin 元数据正常情况下是写到 habse,但是升级之后被写到了 hdfs 上,由于多个实例会读写同一个文件,导致 hdfs 文件操作冲突,影响查询和构建

目前进展 & 后续改进:

  1. 回退到升级前的旧版本,服务恢复正常

  2. 测试环境要尽可能的模拟线上环境,虽然本次升级之前进行了详细的和长时间的测试,但一些细小的差异还是造成了影响。

  3. 不涉及数据的服务程序的更新、升级上线前除了测试外,还要在预发布环境运行和观察一段时间。

  4. 添加和优化服务级别的监控,及时发现问题。

给贵方带来的不便我们深表歉意,感谢您的理解与支持!