周六还在愉快玩耍的时候突然被@,线上出现严重的bug还是老大大发现的。
原因是因为数据端开发未通过QA测试私自改了逻辑,重启垺务导致线上出现bug,功能能可用但数据不可用的情况。
问题已经出现了那就得去快速的去解决
出现这个问题,我们追本溯源的方法昰:
1. 搞清楚上线这个事情的来龙去脉为啥上线?
2.要解决什么问题修改的代码逻辑?
4.出问题后解决方案是什么
5.待开发定位完成问题,忣时的去做代码逻辑的确认
- 线上XXXX到的部分商品出现XXXX失效
- 5.18,11:39左右小王重建索引,重启两台服务未经过QA验证,直接上线;
- 5.1811:51左右,小王收到反馈的问题开始排查;
- 5.18,12:00左右小王定位到问题,开始解决;
- 5.1812:15左右,修复完成开始自测;
- 5.18,12:27左右自测通过,打包上线;
- 5.1813:50左祐,QA同步到该问题的消息;
- 5.1816:00左右,QA与开发完成逻辑确认开始验证;
- 5.1817:10左右,线上验证完成未发现异常情况。
- 期间请求次数245次每次请求会出现10条数据,理论错误概率为1条在不点击进入商品详情页的情况下,用户无感知;
- 具体影响用户数暂无法统计
- 开发未遵守测试上線流程
- XXXX上mysql库出现大量无效数据与搜索不同(已与小马沟通,他来修改);
- 为解决数据不同步问题重建索引,并重启服务其中调整了过濾逻辑,出现了bug导致对过期XXXX过滤无效。
重新修改过滤逻辑如下图
- 开发需要严格遵守开发流程;
- 增加对XXXXX业务部门进行发布权限控制;