作者:小傅哥
博客:https://bugstack.cn
沉淀、分享、成长,让自己和他人都能有所收获!
你的代码出过事故吗?
老人言:常在河边走哪有不湿鞋。只要你在做着编程开发的工作就一定会遇到事故,或大或小而已。
当然可能有一部分研发同学,在相对传统的行业或者做着用户体量较小的业务等,很难遇到让人出名的事故,多数都是一些线上的小bug,修复了也就没人问了。
但如果你在较大型的互联网公司,那么你负责的开发的系统功能,可能面对的就是成百万、上千万级别用户体量。哪怕你有一点小bug也会被迅速放大,造成大批量的客诉以及更严重的资金损失风险。就像:
您使用的程序是内测版本,将于当地时间 2020-03-28 到期,到期后将无法使用,请尽快下载最新版本。
类似这样事故的出现,可能是因为技术流程、方案实现、技术服务以及运营配置等等原因产生的。综合可以概括为以下几点:
可以说,大多数比较蠢的事故主要是个人责任心问题。但那些有技术含量的事故,犯一次还是挺值得的。虽然公司很讨厌你造成事故,因为会给公司带来损失嘛!但这样具有具有技术含量的事故,却对你个人成长非常好的案例。不过禁酒虽好,可不能贪杯!
接下来,小傅哥就带着你领略下各类事故的风采,看看在什么场景、遇到什么问题、怎么解决的以及能学到什么!
网友事故分享:
事故名称 | 事故描述 | 事故结果 |
---|---|---|
业务流程搞错+代码频繁开辟线程池 | 业务流程搞错导致的问题就是改动特别大,有点类似重构代码了哎西,导致服务宕机很久,客户疯狂反馈 | 疯狂加班改业务,加了不知道多少个晚上,由于是菜狗子,写的代码太垃圾了,被大佬给疯狂叼 |
线上修改用户收货地址失败(同事需要的问题,也可以借鉴下v) | 场景:客服反应用户需要把收货地址从河北省改为浙江省(因为疫情),公司要求修改线上数据需要提交工单,因此l到审核平台提交申请等一系列流程。 问题:工单显示修改结果成功,但是数据没有改过来,多为同事一起查看sql发现sql编写没有问题。 解决过程:检查sql是否正确,平台是否修改成功,又检查了数据是否正确,还检查了修改时间是没有问题的。 | 首先,忽略了一个问题,这个订单数据是淘宝下单同步到我们订单这边的,数据修改的后,淘宝又同步也数据过来,把修改正确的数据又改为了河北的地址。然后就怀疑sql审核平台问题。到这里故事已经讲完了。结论:想告诉大家要相信代码,多检查不确定的情况,不要钻到死胡同,老是怀疑审核平台问题,多检查自身问题。 |
业务相关事故 | 刚加入一个新的团队,没有深入了解别人的代码就进行复用,没有理解业务的场景就限制条件,类似的情况很多,只能说,再简单的代码都要保持敬畏,因为你不知道哪里会出问题 | 用户投诉、领导批评 |
活动太火爆,换个小手试试
。造成了大量客诉,紧急下线活动排查。网友事故分享:
事故名称 | 事故描述 | 事故结果 |
---|---|---|
gc疯狂回收 | 最近调整了自己业余项目,跑一段时间就内存狂涨,还不能主动诱发 | dump内存中 |
重复扣入账 | 并发数过多,数据库连接满,等待超时,session断开。事务未提交,捞出继续干 | 500块,深入并发编程,目前并发模型在我心中,欢迎battle |
数据覆盖 | 循环更新数据时,开启事务,持续时间过长,然后覆盖掉了用户在持续事务中提交的数据 | 没影响,就是多加了几天班 |
数据穿透 | 第三分使用脚本海里请求并发造成数据穿透 | 削峰天谷, 使用队列处理请求 |
这序列号咋重复了?? | 序列号应具有全局的唯一,一条数据代表一条收入,序列号生成规则+代码bug导致序列号重复,影响了几万单收入核对 | 一级事故,回溯+通报 |
业务流程数据覆盖 | 启流程是一个公共类,各种交易都在这个里面做,公共类一开始没有经过设计,有一个方法返回了这个模板类型字段,同时这个方法又是一个检验类,当时加了一个检验返回成错误码了,导致所有的交易都启不了流程。 | 挨批长记性。。。 |
simpledateformat的线程不安全导致多线程定时任务解析日期出错 | 某定时任务运行时,需要做一些日期解析动作,就用了一个公共变量simpledateformat,来格式化,结果任务经常间歇性报错,几天报一次或者一两周报一次,没啥规律。看异常信息才发现解析日期的字符串很奇怪,经常出现很多奇奇怪怪的数字。 | 定时任务报错,不过还好,定时任务只是为了做缓存而已,不涉及到数据库的更新,仅仅是查询而已。 |
前端解析主键异常 | 由于Long类型最大19位而JavaScript最大接收数字为16位,固存在精度丢失问题 | 统一处理将id转字符串再返回前端 |
list遍历删除 | 遍历删除清空list数组,为了节省计数器那小小一点内存,日了 | 报错被叼了呗,为啥不用计数器?不香吗? |
商品超卖 | 售卖一个兄弟部门的电子券商品,同步库存的代码有问题,导致了超卖 对客户造成了损失 | 罚款1000元 |
网友事故分享:
事故名称 | 事故描述 | 事故结果 |
---|---|---|
使用fastjson | 全身上下都是高危漏洞,一年不停升级版本打补丁 | 珍惜生命,远离fastjson |
微信名存储bug | 微信名的emj头等存入mysql编码是utf8的库报错 | 被怼了!改成utf8mb4编码 |
磁盘不足 | 数据库集群磁盘空间不足,提前两周提交扩容申请,甲方运维没提交上去,最后某台机器空间不足,导致整个集群彻底不能工作,体验一把某国产号称可以方便横向扩容的某idb的优越性 | 罚款,责任归系统建设方 |
网友事故分享:
事故名称 | 事故描述 | 事故结果 |
---|---|---|
删除整个项目目录文件 | 测试区,测试删除文件时目录写错,导致整个weblogic子项目目录被删 | 请项目中负责集成部署的公司帮忙重新部署,测试区瘫痪了两天 |
误更新生产订单数据3万多条 | 下班前,未带核心过滤条件,导致误更新3万多条订单数据,偷偷利用binlog恢复了,耗时3个小时 | 完美恢复数据 |
线上库整库误删除 | 应业务方要求要在线上环境创建线上联调库,使用了导出数据库DDL语句后,直接执行,导致执行了exists drop语句,删除了线上库所有数据,数据量大表均在千万级,APP、网站全线瘫痪。 | 使用前一天的备份副本数据恢复,下载binlog日志按操作避开事发时间点分割后编译,导入数据,然后再修复事故之后的数据,共计耗时48小时。 |
网友事故分享:
事故名称 | 事故描述 | 事故结果 |
---|---|---|
业务漏洞 | 业务乱配优惠券,可以叠加,超级优惠,然后被薅羊毛 | 部门帮着查羊毛记录,处理订单,挽回损失。然后对外发公告宣称是被部门的风控系统误杀的。 |
贷款费率 | 运营配置T+1日结算贷款费率错误,导致用户贷款金额发生错误。 | 上线新费率替换旧费率,已经产生的费率错误联系贷款用户修复。 |
多活动互斥 | 三个部门的都做活动,但最后导致重复发奖。一个用户邀请别人奖励,变成了三份奖励。 | 产品提供渠道和互斥功能,让运营自己选择是否可以并行发放奖励。 |
设计评审,把控的是实现流程、代码评审,把控的是实现方案
,在配合上完善的监控和报警。只有这样才能更少的减少不必要的事故。评论已关闭。