现场故障定位指南
离职系列
第四篇
离职系列,想想这几年在公司的成长,在这做个记录。此篇主要谈谈LMT时,简单总结了一套针对问题现场定位方法论。
前言
在客户现场环境中,我们往往面临网络隔离、工具受限、信息不完整等挑战。并且由于LMT(9人)资源有限,但是试用+付费的现场却有500左右,且数字还在不断增加,因此需要科学的方法论和充分的实践经验,下面是我针对服务异常问题整理的,该问题出现频次最高且专业性强涉及多种操作系统(欧拉、centos、麒麟),整理文档方便其它成员学习实践。成员可以结合实际情况灵活调整。
定位指南
第一阶段:问题收集与初步分析(原则上TAC或一线提供)
确认问题的基本信息
- 问题的具体表现(错误信息、异常行为等)
- 问题的影响范围
- 问题的发生时间和频率
- 问题是否可复现
建立问题基线
- 首次发现问题的时间点
- 相关变更的时间点(补丁、升级、断电等)
- 现场采取的临时措施
第二阶段:快速诊断(LMT)
检查环境
- k8s集群、组件状态、应用pod状态
- 检查系统资源(磁盘、内存等)
检查日志信息
- 查看集群日志、组件日志
- 查看应用pod日志
进行初步故障假设
- 根据已收集的信息提出可能的故障原因
- 按照影响范围和可能性排序
- 可通过经验+知识库等制定快速验证方案
第三阶段:深入分析(LMT+后端研发接口人)
验证假设
- 复现问题场景
- 收集更多证据支持或否定假设
确定初步根因
- 总结所有收集到的证据
- 确认问题的触发条件
- 建立问题发生的完整链路
是否升级问题
- 如果验证有出入或者没有更好的办法则转交问题到我
- 我来决定是否升级问题(申请后端研发介入)
第四阶段:解决方案(LMT+后端研发接口人+TAC+一线)
制定修复方案
- 提出短期解决方案(快速修复)
- 设计长期解决方案(根本解决)
- 评估方案的风险和影响并告知一线,让其与客户沟通确认
实施修复
- 客户确认后,在测试环境验证解决方案
- 准备回滚方案(备份数据、备份镜像等)
- 实施修复并验证效果
注意事项
- 所有重要操作前先备份
- 收集足够的证据再行动
- 重要变更需要得到一线授权
- 保持操作记录的完整性
- 及时同步问题处理进展
- 警惕处理过程中的连锁反应
附一张简单的问题记录卡模板
