现场故障定位指南


离职系列 第四篇
离职系列,想想这几年在公司的成长,在这做个记录。此篇主要谈谈LMT时,简单总结了一套针对问题现场定位方法论。

前言

在客户现场环境中,我们往往面临网络隔离、工具受限、信息不完整等挑战。并且由于LMT(9人)资源有限,但是试用+付费的现场却有500左右,且数字还在不断增加,因此需要科学的方法论和充分的实践经验,下面是我针对服务异常问题整理的,该问题出现频次最高且专业性强涉及多种操作系统(欧拉、centos、麒麟),整理文档方便其它成员学习实践。成员可以结合实际情况灵活调整。

定位指南

第一阶段:问题收集与初步分析(原则上TAC或一线提供)

  1. 确认问题的基本信息

    • 问题的具体表现(错误信息、异常行为等)
    • 问题的影响范围
    • 问题的发生时间和频率
    • 问题是否可复现
  2. 建立问题基线

    • 首次发现问题的时间点
    • 相关变更的时间点(补丁、升级、断电等)
    • 现场采取的临时措施

第二阶段:快速诊断(LMT)

  1. 检查环境

    • k8s集群、组件状态、应用pod状态
    • 检查系统资源(磁盘、内存等)
  2. 检查日志信息

    • 查看集群日志、组件日志
    • 查看应用pod日志
  3. 进行初步故障假设

    • 根据已收集的信息提出可能的故障原因
    • 按照影响范围和可能性排序
    • 可通过经验+知识库等制定快速验证方案

第三阶段:深入分析(LMT+后端研发接口人)

  1. 验证假设

    • 复现问题场景
    • 收集更多证据支持或否定假设
  2. 确定初步根因

    • 总结所有收集到的证据
    • 确认问题的触发条件
    • 建立问题发生的完整链路
  3. 是否升级问题

    • 如果验证有出入或者没有更好的办法则转交问题到我
    • 我来决定是否升级问题(申请后端研发介入)

第四阶段:解决方案(LMT+后端研发接口人+TAC+一线)

  1. 制定修复方案

    • 提出短期解决方案(快速修复)
    • 设计长期解决方案(根本解决)
    • 评估方案的风险和影响并告知一线,让其与客户沟通确认
  2. 实施修复

    • 客户确认后,在测试环境验证解决方案
    • 准备回滚方案(备份数据、备份镜像等)
    • 实施修复并验证效果

注意事项

  1. 所有重要操作前先备份
  2. 收集足够的证据再行动
  3. 重要变更需要得到一线授权
  4. 保持操作记录的完整性
  5. 及时同步问题处理进展
  6. 警惕处理过程中的连锁反应

附一张简单的问题记录卡模板