采集入口那次短时抖动,持续时间不到二十分钟。
按技术视角,这甚至不值得上升到“事故”:网络抖动、DNS解析、某台节点GC过高,任何一个都能解释。数科运维那边也给出了同样的说法:
“短时抖动,已恢复。”
但林远盯着的是另一件事——抖动之后,匿名入口立刻出现“我们有办法出M1”的话术。
抖动本身不吓人,抖动成为生意才吓人。
他对陈毅说:“从今天开始,入口不再只是技术组件,它是制度链条的一段。链条一段不透明,就会被卖成门票。”
陈毅点头:“所以你要把入口故障也制度化。”
“对。”林远在白板上写下四条,像给入口挂上公示牌:
故障必须有编号
故障必须有周报
故障期间补签有规则
卖‘出M1’一律视为干扰源
OPS-EVID-01:入口故障与补签规则
当晚,公共接口新增一份运行规则,编号很行政,但目的很简单:OPS-EVID-01|采集入口可用性与补签规则(试行)。
规则核心三块:
1)故障编号(incident_id)强制化
入口错误率>5%持续5分钟 → 自动生成incident_id
incident_id包含:开始时间、结束时间、影响范围(地市/区县桶)、影响功能(采集/签名/验真)
incident_id必须在SLA周报公开(不写内部IP、不写细节漏洞,只写结构)
2)故障期间“补签窗口”标准化
若M1采集在故障时间窗内完成离线摘要(本地生成),可在恢复后48小时内补绑定nonce并生成发生签名
补签必须携带incident_id
超过窗口未补签 → 降级M0,不计入硬证据
3)离线发生包配额与统计
每个项目每周离线发生包使用次数有上限(默认10次,可申请提升但公开统计)
离线使用率过高会触发“网络条件/流程问题”整改工单
防止把离线当后门、把抖动当常态
“这三块把抖动从‘你信我’变成‘你看编号’。”林远说,“只要有编号,谁都没法靠抖动卖便利。”