第468章 入口故障公开化与“卖便利”

采集入口那次短时抖动,持续时间不到二十分钟。

按技术视角,这甚至不值得上升到“事故”:网络抖动、DNS解析、某台节点GC过高,任何一个都能解释。数科运维那边也给出了同样的说法:

“短时抖动,已恢复。”

但林远盯着的是另一件事——抖动之后,匿名入口立刻出现“我们有办法出M1”的话术。

抖动本身不吓人,抖动成为生意才吓人。

他对陈毅说:“从今天开始,入口不再只是技术组件,它是制度链条的一段。链条一段不透明,就会被卖成门票。”

陈毅点头:“所以你要把入口故障也制度化。”

“对。”林远在白板上写下四条,像给入口挂上公示牌:

故障必须有编号

故障必须有周报

故障期间补签有规则

卖‘出M1’一律视为干扰源

OPS-EVID-01:入口故障与补签规则

当晚,公共接口新增一份运行规则,编号很行政,但目的很简单:OPS-EVID-01|采集入口可用性与补签规则(试行)。

规则核心三块:

1)故障编号(incident_id)强制化

入口错误率>5%持续5分钟 → 自动生成incident_id

incident_id包含:开始时间、结束时间、影响范围(地市/区县桶)、影响功能(采集/签名/验真)

incident_id必须在SLA周报公开(不写内部IP、不写细节漏洞,只写结构)

2)故障期间“补签窗口”标准化

若M1采集在故障时间窗内完成离线摘要(本地生成),可在恢复后48小时内补绑定nonce并生成发生签名

补签必须携带incident_id

超过窗口未补签 → 降级M0,不计入硬证据

3)离线发生包配额与统计

每个项目每周离线发生包使用次数有上限(默认10次,可申请提升但公开统计)

离线使用率过高会触发“网络条件/流程问题”整改工单

防止把离线当后门、把抖动当常态

“这三块把抖动从‘你信我’变成‘你看编号’。”林远说,“只要有编号,谁都没法靠抖动卖便利。”