返回学习路径

learn

故障注入测试:证明 FRER 不是只在图上可靠

学习如何通过断链、端口 down、路径恢复、背景压力和重复计数器验证 FRER 的故障连续性。

第八章:冗余与可靠性抗故障IEEE 802.1CBFRER21 分钟

本节学习目标

  • 能设计基础 FRER 故障注入测试。
  • 知道要同时观察连续性、deadline 和重复消除。
  • 理解恢复阶段也需要验证。

建议先读

核心概念

fault injectioncontinuityduplicate counterrecovery evidence

本章目录

  1. 01故障模型:FRER 到底准备防什么在设计复制路径前,先定义链路、桥设备、端口、供电、线束和拥塞等故障模型,避免可靠性结论没有对象。
  2. 02复制与消除:FRER 如何让故障不立刻打断关键流从序列号、复制点、消除点、恢复窗口和乱序处理理解 802.1CB FRER 的核心机制。
  3. 03乱序窗口与验证:重复消除怎样才算可信理解 FRER 恢复窗口如何处理路径延迟差异、乱序和重复帧,并学习用测试证明没有误交付或误丢弃。
  4. 04冗余路径设计:可靠性、带宽和调度复杂度的交换分析 FRER 多路径不是免费午餐,路径独立性、带宽消耗、调度可行性、延迟差异和验证成本必须一起看。
  5. 05复制后的资源账:FRER 怎样改变带宽和 Qbv 排表理解 FRER 副本会放大链路发送机会、队列占用和调度窗口需求,可靠性设计必须进入资源模型。
  6. 06故障注入测试:证明 FRER 不是只在图上可靠学习如何通过断链、端口 down、路径恢复、背景压力和重复计数器验证 FRER 的故障连续性。
  7. 07FRER 的边界与残余风险:可靠性不是无限承诺明确 FRER 不能覆盖 talker 故障、复制点前故障、共因故障和错误配置,学习如何把残余风险写进设计结论。

解决什么问题

FRER 的目标是故障连续性,所以不能只在正常情况下测试。你必须真的制造故障,观察副本路径是否接管,deadline 是否仍满足,重复消除是否正确,恢复后是否出现乱序或重复交付。

本节解决验证方法问题:图上可靠不等于故障下可靠。

背景与直觉

备用电源不拉闸测试,就不知道它能不能接管。FRER 也是一样。配置看起来正确,只说明系统处于预期结构,不说明故障行为已经被证明。

怎么解决

基础测试可以覆盖这些场景。

场景观察项
正常双路径两条副本是否都存在,消除是否计数
主路径断链应用层是否连续,deadline 是否满足
备用路径断链主路径是否正常,重复状态是否稳定
主路径恢复是否出现重复交付或乱序
背景压力下断链备用路径是否仍有时间边界

测试材料要包含拓扑、故障动作时间、抓包点、设备计数器、应用层序列、延迟统计和恢复日志。

带来了什么新问题

故障注入可能影响生产环境,因此需要测试窗口或实验网络。某些设备的断链动作也可能触发其他协议收敛,影响结果解释。

此外,故障注入要和故障模型一致。你声称覆盖单桥故障,就不能只拔一根非关键链路;你声称覆盖共因故障,就要说明物理故障域如何验证。

检查点

  • FRER 断链测试中,除了应用层是否收到数据,还要观察哪些设备侧证据?
  • 为什么主路径恢复阶段也可能暴露重复消除问题?

掌握检查

读完本节后,先用下面这些问题校准自己,而不是只确认“看过了”。

  1. 1能列出 FRER 测试至少要注入的故障和采集的证据。
  2. 2能解释为什么断链后仍到达不等于测试通过。