learn
故障注入测试:证明 FRER 不是只在图上可靠
学习如何通过断链、端口 down、路径恢复、背景压力和重复计数器验证 FRER 的故障连续性。
第八章:冗余与可靠性抗故障IEEE 802.1CBFRER21 分钟
本节学习目标
- 能设计基础 FRER 故障注入测试。
- 知道要同时观察连续性、deadline 和重复消除。
- 理解恢复阶段也需要验证。
建议先读
核心概念
fault injectioncontinuityduplicate counterrecovery evidence
本章目录
- 01故障模型:FRER 到底准备防什么在设计复制路径前,先定义链路、桥设备、端口、供电、线束和拥塞等故障模型,避免可靠性结论没有对象。
- 02复制与消除:FRER 如何让故障不立刻打断关键流从序列号、复制点、消除点、恢复窗口和乱序处理理解 802.1CB FRER 的核心机制。
- 03乱序窗口与验证:重复消除怎样才算可信理解 FRER 恢复窗口如何处理路径延迟差异、乱序和重复帧,并学习用测试证明没有误交付或误丢弃。
- 04冗余路径设计:可靠性、带宽和调度复杂度的交换分析 FRER 多路径不是免费午餐,路径独立性、带宽消耗、调度可行性、延迟差异和验证成本必须一起看。
- 05复制后的资源账:FRER 怎样改变带宽和 Qbv 排表理解 FRER 副本会放大链路发送机会、队列占用和调度窗口需求,可靠性设计必须进入资源模型。
- 06故障注入测试:证明 FRER 不是只在图上可靠学习如何通过断链、端口 down、路径恢复、背景压力和重复计数器验证 FRER 的故障连续性。
- 07FRER 的边界与残余风险:可靠性不是无限承诺明确 FRER 不能覆盖 talker 故障、复制点前故障、共因故障和错误配置,学习如何把残余风险写进设计结论。
解决什么问题
FRER 的目标是故障连续性,所以不能只在正常情况下测试。你必须真的制造故障,观察副本路径是否接管,deadline 是否仍满足,重复消除是否正确,恢复后是否出现乱序或重复交付。
本节解决验证方法问题:图上可靠不等于故障下可靠。
背景与直觉
备用电源不拉闸测试,就不知道它能不能接管。FRER 也是一样。配置看起来正确,只说明系统处于预期结构,不说明故障行为已经被证明。
怎么解决
基础测试可以覆盖这些场景。
| 场景 | 观察项 |
|---|---|
| 正常双路径 | 两条副本是否都存在,消除是否计数 |
| 主路径断链 | 应用层是否连续,deadline 是否满足 |
| 备用路径断链 | 主路径是否正常,重复状态是否稳定 |
| 主路径恢复 | 是否出现重复交付或乱序 |
| 背景压力下断链 | 备用路径是否仍有时间边界 |
测试材料要包含拓扑、故障动作时间、抓包点、设备计数器、应用层序列、延迟统计和恢复日志。
带来了什么新问题
故障注入可能影响生产环境,因此需要测试窗口或实验网络。某些设备的断链动作也可能触发其他协议收敛,影响结果解释。
此外,故障注入要和故障模型一致。你声称覆盖单桥故障,就不能只拔一根非关键链路;你声称覆盖共因故障,就要说明物理故障域如何验证。
检查点
- FRER 断链测试中,除了应用层是否收到数据,还要观察哪些设备侧证据?
- 为什么主路径恢复阶段也可能暴露重复消除问题?
掌握检查
读完本节后,先用下面这些问题校准自己,而不是只确认“看过了”。
- 1能列出 FRER 测试至少要注入的故障和采集的证据。
- 2能解释为什么断链后仍到达不等于测试通过。