返回学习路径

learn

故障模型:FRER 到底准备防什么

在设计复制路径前,先定义链路、桥设备、端口、供电、线束和拥塞等故障模型,避免可靠性结论没有对象。

第八章:冗余与可靠性抗故障IEEE 802.1CBFRER18 分钟

本节学习目标

  • 理解 FRER 设计必须先定义要覆盖的故障类型。
  • 知道逻辑路径独立不等于故障域独立。
  • 能把故障模型转成路径和验证要求。

建议先读

核心概念

single faultcommon-cause failurefault domaincoverage

本章目录

  1. 01故障模型:FRER 到底准备防什么在设计复制路径前,先定义链路、桥设备、端口、供电、线束和拥塞等故障模型,避免可靠性结论没有对象。
  2. 02复制与消除:FRER 如何让故障不立刻打断关键流从序列号、复制点、消除点、恢复窗口和乱序处理理解 802.1CB FRER 的核心机制。
  3. 03乱序窗口与验证:重复消除怎样才算可信理解 FRER 恢复窗口如何处理路径延迟差异、乱序和重复帧,并学习用测试证明没有误交付或误丢弃。
  4. 04冗余路径设计:可靠性、带宽和调度复杂度的交换分析 FRER 多路径不是免费午餐,路径独立性、带宽消耗、调度可行性、延迟差异和验证成本必须一起看。
  5. 05复制后的资源账:FRER 怎样改变带宽和 Qbv 排表理解 FRER 副本会放大链路发送机会、队列占用和调度窗口需求,可靠性设计必须进入资源模型。
  6. 06故障注入测试:证明 FRER 不是只在图上可靠学习如何通过断链、端口 down、路径恢复、背景压力和重复计数器验证 FRER 的故障连续性。
  7. 07FRER 的边界与残余风险:可靠性不是无限承诺明确 FRER 不能覆盖 talker 故障、复制点前故障、共因故障和错误配置,学习如何把残余风险写进设计结论。

解决什么问题

FRER 经常被简单描述成“发两份”。但真正的问题是:你希望这两份保护什么故障?如果不回答这个问题,可靠性结论就没有对象。

单链路断开、单桥失效、端口误码、供电故障、线束损坏、短暂拥塞、配置错误,这些故障需要的保护方式并不相同。FRER 不是魔法,它只能覆盖路径和机制覆盖得到的范围。

背景与直觉

买保险前要知道保什么。只保设备损坏,不能自动覆盖数据丢失;只保火灾,不能自动覆盖洪水。网络可靠性也是一样。FRER 设计必须先说清“保单条款”。

怎么解决

先把故障按层次列出来。

故障类型例子FRER 设计要问
链路故障断线、误码严重副本路径是否绕开该链路
桥设备故障交换机重启或失效路径是否经过不同桥
端口故障单端口 down是否有替代端口
共因故障供电、机柜、线束物理故障域是否分离
拥塞/配置队列错误、窗口错位FRER 是否只是复制错误配置

故障模型写清后,再看路径设计和验证。你说要覆盖单链路故障,就要注入断链测试;你说要覆盖单桥故障,就不能让两个副本都经过同一桥。

带来了什么新问题

故障模型会让设计变得诚实,也会暴露无法覆盖的范围。比如 talker 本身故障,FRER 通常保护不了;复制点之前的链路故障,也无法通过复制点之后的双路径修复。

这不是 FRER 的失败,而是可靠性设计的边界。清楚边界比模糊承诺更重要。

检查点

  • 如果复制点在第一台交换机之后,talker 到第一台交换机之间的链路故障能被 FRER 覆盖吗?
  • 为什么线束级共因故障会让两条逻辑路径同时失效?

掌握检查

读完本节后,先用下面这些问题校准自己,而不是只确认“看过了”。

  1. 1能列出至少四类 FRER 可能要考虑的故障。
  2. 2能说明没有故障模型时可靠性结论为什么空泛。