返回学习路径

learn

最坏情况指标:平均延迟为什么不够

学习 TSN 验证中应该关注最大值、分位数、deadline miss、抖动范围和测量误差,而不是只报告平均延迟。

第九章:验证与进阶阅读工程闭环TSN Validation20 分钟

本节学习目标

  • 能区分平均延迟、最大延迟、分位数和 deadline miss。
  • 理解测量误差必须进入验证结论。
  • 知道 TSN 报告为什么要关注尾部和边界。

建议先读

核心概念

worst-case latencypercentiledeadline missmeasurement error

本章目录

  1. 01可观测性计划:TSN 测试要留下哪些证据把拓扑、配置、抓包、硬件时间戳、端口计数器、背景压力和故障注入组织成能证明边界的测试计划。
  2. 02最坏情况指标:平均延迟为什么不够学习 TSN 验证中应该关注最大值、分位数、deadline miss、抖动范围和测量误差,而不是只报告平均延迟。
  3. 03时间同步证据:没有共同时间,延迟数字也会失真学习 TSN 验证中如何记录 gPTP 状态、时间戳来源、offset、grandmaster 和测量时钟,避免把不同时间基准下的数字硬比较。
  4. 04故障注入设计:测试要覆盖你声称覆盖的故障学习如何把 FRER、Qbv、Qcc 的故障模型转成断链、端口 down、设备重启、配置失败和恢复阶段的验证场景。
  5. 05调试手册:TSN 失败时按证据链收敛把 TSN 失败拆成需求、时间、队列、调度、配置、冗余和测量几类证据,形成可复盘的排查顺序。
  6. 06可复现报告:让别人能重新相信你的结论学习一份 TSN 验证报告应该如何组织拓扑、配置、流量、脚本、原始数据、统计和结论边界。
  7. 07从验证报告到论文阅读:指标、假设与结论边界把工程测试里的证据意识迁移到论文阅读,判断 TSN 论文的模型、实验、baseline 和结论是否扎实。

解决什么问题

验证报告最常见的问题是只写平均延迟。平均值可以描述常见体验,却不能证明关键控制流每个周期都满足 deadline。TSN 更关心尾部、最大值、miss 次数和测量误差。

本节解决的是指标选择。没有正确指标,再多测试也可能得出错误信心。

背景与直觉

如果电梯平均等待 10 秒,但偶尔等 5 分钟,用户体验仍然很差。控制网络更严格:如果 deadline 是 500 us,一次 900 us 就可能是失败。平均值会把失败样本稀释掉。

怎么解决

报告至少要同时给出这些指标。

指标含义TSN 价值
average latency平均表现只能做背景参考
maximum observed latency测试中最大样本接近边界判断
percentile尾部趋势观察低频风险
deadline miss count超过 deadline 的次数直接判断失败
jitter range周期波动控制质量相关
measurement error时间戳不确定性影响结论可信度

如果 deadline 是 500 us,最大观测延迟是 492 us,但测量误差可能有 +/- 15 us,那么不能简单说安全。你需要把误差预算写进结论。

带来了什么新问题

关注最坏情况会迫使测试更严谨。样本量不足会漏掉低频问题,背景流量不真实会低估尾部,测量精度不够会让边界判断模糊。

同时,最大观测值也不是数学最坏值。它只能说明测试覆盖范围内的结果,因此报告必须写清场景和限制。

检查点

  • 为什么平均延迟 80 us 不能证明 500 us deadline 一定安全?
  • 如果测量误差是 20 us,最大观测延迟距离 deadline 只有 10 us,你会怎样写结论?

掌握检查

读完本节后,先用下面这些问题校准自己,而不是只确认“看过了”。

  1. 1能说明一份只给平均延迟的报告缺少哪些关键结论。
  2. 2能把测量精度写进 deadline 判断。