返回论文解读

study reader

TSN 中低延迟、有限带宽占用的混合关键性流调度

Mixed-Criticality Flow Scheduling with Low Delay and Limited Bandwidth in TSN · 2026-05-11

调度算法工业网络arXiv nonexclusive,仅学习笔记

该论文许可不适合在公开站点发布全文原文或逐字全文译稿。本站提供中文学习资料、原文入口和阅读路线,帮助中文读者理解论文,但不替代论文原文。

本站范围
中文学习稿
内容来源
中文精读资料 + 原文入口
阅读规模
56 个原文段落线索

中文精读学习版:Mixed-Criticality Flow Scheduling with Low Delay and Limited Bandwidth in TSN

使用说明

这份资料不是论文全文翻译,也不会按原文段落逐句复刻。它是一份面向中文读者的精读学习笔记,目标是帮助你理解论文的问题背景、建模方式、算法思路和实验结论。

建议配合本地 PDF 阅读,尤其是论文中的系统架构图、MCFS-2L 工作流图、实验曲线图。阅读 PDF 时可以重点关注:TSN switch 模型、frame aggregation 流程、dynamic reassembly and scheduling 流程,以及 Fig. 4 到 Fig. 6 的实验结果。

一句话概括

这篇论文提出 MCFS-2L:在 TSN 车载域集中架构中,把关键流和非关键流按条件聚合以节省带宽和调度窗口,并在聚合帧不可调度时动态拆出非关键流,从而优先保证关键流低时延传输,同时尽量提高非关键流接收率。

适合先掌握的背景

  1. 1TSN,Time-Sensitive Networking TSN 是以太网面向确定性通信的扩展,常用于工业控制、汽车、航空、能源等场景。本论文讨论的是在 TSN 中如何安排不同数据流的发送时间,让重要数据按时到达。
  1. 2IEEE 802.1Qbv / TAS,Time-Aware Shaper Qbv 通过 Gate Control List,GCL,控制不同队列在不同时间窗口开关。论文里的“调度”本质上就是为帧找到合适的发送 offset 和时间窗口。
  1. 3GCL,Gate Control List GCL 可以理解为交换机端口的时间表:什么时候打开哪个优先级队列,什么时候关闭。帧越多、窗口越碎,GCL 越复杂,调度越困难。
  1. 4车载域集中架构,domain-centralized automotive architecture 论文以汽车网络为主要场景:ADAS、车辆控制、智能座舱等域通过 DCU 和 TSN switch 互联。不同域之间的数据流量增长后,TSN 链路和调度窗口会变得紧张。
  1. 5CAN 到 TSN 的帧聚合,frame aggregation 车控域常有大量小帧,直接映射到 TSN 会造成帧数量多、头部开销大、窗口需求多。帧聚合把多个小帧合成一个较大的 TSN frame,以减少传输和调度开销。
  1. 6混合关键性,mixed-criticality 网络里同时存在安全控制类关键流和舒适性、信息娱乐类非关键流。关键流必须按时到达,非关键流可以容忍更大延迟。论文的核心就是同时处理这两类流,而不是只看单一优先级。
  1. 7可调度性,schedulability 如果一个帧能在满足 deadline、转发顺序、链路互斥等约束下找到发送时间,就称为可调度。论文优化的一个重要指标是 acceptance ratio,也就是成功被调度并按时到达的比例。
  1. 8抢占式传输,preemption 论文采用 preemption 模式,高优先级 TT frame 可以中断低优先级帧传输。这符合关键流优先保障的设计目标。

论文要解决的问题

TSN 的优势是确定性传输,但确定性不是免费的。它依赖预先规划好的发送时间窗口、队列门控和链路资源。当智能汽车里的 ADAS、自动驾驶、环视、发动机控制等应用越来越多,网络里会出现大量周期性数据流。这些流会竞争相同的链路和时间窗口,带来几个痛点:

第一,帧数量太多会让调度变难。每个小帧都单独调度,会消耗更多 GCL 时间窗口,也会产生更多协议头开销。

第二,简单帧聚合会引入延迟风险。把多个帧合成一个大帧确实可以节省带宽,但聚合帧变大后,传输时间也变长。如果它塞不进关键流的时间窗口,反而可能导致整个聚合帧不可调度。

第三,关键流和非关键流的目标不同。关键流需要严格 deadline,非关键流更偏向带宽效率和 QoS。已有方法往往只处理单一优先级或没有充分利用混合关键性的差异,容易在高负载下牺牲关键流可调度性。

第四,带宽和时延之间存在冲突。聚合越多,头部开销越少、带宽效率越高;但聚合越多,单个帧越大,低时延调度越困难。论文想做的是在有限带宽下找到更好的折中:关键流尽量准时,非关键流尽量不浪费,整体带宽利用更合理。

论文提出的优化目标可以概括为:在 TSN 车载域集中架构中,降低帧数量和 GCL 时间窗口需求,提高关键流与非关键流的 acceptance ratio,同时控制带宽占用和算法执行时间。

核心思路

  1. 1先把能合并的帧合并,减少网络负担 MCFS-2L 会把源节点、目的节点相同,并且周期满足一定关系的关键帧和非关键帧聚合成一个 TSN frame。这样多个 payload 可以共享一个协议头,减少帧数量和窗口数量。
  1. 2聚合不是无条件的 聚合后不能超过 TSN frame 的最大 payload 限制。论文中使用最大 payload 1500 bytes,加上额外 42 bytes 开销;链路速率设为 100 Mbps。聚合还要考虑周期、deadline、源宿节点等约束。
  1. 3聚合帧继承更严格的时间要求 新聚合帧的周期取相关帧周期的最大公约数,deadline 取被聚合帧中的最小 deadline。这样做偏保守,可以避免因为非关键流加入而放松关键流的时限要求。
  1. 4调度时按 deadline 紧迫程度排序 deadline 更小的帧拥有更高调度优先级。算法尝试为每个聚合帧寻找 offset,检查 deadline、转发顺序和链路冲突约束。
  1. 5如果聚合帧不可调度,就动态拆出非关键帧 这是论文最关键的设计。聚合带来效率,但也可能让帧太大、太难安排。MCFS-2L 遇到不可调度聚合帧时,会逐步识别并移出其中的非关键帧,让剩余的关键部分更容易满足 deadline。
  1. 6拆出的非关键帧不会直接丢弃 被拆出来的非关键帧会重新聚合成新帧,再进入调度流程。也就是说,算法优先保障关键流,但仍尝试利用剩余资源安排非关键流。
  1. 7整体策略是“关键流硬保障 + 非关键流弹性利用” 带宽充足时,关键和非关键可以一起聚合以提高效率;带宽紧张或窗口冲突时,非关键流让出空间,关键流优先被调度。

方法拆解

建模对象

论文主要建模了三类对象:

  1. 1网络架构模型 网络被表示为有向图。节点包括多个 Domain Control Unit,DCU,和 TSN switch;边表示物理链路;route 表示从源节点到目的节点的传输路径。
  1. 2TSN switch 模型 数据流进入 switch 后,根据路由表进入对应输出端口的队列。输出端口有多个优先级队列,例如 Q7 用于严格 deadline 的 TT flow,Q6/Q5 可用于 AVB 类流,其余可用于 Best-Effort。TAS 通过 GCL 控制队列门的开闭。
  1. 3flow/frame 模型 每个 flow 包含类型、周期、deadline、传输时长、发送 offset、源节点、目的节点等属性。论文为了简化,假设一个 flow 只有一个 frame,因此 flow 和 frame 在方法中基本可以互换理解。

约束

  1. 1聚合约束 被聚合的关键帧和非关键帧必须有相同源节点和目的节点。 新帧周期取被聚合帧周期的 greatest common divisor。 新帧 deadline 取被聚合帧 deadline 的最小值。 聚合后帧大小不能超过 TSN frame 最大限制。
  1. 2deadline 约束 从源节点到目的节点的总延迟必须不超过该帧 deadline。
  1. 3forwarding 约束 帧必须按路径顺序逐跳转发。下一跳的发送时间不能早于上一条链路上的接收完成时间。
  1. 4link 约束 同一条数据链路同一时刻只能传输一个帧,不能发生链路冲突。

算法/启发式

MCFS-2L 可以理解为两个阶段:

  1. 1mixed-criticality frame aggregation 先把满足条件的关键帧和非关键帧放到同一 cluster,再将 cluster 内帧聚合成新 frame。不满足聚合条件的帧保持原样。
  1. 2dynamic reassembly and scheduling 对聚合后的帧进行调度。若某帧满足所有约束,则记录 offset,调度成功。若因为转发或链路约束冲突,则调整 offset 继续检查。若整体不可调度,则从其中拆出非关键帧,使关键部分重新组成较小的帧再次调度;拆出的非关键帧也重新聚合并尝试调度。

复杂度或实现考虑

论文没有给出非常形式化的复杂度推导,但实验中观察到:随着 TSN frame 数量增加,MCFS-2L 执行时间会上升,尤其当帧数达到约 250 以上时,执行时间可能超过 R-NWTT。

原因很直接:高负载下不可调度帧更多,算法需要反复拆分非关键帧、重组、再调度。这提升了 acceptance ratio,但增加了计算开销。

所以 MCFS-2L 的工程含义是:它不是最轻量的调度器,而是用更多调度计算换取更高的关键流和非关键流接收率,以及更好的带宽效率。

输出结果

算法输出的是每个成功调度帧的发送 offset 和调度安排。更宏观地看,它希望输出一个满足 deadline、forwarding、link 约束的 TSN 传输计划,并尽可能提高关键流与非关键流的 acceptance ratio。

关键概念中文讲解

混合关键性,mixed-criticality

背景:实际车载网络里,不同数据的重要程度不同。刹车、转向、主动安全控制等数据属于高关键性;座舱、娱乐、某些状态上报可能属于较低关键性。

解决的问题:如果所有流都用同一种调度策略处理,要么浪费资源,要么无法保证安全关键流。mixed-criticality 让调度器能区分“必须准时”和“尽量准时”。

带来的新问题:不同关键性流共享网络资源后,如何既不让非关键流拖累关键流,又不简单牺牲非关键流,是调度算法需要处理的核心矛盾。

关键流,critical flow

背景:关键流通常承载安全数据、实时控制信息或强 deadline 任务。

解决的问题:关键流要求确定性传输,不能只依赖平均延迟或概率性 QoS。它需要在 GCL、队列优先级和链路调度中得到优先保障。

带来的新问题:关键流优先会压缩其他流的资源。如果关键流数量增加,非关键流可能更难被调度,系统整体 QoS 下降。

非关键流,non-critical flow

背景:非关键流通常对 deadline 不那么严格,可以容忍一定延迟,但仍然希望尽可能传输成功。

解决的问题:非关键流可以作为调度系统的弹性部分。在资源充足时与关键流聚合,提高带宽效率;资源紧张时被拆出,让关键流先过。

带来的新问题:如果非关键流被过度牺牲,系统会退化成只服务关键流,车载应用体验和整体数据完整性会受影响。因此论文仍然统计 non-critical acceptance ratio。

低时延,low delay

背景:TSN 的价值之一就是确定性低延迟,尤其适合控制闭环、同步采样和实时反馈。

解决的问题:低时延要求帧在短 deadline 内完成端到端传输。论文中 deadline 取值范围为 200 到 800 微秒,这对调度窗口和链路冲突非常敏感。

带来的新问题:低时延通常意味着窗口更紧、调度空间更小。帧聚合虽然节省带宽,却可能让单帧传输时间变长,从而增加低时延调度难度。

带宽占用,bandwidth utilization

背景:链路带宽有限,论文实验中链路速率设为 100 Mbps。每个 TSN frame 还有额外头部开销。

解决的问题:通过帧聚合,多个小 payload 共享一个 frame header,可以减少总传输时间和窗口需求。

带来的新问题:带宽利用率不能孤立解读。某个方法带宽占用低,可能是因为它成功调度的帧少。论文也提醒了类似现象:NWTT 在高负载下可能带宽利用率低,但原因是 acceptance ratio 也低。

调度窗口,time window

背景:在 Qbv/TAS 中,队列门在特定时间打开,帧只能在合适窗口发送。

解决的问题:为关键流预留或安排窗口,可以实现确定性传输。聚合多个帧后,原本多个窗口可以减少为一个窗口。

带来的新问题:聚合帧更大,需要更长窗口。如果窗口长度不足,聚合帧可能不可调度。

可调度性,schedulability

背景:一个帧不只是“有带宽就能发”,还必须满足 deadline、路径顺序、链路互斥、队列门控等条件。

解决的问题:可调度性判断让算法明确知道某个帧是否能在当前资源下被安排。

带来的新问题:可调度性检查本身可能代价不低。动态拆分和重调度会提高成功率,但也增加算法执行时间。

接收率/接受率,acceptance ratio

背景:论文用 acceptance ratio 衡量成功调度并按时完成传输的比例,分别统计 critical frames 和 non-critical frames。

解决的问题:它比单看平均延迟更适合评价硬 deadline 场景,因为失败就是未按时完成。

带来的新问题:acceptance ratio 高不代表所有性能都好,还要结合带宽利用率和执行时间看。尤其在实际系统中,调度器计算时间也可能成为部署约束。

实验与结果怎么看

论文使用来自 General Motors 的真实汽车工作负载数据,包含 active safety、engine control、automated driving、surround view 等应用流。实验中,发送域随机选自 ADAS 和智能座舱域,目的域为车辆控制域,域内网络采用 TSN。周期在 20 到 100 ms 之间随机生成,deadline 为 200 到 800 微秒,链路速率为 100 Mbps,payload 为 100 到 1500 bytes,并计入 42 bytes 额外开销。

比较对象有两个:

  • NWTT:把流的初始调度时间设为尽可能早的开始时间。
  • R-NWTT:在 0 到相对 deadline 的范围内随机选择可调度开始时间。

论文主要看四类指标:

  1. 1关键帧 acceptance ratio 帧数较少时,比如 50 或 100,三种方法都能达到 100%。随着帧数量增加,三者都会下降,但 MCFS-2L 通常高于 NWTT 和 R-NWTT。原因是它既减少了帧数量,又能在聚合帧不可调度时拆出非关键部分保护关键流。
  1. 2非关键帧 acceptance ratio MCFS-2L 在相同帧规模下也高于两个 baseline。论文给出的一个例子是,在 500 个 TSN frames 时,MCFS-2L 的非关键帧 acceptance ratio 比 R-NWTT 高 6.02%。这说明它没有简单丢弃非关键流,而是通过重新聚合和调度提高了非关键流成功率。
  1. 3带宽利用率 MCFS-2L 相比 R-NWTT 通常有更低带宽利用率,同时 acceptance ratio 更高。这是比较有意义的结果:它不是靠少调度帧来“省带宽”,而是通过聚合减少头部和窗口开销。需要注意的是,NWTT 在某些高负载情况下带宽利用率最低,但这是因为它接收率低,不能直接理解为更优。
  1. 4执行时间 帧数小时,MCFS-2L 执行时间低于 R-NWTT;当帧数达到约 250 及以上,MCFS-2L 执行时间高于 R-NWTT。原因是动态拆分与重调度带来了额外计算。这个结果提醒我们:MCFS-2L 的优势伴随着计算成本。

不要过度解读的地方:

  • 实验集中在特定车载域集中架构和 100 Mbps 链路设置,不代表所有 TSN 拓扑都直接适用。
  • baseline 较少,且都是启发式调度方法;不能说明 MCFS-2L 一定优于所有优化模型、ILP/SMT 方法或工业调度器。
  • 论文主要展示 acceptance ratio、带宽利用率、执行时间,没有深入讨论 jitter、GCL 长度上限、在线流变化、故障恢复等工程问题。

我对这篇论文的看法

这篇论文的贡献比较清晰:它抓住了 TSN 车载网络中一个真实矛盾,即“帧聚合提高带宽效率,但可能损害低时延可调度性”。MCFS-2L 的设计有工程直觉:先聚合提高效率,遇到不可调度时再拆出非关键流保护关键流。这种策略比单纯聚合或单纯优先级调度更灵活。

它的适用边界也比较明显。它适合周期性流、流属性可预知、拓扑相对稳定的场景,比如离线或准离线的车载 TSN 调度。如果网络中有大量突发流、动态路由变化、复杂多交换机拓扑,算法需要更多扩展。

潜在弱点主要有三个。第一,动态拆分顺序和选择策略看起来还可以继续优化,论文没有充分讨论“先拆哪个非关键帧”对结果的影响。第二,复杂度分析不够形式化,执行时间只通过实验观察呈现。第三,实验 baseline 不算特别强,如果加入 ILP、SMT、遗传算法、禁忌搜索或工业 TSN 调度工具,结论会更有说服力。

后续可以跟进的方向包括:多交换机大拓扑下的扩展、在线流量变化下的增量调度、考虑 jitter 和 clock synchronization 误差、结合 802.1Qbv GCL 长度限制、为非关键流设计更细粒度的 QoS 分层,以及研究动态拆分策略的最优或近似最优规则。

读完后应该能回答的问题

  1. 1TSN 为什么需要 GCL 和时间窗口?
  2. 2在车载域集中架构中,为什么帧数量增长会让调度变困难?
  3. 3frame aggregation 能节省哪些资源?
  4. 4为什么帧聚合可能增加低时延调度风险?
  5. 5MCFS-2L 如何区分 critical flow 和 non-critical flow?
  6. 6聚合帧的周期和 deadline 是如何确定的?
  7. 7什么情况下 MCFS-2L 会拆分聚合帧?
  8. 8拆出的 non-critical frames 会被直接丢弃吗?
  9. 9deadline constraint、forwarding constraint、link constraint 分别防止什么问题?
  10. 10为什么 MCFS-2L 的执行时间在大规模帧数量下会上升?
  11. 11为什么不能只看 bandwidth utilization 判断方法优劣?
  12. 12这篇论文的实验结论适合推广到哪些场景,又不适合直接推广到哪些场景?

与 TSNBIT 教程的衔接

这篇论文适合放在 TSNBIT 教程的中后段学习,不建议作为 TSN 入门第一篇。

比较合适的前置章节包括:

  • TSN 基础与应用场景:先理解 TSN 为什么用于工业、汽车和实时通信。
  • IEEE 802.1Qbv 与 TAS/GCL:理解队列门控、时间窗口和确定性调度。
  • TSN 流模型与周期流调度:掌握 period、deadline、offset、route、hyperperiod 等概念。
  • 车载网络:CAN、以太网与域集中架构:理解为什么 CAN 小帧需要通过 DCU/网关进入 TSN。
  • TSN 调度约束建模:学习 deadline、链路互斥、转发顺序等基本约束。
  • 混合关键性系统入门:理解安全关键任务和非关键任务共享资源时的权衡。
  • TSN 启发式调度算法:在学过基本调度算法后,再读 MCFS-2L 会更容易看出它的设计取舍。

在教程中,这篇论文可以作为“TSN 车载网络中的混合关键性调度与帧聚合”专题案例,用来连接三个知识点:Qbv 时间感知调度、车载多域通信、混合关键性资源分配。