我在尝试使用 eBPF 的 BPF_PROG_TYPE_SK_SKB 与 BPF_MAP_TYPE_SOCKHASH 实现 socket 的铰接转发,目标是基于 bpf_sk_redirect_hash 将一个 socket 的 ingress 队列数据转发到另一个 socket 的 egress 队列,但是在实际的吞吐量测试时出现了系统 OOM 。
具体的环境如下:
- Linux Kernel 6.8
- 2 个 socket 所处网络接口不同,且 2 个网络接口带宽不一致,转发源 socket 所处接口 (测试用的 loopback) 带宽高于目标 socket 所处带宽
- 吞吐测试是在 loopback 上使用 netperf 建立源 socket 连接,目标是转发到另一个网络接口的 socket egress 发送队列进行发送
- 具体代码可以见 https://github.com/SunBK201/UA3F/blob/v3.3.0/src/internal/bpf/sockmap/sockmap.c
我的疑问:
- 是否是因为由于网络接口带宽不一致(源网络接口产生的流量远大于目标网络接口所能承载发送的网络带宽),再加上
bpf_sk_redirect_hash 没有背压(流量控制),导致数据堆积造成 OOM ?
- 如果是因为背压缺失的原因,该如果解决?实现流控 or 这种场景用 eBPF 做不合适?
希望各位前辈大佬指教!