凌晨3点被PagerDuty叫醒,P0级故障。监控面板上一片红,吉隆坡节点跨境RPC调用超时率飙到15%。做泛互出海的都知道,晚高峰这种latency spike能直接把转化率干碎。
别听销售吹什么国际BGP,普通线路到大马必绕新加坡IXP。今天直接拆解如何用马来西亚电信直连低延迟服务器配合内核调优,把延迟硬生生砍掉20毫秒。
普通BGP晚高峰必绕路
很多人以为买了本地IP就万事大吉。跑个tracepath看看,AS_PATH里全是乱七八糟的国际 transit。晚高峰一拥塞,上游直接给你QoS限速,TCP重传率直接起飞。
- 死磕本地 AS17971 (TM电信) 的peer策略,强制流量走本地直连。
- 避开新加坡和美国的拥堵交换中心,把路由跳数压到5跳以内。
- 抓包看底层,别光看Ping值,要看TCP握手和重传的微观时间差。
mtr -n -c 100 -i 0.1 target_ip | grep -v "AS"直连拓扑与内核调优对比
光有直连线路还不够,Linux默认的网络栈参数根本扛不住高并发短连接。必须上 TCP BBR 拥塞控制算法,把管道彻底撑开。
| 测试维度 | 普通国际BGP | TM直连+BBR调优 |
|---|---|---|
| 晚高峰Ping毛刺 | 120ms+ (频繁丢包) | 45ms (极度平滑) |
| TCP重传率 | 8.5% (接口超时) | 0.1% (丝滑响应) |
| AS_PATH干净度 | 绕路3-4个国际AS | 纯本地AS17971直出 |
| TIME_WAIT堆积 | 严重 (端口耗尽) | 可控 (内核参数接管) |
这三种场景千万别买
不是所有业务都适合死磕本地直连。选错拓扑,钱花了效果还差。
- 纯欧美市场业务别买,大马去欧美的海底光缆本来就不占优,白花钱。
- 大文件下载场景别迷信低延迟,带宽吞吐量才是王道,直连线路通常带宽较小。
- 无内核权限的容器环境别碰,改不了BBR和内核参数,发挥不出直连线路的极限性能。
关于作者:常年On-call的SRE,只信抓包数据和内核源码。
泛互业务等不起晚高峰的RPC超时。立刻拿测试IP跑一遍mtr,看清AS_PATH再决定上不上生产。