Note¶

另一个推理框架 sglang 的分享
Aibrix 火山的开源端到端推理框架，主要在集群
Elastic EP 支持容错的一个设计，更灵活的扩缩容：mooncake 和 mooncake-pytorch 后端
dgx spark 打广告
Nvidia 的一个根据需求计算 PD 分离配置的工具 aiconfigurator（github 百星）
在大规模分布式编译器／框架 triton-distributed

Main Takeaway¶

小规模的自己玩的系统确实不需要注意可观测，可观测是为了面向服务，更好上线 2.

sglang 社区 ¶

一些新的 feature ¶

Hierachical KV Caching
- backend support: mooncake, 3FS, NIXL
Piecewise CUDA Graph and Torch Compile
what is 推理 backend，常见的有哪些
通信源语有哪些 all reduce 是什么
overlap scheduling with spec decoding

milestone & roadmap
- wanna to support more features zhengjiaode
- turn these methods into a callable library so that everyone can use

Dynamo pd planner Slang model gateway Vllm semetic router

AIbrix¶

AIbrix 火山引擎性能与成本

优势

面向生产环境，经过大规模线上环境检验：生产中部署大模型比较复杂：限流容错弹性
开源、可扩展
推理全栈

分布式 / 分离式：

为什么需要分离式的部署

并行方式：TP DP EP

model 的 -》资源的异质性 -〉

dense - sparse 分离

KVCache 的架构
支持多种存储

大模型部署优化 K8s 控制面 + 数据面

搜广推按照流程而不是 model 拆分

分离方法：中心式；p2p

面向 pd 分离的请求路由
Pd 请求的编排

Kvcache 的卸载交给第三方的 management 远端 rdma 降低 ttft

不同的策略支持 plugin

成本问题 ¶

弹性伸缩：cpu 利用率 latency

传统指标是有局限性的

Qps 没有升高 latency / utils 都升高

特定伸缩的 metrics 2508.19559

Lora 微调的降本长尾模型的支持，70 模型承担 30% 的流量 vllm 的模型恭喜爱过你

如何使用 serverless 的方式中

aibrix¶

elastic EP¶

多模型 serving

更灵活的扩缩容

支持部分 rank 偶发故障的 ep 并行方案计算通信计算通信

card lost

qps=16

mooncake EP 故障感知的通讯库：动过点对点 GPU RDMA mooncake pytorch 后端具备容错的通信源语

部分 rank 失效的 EPLB 算法’

个人开发者在桌面的 AI 对于大模型开发的

大内存
AI 软件
支持 cuda

RDMA 双机可以实现 FP4 405B

Ai Configurator

Welcome to AIBrix — AIBrix

痛点 1: PD 是否更优痛点 2: PD 如何配置

并行的方式 ¶

Triton-distributed

vlm 优化 ¶

Vlm 数据缓存：多图重复场景，computer use agent；具身智能：T 时刻 1 张传感器 +n 张低分辨率

结合具体场景

多模态数据序列化

zmq

pytorch 底层安全角度

算子库选择很多

多模态模型 decode 次数很少所以 ll 上的配置可能需要重新设置

SGlang on hopper -96G¶

机内通信快机间通信慢算力的瓶颈

TP8 方式部署

SLO 要求

token 到达无序。Down gemm

EPLB：应该同时激活的 expert 放到两个机器上，开销会高很多，高概率激活的两个专家在一个卡上面激活 5%

专家 LB 有权重迁移毛刺会影响服务

Async rebalance 缓解这个问题

EP16 50% 走机内通信

flashMLA backend 艳吗机制导致 topk 必须是 1

算力不高的卡 batchsize 比较小

如何做优化

SBO & TPO

Share on Share on