DeepSeek 的“開源周”活動今日已經來到第二天,今天發布的是首個開源的用于 MoE 模型訓練和推理的 EP 通信庫 ——DeepEP。
官方表示其具備如下特征:
高效優化的全到全通信方式
支持節點內外通信,兼容 NVLink 和 RDMA 技術
提供高吞吐量的內核,提升訓練和推理前期填充效率
提供低延遲內核,優化推理解碼速度
完全支持 FP8 數據格式調度
提供靈活的 GPU 資源管理,支持計算與通信的重疊執行
據介紹,DeepEP 是一款專為混合專家(MoE)和專家并行(EP)設計的通信庫,提供了高吞吐量和低延遲的 all-to-all GPU 內核,常用于 MoE 派發和合并操作。該庫還支持低精度計算,包括 FP8。
為了與 DeepSeek-V3 論文中提出的組限制門控算法兼容,DeepEP 提供了一些針對不對稱帶寬轉發優化的內核,比如將數據從 NVLink 域轉發到 RDMA 域。這些優化的內核能夠提供高吞吐量,適合用于訓練和推理的預填充任務,同時支持 SM(流式多處理器)數量控制。
對于延遲敏感型的推理解碼任務,DeepEP 提供了一套低延遲內核,采用純 RDMA 技術以最大程度減少延遲。此外,該庫還采用了一種基于 Hook 的通信與計算重疊方法,不會占用任何 SM 資源。