En une phrase
DeepSeek a publié "Dual Path", une nouvelle approche logicielle qui double le débit d'inférence et accélère l'arrivée du premier token de 56% en résolvant la sous-utilisation des GPU, sans nécessiter de nouveau matériel, en optimisant la circulation des données pour alimenter les calculs.
Points clés
- Problème d'efficacité des GPU : Les entreprises dépensent massivement en GPU H100 mais ces derniers sont sous-utilisés (20-30% de capacité) durant la phase de "décode" des LLM. Cette phase, qui représente 95% du temps d'une requête, exige peu de calcul mais énormément de bande passante mémoire, laissant les GPU inactifs en attente de données.
- Limitations de la désagrégation Prefill/Decode : Une solution antérieure, la désagrégation des serveurs pour le "prefill" et le "decode", génère des gains. Cependant, dans les flux de travail "agentiques" (où le contexte s'accumule sur des centaines d'itérations), la machine de "prefill" sature à chercher le KVH historique sur le stockage, tandis que les cartes réseau des machines de "decode" restent complètement inactives.
- Solution Dual Path : L'insight des chercheurs de DeepSeek est de permettre aux machines de "decode" d'aller chercher elles-mêmes l'historique du KVH directement depuis le stockage via leurs propres cartes réseau inactives. Simultanément, la machine de "prefill" n'envoie plus que le très petit cache incrémental des nouveaux tokens, mutualisant ainsi la bande passante réseau.
- Priorisation du trafic : Pour éviter que Dual Path ne crée des congestions, le trafic du modèle (communications inter-GPU) a toujours la priorité. Dual Path utilise uniquement la bande passante réseau restante lorsque le modèle est moins occupé, et le système surveille les machines en temps réel pour optimiser les flux de données entre les deux chemins.
- Bénéfices tangibles : En production, l'approche Dual Path permet d'augmenter l'utilisation des machines de 40% à 80%, de doubler le débit d'inférence et de réduire de 56% le temps d'arrivée du premier token, tout cela sans nécessiter l'achat d'un seul nouveau GPU.
- Contexte stratégique : Dual Path s'inscrit dans un mouvement d'optimisation plus large de l'infrastructure IA (mémoire, SSD, réseau, système de fichiers, cache) au-delà des seuls GPU. C'est également une réponse logicielle aux contraintes matérielles imposées aux laboratoires chinois concernant l'accès aux GPU avancés (type A1 et H100), maximisant la performance avec l'équipement existant.
Ressources
- DeepSeek — entreprise développant l'approche Dual Path et le système de fichiers 3FS
- Dual Path — nouvelle approche logicielle pour optimiser l'utilisation des GPU
- H100 — type de GPU ultra puissant de Nvidia
- A1 — type de GPU de Nvidia
- KVH — (Key-Value Cache) mémoire pour stocker l'état des tokens traités
- high cache — système organisant le KVH sur plusieurs niveaux (mémoire GPU, RAM, stockage persistant)
- Mooncake — système exploitant les ressources sous-utilisées d'un cluster pour construire un cache distribué efficace (récompensé Best Paper à Fast 2025)
- 3FS — système de fichiers distribués open source de DeepSeek, conçu pour les workloads d'entraînement et d'inférence IA
- Nvidia — entreprise mentionnée en lien avec les GPU