DeepSeek lance V4, optimisé pour les puces chinoises Huawei Ascend
DeepSeek a publié la preview de V4, sa nouvelle famille de modèles ajustée pour tourner sur les puces Ascend de Huawei. C'est un peu la première vraie démonstration que l'écosystème chinois peut faire fonctionner un grand modèle d'IA compétitif sans dépendre de Nvidia.
Pour rappel, DeepSeek avait déjà fait du bruit avec V3 fin 2024, en publiant un modèle compétitif à une fraction du coût d'entraînement des concurrents américains.
La gamme se décline en deux versions, V4-Pro et V4-Flash, avec une fenêtre de contexte qui passe de 128 000 tokens à un million. Sur du contexte d'un million de tokens, V4-Pro consomme seulement 27% de la puissance de calcul de la précédente V3.2 et 10% de la mémoire.
V4-Flash descend à 10% de calcul et 7% de mémoire. Le bond est énorme. Tout cela sur des Ascend A2, A3 et la nouvelle 950 de Huawei, qui couvrent une bonne partie de la gamme serveur du fabricant.
L'angle politique est évident. Depuis 2022, les États-Unis ont multiplié les sanctions sur les exports de puces Nvidia haut de gamme vers la Chine, en partant du principe que ça ralentirait la course à l'IA. Le pari semble en train d'échouer : avec une coordination étroite entre l'équipe DeepSeek et les ingénieurs Huawei, le modèle est conçu pour coller aux particularités matérielles d'Ascend dès le design, pas après coup.
Sur un point de vue purement économique, DeepSeek garde sa stratégie de prix planchers et ouvre la plupart de ses poids en open source, ce qui place V4 directement à portée des labos universitaires et des startups chinoises.
En pratique, ça veut dire que pour entraîner ou affiner un modèle de bon niveau en Chine, il y a maintenant une chaîne complète maison, du silicium au modèle, sans passer par H100, H200 ou Blackwell. Et la facture totale est bien plus basse.
Toutes les difficultés ne sont pas réglées pour autant. La preview est ouverte mais l'écosystème logiciel autour d'Ascend, et particulièrement les frameworks d'entraînement et les outils de profiling, n'est pas encore au niveau de CUDA. Pour un développeur habitué à PyTorch sur Nvidia, le portage demande encore du travail. Et la disponibilité des Ascend 950, encore en montée en cadence dans les usines chinoises, n'est pas garantie pour tout le monde.
Avec tout ça, DeepSeek montre qu'on peut faire un modèle long contexte performant sur du silicium chinois. Le découplage technologique avance plus vite que beaucoup d'analystes ne le prédisaient.
