Nouvelle architecture, tests thermiques extrêmes et manœuvres inédites : le Starship de SpaceX fait sa mue ce mercredi 20 mai pour son 12e vol d'essai. Ne manquez pas le décollage de la fusée géante, à suivre en direct.
Alors que SpaceX s'apprête à lancer le douzième vol du Starship ce mercredi 20 mai, la fusée géante n'avait jamais autant tardé à revoler. Derrière ce coup de frein inédit de 219 jours se cache l'arrivée d'une nouvelle génération de vaisseaux indispensables pour la Lune.
Si vous avez un Mac avec une puce Silicon et que vous en avez marre de raquer pour des tokens à chaque requête API à un LLM à la con, y'a un projet qui mérite, je trouve, le détour. Ça s'appelle
vLLM-MLX
, et c'est un serveur d'inférence local qui transforme votre Mac en machine à générer du texte, à analyser des images et vidéos, et même capable de gérer de l'audio... et tout ça sans que l'inférence ne passe par le cloud des zaméricains.
Pour installer le bouzin, ça se fait avec :
uvtoolinstallvllm-mlx
Puis vous lancez suivi du nom d'un modèle et hop, vous obtenez un endpoint API compatible OpenAI qui tourne en local sur votre machine :
vllm-mlx serve %MODEL%
Au début je pensais que j'étais parti pour une séance de configuration qui aller durer des heures mais en fait non. Par exemple moi j'ai lancé ça :
vllm-mlx serve mlx-community/GLM-4.7-Flash-4bit
Vous pouvez aussi opter pour un modèle plus petit :
Du coup, si vos scripts causent déjà avec l'API d'OpenAI, basculer sur ça en local rien qu'en changeant l'URL de base, c'est un jeu d'enfant !
Côté perfs, et là je reprends les benchmarks officiels du repo (M4 Max 128 Go, mono-requête), on tourne autour de 418 tok/s sur un petit Qwen3-0.6B en 8-bit. Ensuite, ça tombe à environ 206 tok/s sur du Llama-3.2-3B et 128 tok/s sur un gros Qwen3-30B-A3B.
Le débit grimpe aussi quand plusieurs requêtes tapent en même temps à la porte... Donc sur les petits modèles ça file vite, mais par contre, sur les gros, faudra pas s'attendre à la même vitesse, hein... Et un Qwen3-30B vous bouffera dans les 18 Go de RAM unifiée, donc sur un Mac à 8 ou 16 Go vous pouvez oublier les gros modèles (Mais qui n'a pas encore un Mac Studio 128 Go ?? hein ? Quiiii ?).
Et c'est pas juste un serveur de texte comme je vous le disais, puisque le projet gère les modèles de vision type Gemma 3, Qwen3-VL, Pixtral, pour analyser images et les vidéos, et côté audio y'a du TTS natif (avec Kokoro, Chatterbox et compagnie) + de la transcription Whisper qui monte jusqu'à 197x le temps réel avec whisper-tiny, ou 55x avec le modèle turbo.
Attention par contre, il vous faudra la version avec l'extra audio (espeak-ng et un modèle spaCy), car c'est pas inclus dans la commande de base. Mais une fois en place, y a de quoi se monter un vrai assistant vocal 100% local et causer
synthèse vocale
sans louer un GPU chez Azure ou AWS.
Même le endpoint /v1/messages est compatible Anthropic, ce qui permet de brancher Claude Code ou OpenCode directement sur votre serveur
comme je vous l'expliquais ici
. Suffit d'utiliser ces variables d'environnement et votre éditeur IA ira taper sur votre propre machine plutôt que sur des serveurs distants.
claude --model mlx-community/Qwen2.5-Coder-3B-Instruct-4bit
Avouez que c'est trop cool hein ? Vous pouvez trouver tous les modèles pour MLX
ici sur HugginFace
si vous cherchez un truc plus spécifique.
Y'a aussi un endpoint d'embeddings pour faire du RAG en local, de l'appel d'outils externe via MCP avec une douzaine de parsers et le support des modèles de raisonnement qui extraient proprement le processus de réflexion entre les balises <think> pour Qwen3 et DeepSeek-R1.
J'adore !
Côté bidouille si vous vous lancer, sachez qu'il y a 2 ou 3 flags vachement utiles à connaitre.
Par exemple, le --warm-prompts (couplé au continuous batching) précharge les préfixes populaires au démarrage et, dans le bon scénario, vous gagne entre 1,3 et 2,25x sur le temps de première réponse.
Sur les gros modèles MoE genre Qwen3-30B-A3B, le --moe-top-k réduit aussi le nombre d'experts activés pour gratter 7 à 16% de débit. Le hic, c'est que vous y perdez un poil de qualité.
Et pour les agents qui brassent des contextes énormes, le --ssd-cache-dir déverse le cache de préfixes sur SSD pour soulager la RAM, au prix d'un peu de latence quand ça tape sur le disque.
Bref, si vous cherchez une alternative à
Ollama
qui tape direct dans le GPU de votre Mac avec du batching et du multimodal, le tout avec une compatibilité API aux petits oignons, foncez les amis ! C'est open source (Apache 2.0), ça dépote et ça s'installe en deux commandes !
Et si vous êtes sur PC plutôt que sur Mac, j'ai écrit la suite sur
Lemonade SDK
, l'équivalent côté AMD qui tape dans le NPU Ryzen AI.
Un astéroïde va passer à seulement 91 000 kilomètres de la Terre ce soir. Un événement qui ne présente aucun danger, et que vous pourrez même suivre en direct.
Les garde-côtes japonais ont publié une carte, disponible gratuitement sur Minecraft, et basée sur des données topographiques sous-marines officielles des côtes japonaises.
Des baleines à bosse ont été observées au large de l'Australie en train de nager avec la gueule grande ouverte. Un comportement étrange, rarement constaté, et pour lequel les spécialistes n'ont pas encore d'explication claire.
Que se serait-il passé si vous aviez assisté à l’impact de l’astéroïde qui a provoqué l’extinction des dinosaures ? En s’appuyant sur des décennies de recherches, deux scientifiques reconstituent minute par minute les heures qui ont suivi la collision ayant bouleversé la Terre il y a 66 millions d’années.
Si le Starship enchaîne les vols d'essai prometteurs, la fusée géante est loin d'être prête pour des lancements quotidiens. Elon Musk l'avoue lui-même : la conception d'un bouclier thermique réutilisable reste un immense saut dans l'inconnu pour SpaceX.
Le 19 mai 2026, SpaceX lance une toute nouvelle génération de son duo Starship et Super Heavy. Entre rentrée atmosphérique sous haute tension, largage de charge utile et amerrissages en pleine mer : voilà le programme de ce douzième vol de test.
En démentant le report de la mission Artémis III à fin 2027, le patron de la NASA a tenté un rétropédalage. Pour justifier la confusion, Jared Isaacman a pointé du doigt la mauvaise interprétation d'un journaliste… avant que l'enregistrement de ses propres déclarations ne refasse surface pour le contredire.
Le 12 mai 2026, Samsung et un syndicat sud-coréen ont échoué à trouver un accord sur le partage des profits liés à l’essor de l’IA. Plus de 50 000 salariés menacent de lancer une grève susceptible de perturber la production mondiale de mémoire et de composants critiques pour l’IA.
Le hantavirus qui a déclenché d'importantes mesures sanitaires à travers le monde est désormais étudié de près par les scientifiques. Ils tentent de savoir si le virus serait capable de muter, et les résultats ne sont pas encore très clairs.
Alors que les cas positifs d'hantavirus augmentent à travers le monde, la question des traitements pour faire face à cette maladie se pose. Sauf que la recherche médicale piétine sur un virus qui n'a que peu d'occurrences chez les humains et qui demeure encore mal connu.
Le 19 mai 2026, SpaceX lancera le douzième vol d’essai du Starship. L'entreprise va tester une manœuvre inédite : le scan de son bouclier thermique par des satellites-inspecteurs.
Alors que les cas positifs d'hantavirus augmentent à travers le monde, la question des traitements pour faire face à cette maladie se pose. Sauf que la recherche médicale piétine sur un virus qui n'a que peu d'occurrences chez les humains et qui demeure encore mal connu.
Le 12 mai 2026, Samsung et un syndicat sud-coréen ont échoué à trouver un accord sur le partage des profits liés à l’essor de l’IA. Plus de 50 000 salariés menacent de lancer une grève susceptible de perturber la production mondiale de mémoire et de composants critiques pour l’IA.
Le 19 mai, SpaceX lancera le douzième vol d'essai de sa fusée géante Starship. Pour ce vol inaugural de la « Version 3 », marqué par une refonte technologique et de nouveaux moteurs Raptor, l'entreprise privilégiera la prudence avec un amerrissage en mer du booster plutôt qu'une capture spectaculaire par la tour.
Le gang ransomware Nitrogen a balancé Foxconn sur son site de fuite avec 8 To de données et 11 millions de fichiers volés, selon The Register.
Schémas hardware, instructions d'assemblage, topologies de datacenters côté client. Et comme Foxconn assemble une bonne partie de ce que vous avez dans votre poche ou sur votre bureau (iPhones pour Apple, GPU pour Nvidia, serveurs pour Google, machines pour Intel et Dell), la liste des marques potentiellement exposées fait peur.
L'usine de Mount Pleasant dans le Wisconsin a été paralysée plusieurs jours. Foxconn a fini par confirmer l'incident après plusieurs semaines de silence, en assurant que la production avait été rétablie et que l'enquête se poursuivait avec les autorités.
Nitrogen, lui, est un gang ransomware connu depuis 2024. Un ransomware, pour les non-initiés, c'est un logiciel qui chiffre les fichiers d'une boîte puis demande une rançon pour les déchiffrer. Le mode opératoire classique de Nitrogen : voler les données avant de chiffrer, et menacer de tout publier si la victime refuse de payer.
Le détail croustillant qui devrait calmer toute envie de cracher au pot : Coveware, la société américaine spécialisée dans la négociation de ces affaires, a démontré dès février que le décrypteur de Nitrogen est buggé.
Pour dire ça plus simplement, vous payez la rançon, vous récupérez un outil censé déchiffrer vos fichiers, et il ne fonctionne pas correctement. Une bonne partie des données reste illisible après paiement. C'est documenté. Ce n'est pas la première fois qu'un gang livre un outil pourri, mais c'est rarement aussi évident.
Côté contenu dérobé, on parle de plans d'assemblage de cartes-mères et de schémas électroniques détaillés, mais surtout de topologies de datacenters. La topologie d'un datacenter, c'est en gros la carte qui montre comment toutes les machines, les baies et le réseau sont agencés.
C'est exactement le genre d'info qu'un attaquant cherche pour préparer une intrusion future. Apple et Nvidia n'ont pas commenté, ce qui ne veut pas dire grand-chose à ce stade, mais ça veut dire qu'il y a probablement quelques juristes qui n'ont pas beaucoup dormi cette semaine.
La propagation du hantavirus hors de son foyer sur le navire MV Hondius semble motiver la création d'outils de détection pas forcément rigoureux scientifiquement. Il est nécessaire de faire preuve de prudence et de ne pas croire à n'importe quelle solution miracle.