Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Comment Boston Dynamics compte construire un cerveau pour Atlas

Boston Dynamics que vous connaissez tous pour ses chiens robots tueurs de la mort, vient de sortir une vidéo de 40 minutes. Pas de saltos arrière ou de robots qui dansent mais plutôt une loooongue session où ça parle stratégie IA et vision à long terme. Et comme j'ai trouvé que c'était intéressant, je partage ça avec vous !

Zach Jacowski, le responsable d'Atlas (15 ans de boîte, il dirigeait Spot avant), discute donc avec Alberto Rodriguez, un ancien prof du MIT qui a lâché sa chaire pour rejoindre l'aventure et ce qu'ils racontent, c'est ni plus ni moins comment ils comptent construire un "cerveau robot" capable d'apprendre à faire n'importe quelle tâche. Je m'imagine déjà avec un robot korben , clone de ma modeste personne capable de faire tout le boulot domestique à ma place aussi bien que moi... Ce serait fou.

Leur objectif à Boston Dynamics, c'est donc de créer le premier robot humanoïde commercialement viable au monde et pour ça, ils ont choisi de commencer par l'industrie, notamment les usines du groupe Hyundai (qui possède Boston Dynamics).

Alors pourquoi ? Hé bien parce que même dans les usines les plus modernes et automatisées, y'a encore des dizaines de milliers de tâches qui sont faites à la main. C'est fou hein ? Automatiser ça c'est un cauchemar, car pour automatiser UNE seule tâche (genre visser une roue sur une voiture), il faudrait environ un an de développement et plus d'un million de dollars.

Ça demande des ingénieurs qui conçoivent une machine spécialisée, un embout sur mesure, un système d'alimentation des vis... Bref, multiplié par les dizaines de milliers de tâches différentes dans une usine, on serait encore en train de bosser sur cette automatisation dans 100 ans...

L'idée de Boston Dynamics, c'est donc de construire un robot polyvalent avec un cerveau généraliste. Comme ça au lieu de programmer chaque tâche à la main, on apprend au robot comment faire. Et tout comme le font les grands modèles de langage type ChatGPT, ils utilisent une approche en deux phases : le pre-training (où le robot accumule du "bon sens" physique) et le post-training (où on l'affine pour une tâche spécifique en une journée au lieu d'un an).

Mais le gros défi, c'est clairement les données. ChatGPT a été entraîné sur à peu près toute la connaissance humaine disponible sur Internet mais pour un robot qui doit apprendre à manipuler des objets physiques, y'a pas d'équivalent qui traîne quelque part.

Du coup, ils utilisent trois sources de data.

La première, c'est la téléopération. Des opérateurs portent un casque VR, voient à travers les yeux du robot et le contrôlent avec leur corps. Après quelques semaines d'entraînement, ils deviennent alors capables de faire faire à peu près n'importe quoi au robot. C'est la donnée la plus précieuse, car il n'y a aucun écart entre ce qui est démontré et ce que le robot peut reproduire. Par contre, ça ne se scale pas des masses.

La deuxième source, c'est l'apprentissage par renforcement en simulation. On laisse le robot explorer par lui-même, essayer, échouer, optimiser ses comportements. L'avantage c'est qu'on peut le faire tourner sur des milliers de GPU en parallèle et générer des données à une échelle impossible en conditions réelles. Et contrairement à la téléopération, le robot peut apprendre des mouvements ultra-rapides et précis qu'un humain aurait du mal à démontrer, du genre faire une roue ou insérer une pièce avec une précision millimétrique.

La troisième source, c'est le pari le plus ambitieux, je trouve. Il s'agit d'apprendre directement en observant des humains.

Alors est-ce qu'on peut entraîner un robot à réparer un vélo en lui montrant des vidéos YouTube de gens qui réparent des vélos ? Pas encore... pour l'instant c'est plus de la recherche que de la production, mais l'idée c'est d'équiper des humains de capteurs (caméras sur la tête, gants tactiles) et de leur faire faire leur boulot normalement pendant que le système apprend.

Et ils ne cherchent pas à tout faire avec un seul réseau neuronal de bout en bout. Ils gardent une séparation entre le "système 1" (les réflexes rapides, l'équilibre, la coordination motrice, un peu comme notre cervelet) et le "système 2" (la réflexion, la compréhension de la scène, la prise de décision). Le modèle de comportement génère des commandes pour les mains, les pieds et le torse, et un contrôleur bas niveau s'occupe de réaliser tout ça physiquement sur le robot.

C'est bien pensé je trouve. Et dans tout ce bordel ambiant autour de la robotique actuelle, eux semblent avoir trouver leur voie. Ils veulent transformer l'industrie, les usines...etc. Leur plan est clair et ils savent exactement ce qu'ils doivent réussir avant de passer à la suite (livraison à domicile, robots domestiques...).

Voilà, je pense que ça peut vous intéresser, même si c'est full english...

Mistral OCR 3 - L'OCR français qui lit même l'écriture de votre médecin

Vous avez des tonnes de vieux documents papier qui traînent dans des cartons, des factures scannées à l'arrache, des formulaires remplis à la main, des tableaux Excel imprimés puis re-scannés par quelqu'un qui n'a visiblement jamais entendu parler du concept de "bien faire son boulot" ?

Considérez que ce problème est réglé puisque Mistral AI vient de sortir OCR 3, un modèle de reconnaissance de documents qui promet de transformer tout ça en données exploitables, et pour pas cher en plus.

Le modèle est capable de déchiffrer du cursif dégueulasse, des annotations griffonnées dans les marges, voire du texte manuscrit par-dessus des formulaires imprimés. Mistral montre même une démo avec une lettre au Père Noël écrite par un gamin et l'OCR arrive à en extraire le contenu structuré. Bon, c'est cool pour les lettres au Père Noël, mais surtout ça veut dire qu'il peut gérer vos ordonnances médicales ou les notes de réunion de votre collègue qui écrit comme un cochon.

Niveau performances, Mistral annonce un taux de victoire de 74% sur leur précédent modèle OCR 2 et sur les solutions concurrentes. Et comme c'est testé sur des cas réels d'entreprises avec des mesures de précision en fuzzy-match, on n'est pas dans du benchmarks théoriques bidon. Le modèle gère les scans pourris avec compression JPEG, les documents de travers, les faibles résolutions, le bruit de fond... Bref, tout ce qui fait que l'OCR traditionnel vous sort de la bouillie.

Et ce qui est vraiment intéressant, c'est surtout la reconstruction structurelle car contrairement aux OCR classiques qui vous crachent un bloc de texte en vrac, Mistral OCR 3 reconstruit la structure du document. Les tableaux complexes avec cellules fusionnées et hiérarchies de colonnes ressortent en HTML propre avec les colspan et rowspan préservés. Vous obtenez du markdown enrichi en sortie, directement exploitable par vos systèmes sans avoir à nettoyer le bordel derrière.

Côté tarifs, c'est 2 dollars pour 1000 pages et si vous passez par l'API Batch, c'est moitié moins cher à 1 dollar les 1000 pages. Pour un modèle qui se dit plus petit que la plupart des solutions concurrentes tout en étant plus précis, c'est plutôt compétitif. Le modèle peut traiter jusqu'à 2000 pages par minute sur un seul nœud, donc même si vous avez des millions de documents à numériser, ça devrait pas prendre des plombes.

Pour l'utiliser, vous avez deux options. Soit vous passez par l'API (mistral-ocr-2512), soit vous allez sur le Document AI Playground dans Mistral AI Studio où vous pouvez glisser-déposer vos PDF et images pour tester. C'est pratique pour voir ce que ça donne avant de l'intégrer dans vos workflows.

Bref, on est en train tout doucement de passer d'OCR qui "lisent du texte" à des modèles qui comprennent la structure des documents. Et ça, ça veut dire que vos archives papier vous pouvoir enfin devenir des données JSON exploitables par vos agents IA, vos systèmes de recherche ou vos bases de connaissances.

Voilà, si vous avez des projets de numérisation d'archives ou d'automatisation de traitement de documents, ça vaut le coup d'aller tester leur playground.

Source

Windows 365 AI-enabled Cloud PC vs. Copilot+ PC

Microsoft has introduced Windows 365 AI-enabled Cloud PCs, a new cloud-based computing solution that delivers AI-powered Windows experiences to any device. This offering differs significantly from Copilot+ PCs, which are physical computers with specialized AI hardware. This article compares the technical specifications, requirements, and capabilities of both platforms.

Source

Comment OpenAI et Pornhub se retrouvent empêtrés dans la même cyberattaque

Depuis le 15 décembre 2025, Pornhub est victime du chantage du groupe de hackers ShinyHunters. Leur butin ? Les historiques de recherche et de visionnage des membres Premium du site pour adultes. La faille ne proviendrait pas des systèmes informatiques de Pornhub, mais de ceux d’un prestataire, déjà responsable d’une attaque similaire ayant visé OpenAI il y a quelques semaines.

Comment OpenAI et Pornhub se retrouvent empêtrés dans la même cyberattaque

Depuis le 15 décembre 2025, Pornhub est victime du chantage du groupe de hackers ShinyHunters. Leur butin ? Les historiques de recherche et de visionnage des membres Premium du site pour adultes. La faille ne proviendrait pas des systèmes informatiques de Pornhub, mais de ceux d’un prestataire, déjà responsable d’une attaque similaire ayant visé OpenAI il y a quelques semaines.

Une voiture électrique polyvalente à moins de 200 € par mois ? Découvrez comment Hyundai KONA revitalise la mobilité [Sponso]

Hyundai

Lever les derniers doutes des automobilistes concernant la mobilité électrique : c’est le crédo de Hyundai, qui tient avec KONA son atout majeur pour convaincre.

Hyundai

Il s’agit d’un contenu créé par des rédacteurs indépendants au sein de l’entité Humanoid xp. L’équipe éditoriale de Numerama n’a pas participé à sa création. Nous nous engageons auprès de nos lecteurs pour que ces contenus soient intéressants, qualitatifs et correspondent à leurs intérêts.

En savoir plus

VS Code 1.107 brings chat-integrated background agents and Agent HQ for multi-agent orchestration

Microsoft released Visual Studio Code version 1.107 with new features focused on Agent HQ, a multi-agent orchestration interface introduced in version 1.106. In version 1.107, background agents are promoted beyond pure CLI-based sessions: they run as named background tasks with isolated worktrees and richer context attachment, and appear as manageable sessions in the Agent HQ experience (the integrated Chat + sessions UI), rather than existing only as Copilot CLI or cloud sessions.

Source

Canary build 28020.1362 explores Windows 11 26H1 new features: AI-Agent in Settings, Quick Machine Recovery changes, and more

Some human bloggers hallucinated that the Canary build 28020.1362 was Windows 11 26H1. Although this build shows the version string, there is no guarantee that Windows 11 26H1 will include the features seen in the Canary build. This build introduces several new features, including an AI-powered Settings agent for Copilot+ PCs, a redesigned Advanced settings page that replaces the For Developers page, and enhanced Quick Machine Recovery performance. The release also expands File Explorer dark mode to more dialogs and system surfaces, and includes additional new features and refinements across device management, input, recovery, and core system experiences.

Source

« Cible suivante » : Starbucks, OpenAI, Binance… Cette menace cyber de niveau maximal poursuit son inexorable expansion

Depuis le 3 novembre 2025 et la découverte d’une vulnérabilité React, une course effrénée s’est engagée dans l’écosystème cyber. D’un côté, les équipes de sécurité tentent de sécuriser leurs systèmes au plus vite ; de l’autre, les attaquants scannent l'Internet à grande échelle pour exploiter les retardataires. Les chercheurs suivent en temps réel l’évolution des campagnes d’attaque qui se greffent sur cette faille critique.

❌