De l'effondrement (temporaire) de la bourse au rachat historique de Warner Bros par Netflix : 2025 a été une année chargée pour l'actualité tech. Numerama revient sur les 15 événements qui ont définitivement redéfini notre futur numérique.
De l'effondrement (temporaire) de la bourse au rachat historique de Warner Bros par Netflix : 2025 a été une année chargée pour l'actualité tech. Numerama revient sur les 15 événements qui ont définitivement redéfini notre futur numérique.
Le français Mistral AI vient tout juste de dévoiler OCR3, son dernier modèle dédié à la reconnaissance optique de caractères. L’objectif : extraire avec une grande précision le texte, les tableaux et les images à partir de documents variés.
Vous avez des tonnes de vieux documents papier qui traînent dans des cartons, des factures scannées à l'arrache, des formulaires remplis à la main, des tableaux Excel imprimés puis re-scannés par quelqu'un qui n'a visiblement jamais entendu parler du concept de "bien faire son boulot" ?
Considérez que ce problème est réglé puisque Mistral AI vient de sortir OCR 3, un modèle de reconnaissance de documents qui promet de transformer tout ça en données exploitables, et pour pas cher en plus.
Le modèle est capable de déchiffrer du cursif dégueulasse, des annotations griffonnées dans les marges, voire du texte manuscrit par-dessus des formulaires imprimés. Mistral montre même une démo avec une lettre au Père Noël écrite par un gamin et l'OCR arrive à en extraire le contenu structuré. Bon, c'est cool pour les lettres au Père Noël, mais surtout ça veut dire qu'il peut gérer vos ordonnances médicales ou les notes de réunion de votre collègue qui écrit comme un cochon.
Niveau performances, Mistral annonce un taux de victoire de 74% sur leur précédent modèle OCR 2 et sur les solutions concurrentes. Et comme c'est testé sur des cas réels d'entreprises avec des mesures de précision en fuzzy-match, on n'est pas dans du benchmarks théoriques bidon. Le modèle gère les scans pourris avec compression JPEG, les documents de travers, les faibles résolutions, le bruit de fond... Bref, tout ce qui fait que l'OCR traditionnel vous sort de la bouillie.
Et ce qui est vraiment intéressant, c'est surtout la reconstruction structurelle car contrairement aux OCR classiques qui vous crachent un bloc de texte en vrac, Mistral OCR 3 reconstruit la structure du document. Les tableaux complexes avec cellules fusionnées et hiérarchies de colonnes ressortent en HTML propre avec les colspan et rowspan préservés. Vous obtenez du markdown enrichi en sortie, directement exploitable par vos systèmes sans avoir à nettoyer le bordel derrière.
Côté tarifs, c'est 2 dollars pour 1000 pages et si vous passez par l'API Batch, c'est moitié moins cher à 1 dollar les 1000 pages. Pour un modèle qui se dit plus petit que la plupart des solutions concurrentes tout en étant plus précis, c'est plutôt compétitif. Le modèle peut traiter jusqu'à 2000 pages par minute sur un seul nœud, donc même si vous avez des millions de documents à numériser, ça devrait pas prendre des plombes.
Pour l'utiliser, vous avez deux options. Soit vous passez par l'API (mistral-ocr-2512), soit vous allez sur le
Document AI Playground
dans Mistral AI Studio où vous pouvez glisser-déposer vos PDF et images pour tester. C'est pratique pour voir ce que ça donne avant de l'intégrer dans vos workflows.
Bref, on est en train tout doucement de passer d'OCR qui "lisent du texte" à des modèles qui comprennent la structure des documents. Et ça, ça veut dire que vos archives papier vous pouvoir enfin devenir des données JSON exploitables par vos agents IA, vos systèmes de recherche ou vos bases de connaissances.
Voilà, si vous avez des projets de numérisation d'archives ou d'automatisation de traitement de documents, ça vaut le coup d'aller tester leur playground.
L'application Locally AI, développée par un Français, permet désormais d'installer les modèles Ministral sur son iPhone pour interroger le LLM sans utiliser de serveurs. Un avant-goût du futur du smartphone, 100 % made in France.
Un extrait publié par RTL mentionne un potentiel départ de Mistral, géant français de l'IA, en Suisse. L'entreprise a annoncé il y a une semaine l'ouverture de bureaux, à priori situés à Lausanne et Zurich.