Vous avez déjà passé des heures à éplucher des fichiers de logs de plusieurs millions de lignes pour trouver ce qui cloche ? Genre une pauvre erreur bizarre qui se produit une fois sur 100 000, noyée dans un océan de messages répétitifs et d'infos inutiles ? Moi, oui plein de fois !
Cordon est un outil en Python qui utilise des modèles de transformers et du scoring k-NN pour détecter les anomalies sémantiques dans vos logs. En gros, au lieu de chercher des mots-clés comme un bourrin avec grep, Cordon comprend le sens des messages et repère ce qui sort de l'ordinaire.
Les patterns répétitifs sont alors considérés comme du bruit de fond normal, même si ce sont des erreurs parce que si vous avez la même erreur FATALE qui se répète 10 000 fois, c'est probablement un problème connu. Et vous, ce que vous voulez trouver, c'est l'événement rare, celui qui se produit une seule fois et qui est sémantiquement différent du reste.
L'installation est simple comme bonjour. Un petit pip install cordon et c'est réglé. Pour l'utilisation de base, vous balancez juste votre fichier de logs en argument :
cordon system.log
Et hop, Cordon va analyser tout ça et vous sortir uniquement les trucs intéressants. Par défaut, il garde les 10% les plus "anormaux" sémantiquement. Vous pouvez ajuster ce pourcentage avec --anomaly-percentile 0.05 pour être plus sélectif (top 5%).
Sous le capot, ça utilise le modèle all-MiniLM-L6-v2 de sentence-transformers pour vectoriser les logs. Le fichier est découpé en fenêtres de N lignes (4 par défaut), chaque fenêtre est transformée en vecteur, puis un score de densité k-NN est calculé. Les fenêtres qui ont des vecteurs très différents du reste sont marquées comme anomalies.
Et si vous avez un GPU, Cordon peut l'utiliser automatiquement avec l'option --device cuda. D'après les benchmarks, ça donne un speedup de 5 à 15x sur le scoring pour les gros datasets. Sur des logs HDFS de 1 à 5 millions de lignes, l'outil arrive à réduire le volume de 98%. Autant dire que ça filtre sévère.
Y'a aussi un mode "range" qui est pratique pour explorer par tranches. Genre si vous voulez exclure le top 5% (trop bizarre, probablement du garbage) mais garder le top 5-15%, vous faites :
cordon --anomaly-range 0.05 0.15 app.log
Ça permet d'affiner l'investigation de manière itérative.
Pour les environnements conteneurisés, Cordon propose également une image Docker avec un backend llama.cpp au lieu de sentence-transformers. Pratique si vous voulez utiliser des modèles GGUF ou si vous êtes dans un contexte où les dépendances PyTorch posent problème.
L'outil peut aussi s'utiliser
comme bibliothèque Python
si vous voulez l'intégrer dans vos propres scripts :
C'est top moumoute pour le prétraitement de logs avant de les balancer à un LLM (pour réduire le contexte), le triage initial de fichiers de logs inconnus, ou la découverte de patterns inattendus. Par contre, si vous cherchez une erreur spécifique que vous connaissez déjà, grep reste votre ami. Et si vous avez besoin d'un historique complet pour la conformité, oubliez Cordon qui est volontairement "lossy".
Notez qu'au premier lancement, Cordon téléchargera le modèle d'embedding (environ 80 Mo) donc ce sera un peu lent, mais ensuite, ça sera quasi instantané car les lancements suivants utiliseront le cache. Et si vos logs sont très verbeux avec de longues lignes, le modèle par défaut (256 tokens max) risque de tronquer les lignes, dans ce cas, passez à un modèle plus costaud comme BAAI/bge-base-en-v1.5 qui supporte 512 tokens avec le paramètre --model-name.
Voilà, j'espère que ça vous sera utile ! C'est open source sous licence Apache 2.0 et
ça se trouve sur GitHub
.
[Deal du jour] Quoi de mieux que de jouer sur une borne d’arcade ? Avoir sa propre borne d’arcade chez soi. C'est maintenant possible et accessible avec ce modèle en promotion.
Le 12 décembre 2025, la société américaine Palantir a annoncé le renouvellement pour trois ans de son contrat avec la DGSI, le service de renseignement intérieur français. Cette collaboration a débuté au lendemain des attaques terroristes du 13 novembre 2015, dans un contexte de forte pression sécuritaire sur les services de renseignement français.
Grâce à un partenariat signé le 11 décembre 2025, OpenAI s’est assuré une année d’exclusivité sur plus de 200 personnages Disney, Pixar, Marvel et Star Wars pour Sora. Un avantage décisif qui prive, temporairement, les autres acteurs de l’IA de toute exploitation légale des œuvres du géant du divertissement.
Une association japonaise d'e-sport pour les seniors a récemment organisé un tournoi de Tekken 8. La compétition a été remportée par une joueuse de 92 ans, qui a dominé ses adversaires avec une ferveur impressionnante.
Todd Howard, grand manitou des jeux vidéo Fallout, a conseillé un épisode à celles et ceux qui aimeraient découvrir la saga vidéoludique, après avoir adoré la série de Prime Video.
Avec iOS 26.3, actuellement en bêta, Apple prépare plusieurs fonctions d'interopérabilité avec Android. Parmi elles : un service de transfert de données pour migrer d'un iPhone vers un Samsung ou un Pixel.
La plupart des séries cultes sont généralement disponibles en streaming légal, en France. Mais parfois, certaines malchanceuses se retrouvent perdues dans les limbes, malgré leurs qualités indéniables. Heureusement, une production horrifique culte vient enfin de retrouver la lumière, sur Prime Video.
Rocket Lab a dû annuler le décollage de sa fusée Electron ce 16 décembre 2025, une fraction de seconde seulement après l'allumage des moteurs. Un arrêt spectaculaire, qui démontre la capacité du lanceur à se diagnostiquer in extremis pour éviter le pire.
Renault officialise les prix de la nouvelle Twingo. La citadine néorétro peut s'afficher à moins de 15 000 € primes déduites en version entrée de gamme. Le haut de gamme est à un peu plus de 16 000 €.
Team Cherry a confirmé l'arrivée d'un premier DLC pour Hollow Knight: Silksong, avec un très court teaser. Il sera disponible gratuitement en 2026 et emmènera l'héroïne dans des environnements marins.
IKEA présente une nouvelle gamme de chargeurs Qi2 15 W à prix cassés. Une nouvelle étape pour le groupe suédois, qui continue d’étendre discrètement son empreinte dans la tech du quotidien.
Huit ans après Orange et six ans après SFR, Free Mobile propose pour la première fois à ses clients une option montre connectée, qui permet de connecter une Apple Watch à son réseau 4G. Et grande surprise : il ne s'agit pas d'une option payante.
Vous vous êtes déjà demandé si les IA comprenaient vraiment ce qu'elles racontaient, ou si elles ne faisaient que recracher des mots à partir de statistiques liées aux mots ?
Oui, comme vous, je pensais jusqu'à présent qu'on était vraiment sur un déroulé textuel purement mathématique sans réelle compréhension. Hé bien des chercheurs de UC Berkeley viennent de mettre un gros pavé dans la mare en démontrant que le modèle o1 d'OpenAI est capable d'analyser le langage comme le ferait un étudiant en linguistique. Pas juste d'utiliser le langage, hein mais vraiment de l'analyser, le décortiquer, le comprendre dans sa structure profonde.
L'étude a été menée par Gašper Beguš, prof associé de linguistique à Berkeley, avec ses collègues Maksymilian Dąbkowski et Ryan Rhodes de Rutgers University et les résultats sont publiés dans IEEE Transactions on Artificial Intelligence,
donc ça a l'air d'être du sérieux
.
Leur truc, c'était de tester si les modèles de langage (LLM) pouvaient faire de la métalinguistique, qui est la capacité non pas simplement d'utiliser une langue, mais aussi de réfléchir sur la langue elle-même. C'est un truc que les humains font naturellement quand ils analysent une phrase, et qu'on a pour le moment jamais observé chez l'animal.
Pour leurs expériences, l'équipe a donc balancé 120 phrases complexes dans quatre modèles différents : GPT-3.5 Turbo, GPT-4, o1 d'OpenAI, et Llama 3.1 de Meta et ils ont regardé comment chaque modèle s'en sortait pour analyser la structure des phrases et résoudre les ambiguïtés, notamment avec la récursion.
La
récursion
, c'est un concept que Noam Chomsky a théorisé comme étant la caractéristique définitoire du langage humain. C'est en fait la capacité d'imbriquer des phrases dans d'autres phrases, à l'infini. Genre "Le chat que le chien que Pierre a vu a mordu dort". Ouais, c'est tordu, mais c'est ça qui nous différencie aussi des autres animaux.
Et tous ces modèles ont réussi à identifier les phrases récursives, ce qui, jusque-là, n'a rien d'extraordinaire sauf que pour cartographier correctement la structure complexe des phrases, o1 a cartonné avec un score proche de 0.9 sur 1, contre une moyenne de 0.36 pour les autres. C'est un très gros écart.
Je vais vous donner un exemple concret. Avec la phrase "Unidentified flying objects may have conflicting characteristics" (les objets volants non identifiés peuvent avoir des caractéristiques contradictoires), o1 a correctement détecté la récursion. "Flying" modifie "objects", et "unidentified" modifie "flying objects". Il a même poussé le bouchon encore plus loin en proposant une extension de la phrase pour montrer qu'il avait compris le mécanisme.
Mais les chercheurs ne se sont pas arrêtés là car pour éviter que o1 ne triche en utilisant des données de son entraînement, ils ont inventé 30 mini-langues fictives avec leurs propres règles phonologiques. L'idée, c'était de voir si le modèle pouvait inférer les règles d'une langue qu'il n'a jamais vue. Et comme vous vous en doutez, o1 s'en est sorti comme un chef.
Bref, non seulement ces modèles peuvent utiliser le langage, mais certains peuvent "réfléchir" à la façon dont le langage est organisé.
Ce qui est dingue, c'est que cette étude relance le débat sur la compréhension des IA. Est-ce que ces modèles comprennent vraiment ce qu'ils font, ou est-ce qu'ils simulent très bien ? Beguš pense que cette capacité métalinguistique est "très conséquente" parce qu'elle montre que dans ces modèles, on a désormais quelque chose qu'on pensait réservé aux humains.
Attention cependant, qui dit capacité métalinguistique ne veut pas dire que l'IA est consciente ou qu'elle pense comme nous. Faut voir ça plutôt comme une capacité émergente qu'on n'a pas programmée explicitement, et qui est sacrément intéressante d'un point de vue scientifique.
Voilà, donc si comme moi, vous pensiez que ChatGPT ne faisait que du perroquet statistique, cette étude suggère visiblement que c'est un plus subtil que ça. Il faudra bien sûr plus d'études pour mieux comprendre ce phénomène mais il est maintenant clair que ces modèles récents ont des capacités qu'on croyait exclusives aux humains.