Korben
OpenAI Privacy Filter - Masquez vos données perso en local
30 mai 2026 à 07:46

OpenAI Privacy Filter - Masquez vos données perso en local

Par : Korben ✨

30 mai 2026 à 07:46

OpenAI vient de sortir un modèle open source qui repère et masque les données perso dans un texte, et le plus marrant, c'est qu'il tourne chez vous, pas chez eux. Ça nous change ^^.

Ça s'appelle Privacy Filter , c'est sous licence Apache 2.0, et ce modèle chope les infos sensibles : noms, emails, téléphones, adresses, numéros de compte, dates perso, et même les secrets genre clés d'API ou tokens.

Il se compose de 1,5 milliard de paramètres au total, ce qui est tout petit, du coup ça tient sur un laptop et peut même tourner dans un navigateur via transformers.js. Et à chaque token, seulement 50 millions de paramètres bossent vraiment, puisque le modèle pioche dans ses "experts" au lieu de tout activer... donc c'est ultra rapide. Et vos données, elles, ne partent jamais en ligne, donc pour de la donnée sensible, c'est tip top !

Côté usage, c'est 3 lignes :

import { pipeline } from "@huggingface/transformers";
const filter = await pipeline("token-classification", "openai/privacy-filter");
await filter("My name is Korben and my email is [email protected]");

Au premier appel, transformers.js télécharge le modèle, et après localement, le modèle vous ressort chaque bout de texte étiqueté comme perso (ça c'est un nom, ça un email...etc) et comme ça, vous n'avez plus qu'à les remplacer par des balises avant de balancer le tout dans un LLM ou dans des logs par exemple.

La classification "secret" attrape les clés d'API et les tokens qui traînent, bref, tout ce qu' un dev peut oublier dans son code (oui, ça arrive ^^ hein). C'est la classification qui me semble la plus utile au quotidien.

Alors comment ça fonctionne ? Eh bien le modèle lit toute la phrase d'un coup au lieu de cracher du texte mot par mot comme un ChatGPT, puis recolle les morceaux avec un décodeur Viterbi pour éviter de couper un nom en deux. Il avale jusqu'à 128 000 tokens de contexte, et vous pouvez régler le curseur précision/rappel via des presets fournis : soit il masque large, quitte à raturer un mot innocent, soit il la joue finement. Pratique donc selon que vous bossiez sur du dossier médical ou un ticket de support random.

Notez que c'est pas le premier sur le créneau. Par exemple Microsoft Presidio fait du masquage PII depuis des années, gère plus de langues, et sait même bosser sur les images et les données structurées. Là où Privacy Filter marque des points, je trouve, c'est le contexte car il distingue mieux un nom de famille du même mot employé autrement, alors qu'une simple regex se vautre à 100%.

Après c'est surtout calibré pour l'anglais, donc sur du français ou des formats régionaux ça peut louper des trucs. Donc vérifiez bien le résultat avant de vous reposer entièrement dessus. Mais ça reste un bon filet de sécurité même si c'est pas une garantie d'anonymat béton.

Sachez aussi que pour changer la liste des catégories détectées c'est possible, mais faudra repasser par du fine-tuning.

Bref, voir que de temps en temps OpenAI continue de publier des outils open source qui tournent en local, c'est toujours une bonne surprise !

Bref, si vous manipulez de la donnée perso, allez jeter un œil, c'est par ici .

Korben
Utiq - Le pistage pub de votre opérateur et comment l'éviter
29 mai 2026 à 14:29

Utiq - Le pistage pub de votre opérateur et comment l'éviter

Korben

Par : Korben ✨

29 mai 2026 à 14:29

Si vous avez cliqué un peu vite sur "J'accepte" ces derniers jours, vous avez peut-être activé Utiq sans le savoir. Si ça ne vous dit rien, c'est normal puisque c'est le nouvel identifiant publicitaire monté comme des grands par les opérateurs télécoms européens, dont Orange, Deutsche Telekom, Vodafone et Telefónica, et qui vous piste via votre connexion à Internet.

Plutôt qu'un cookie planqué dans votre navigateur, Utiq s'appuie tout simplement sur votre box ou votre forfait mobile avec un identifiant attribué à votre ligne fixe (fibre ou ADSL) ou mobile.

Par exemple, comme on peut le lire sur AuFeminin :

Et c'est là que ça pique fort car comme l'identifiant vient de la connexion et pas du navigateur, il se moque éperdument des protections habituelles. Vous videz le cache ? Il s'en balek ! Navigation privée ? Pareil. Vous changez de navigateur ou d'appareil ? Tant que c'est la même connexion, vous restez la même personne aux yeux des annonceurs.

Et le pire, c'est que cet identifiant ne vous colle pas qu'à vous mais à toute votre box. Utiq le dit noir sur blanc : "toutes les personnes utilisant la même connexion et ayant consenti se verront attribuer le même identifiant". En clair, si votre ado, votre coloc ou votre moitié clique sur "J'accepte" sur un site, leur navigation vient se mélanger à la vôtre sous une seule et même étiquette. Et quand vous filez gérer vos réglages sur le consenthub, vous récupérez aussi les consentements donnés par les autres membres du foyer. Bref, le truc vendu comme plus propre que le cookie finit par pister le foyer entier, alors qu'un bon vieux cookie, lui, restait sagement dans VOTRE navigateur…

Pour finir le travail, Utiq demande même aux sites un petit sous-domaine maison, du genre utiq.lamarque.fr, qui pointe vers ses propres serveurs. Cette technique de CNAME cloaking fait ainsi passer le mouchard pour le site lui-même, et hop, il passe alors sous le radar d'une bonne partie des bloqueurs de traceurs, votre uBlock compris !

Bon, après ce n'est pas non plus Big Brother (et non, votre smartphone ne vous écoute pas ) puisque l'activation passe obligatoirement par votre consentement, et un opérateur qui ferait n'importe quoi avec vos données de connexion risquerait très gros au regard de la directive ePrivacy.

Le vrai souci, que Next a bien pointé d'ailleurs, c'est que l'identifiant de base que livre l'opérateur, le fameux "Network Signal", est une boîte noire totale. À en croire Next, même la CNIL n'en connaît pas le contenu exact. Difficile donc de parler de "consentement éclairé" quand personne ne sait vraiment ce qu'on accepte...

Ce bidule intrusif a déjà une ampleur folle, avec 36 opérateurs partenaires, plus de 330 éditeurs et 75 millions d'identifiants créés, dont 40 millions rien qu'en France ! Renault a même été l'un des premiers annonceurs à dégainer cette techno.

Et le plus fou, c'est que c'est vendu comme l'alternative "éthique et européenne" aux GAFAM. En gros, vous troquez Google contre votre opérateur, ce qui en fonction de l'opérateur n'est pas très rassurant ^^.

Heureusement, sortir du game prend à peine 30 secondes. Foncez sur consenthub.utiq.com , et vous pourrez bloquer Utiq pour un an d'un coup. C'est aussi là que vous verrez si vous êtes déjà enrôlé. Après sur les sites web qui l'ont implémenté, cliquez sur Rejeter, ou refusez Utiq dans les détails des réglages du site.

Et si vous voulez la ceinture et les bretelles, un VPN changera l'adresse IP sur laquelle repose le système et brouillera sérieusement les pistes. D'ailleurs, je le rappelle, ici, vous ne croiserez ni Utiq, ni cookie publicitaire, ni tracker mais juste de gros liens vers mon Patreon pour le soutien ^^.

Voilà, donc rien d'apocalyptique sous le soleil mais quand même 2 ou 3 trucs à savoir pour ne pas se faire berner...

Source

Plus de confort de lecture sur Korben

Korben

Par : Korben ✨

12 mai 2026 à 12:14

Je viens de pousser en prod une fonctionnalité sur laquelle je bosse depuis quelques temps et comme je suis content du résultat, c'est le moment de partager ça avec vous.

En haut à gauche du site, juste à côté de l'icône qui change le thème, vous trouverez un petit bouton "abc" qui jusqu'à présent ne servait qu'à appliquer une police spéciale dyslexique à mon contenu. Mais j'ai amélioré un peu tout ça pour que maintenant niveau "Confort de lecture" vous soyez refait !

En cliquant donc sur cette icône, s'ouvre un petit panneau de config avec dedans de quoi configurer votre expérience de lecture aux petits oignons. Police adaptée pour la dyslexie, espacement variable, fond couleur crème, mode audio TTS, lignes colorées pour guider l'œil...etc tout ça sans dépendre d'un service tiers.

Ensuite, vos réglages sont conservés dans le localStorage de votre navigateur pour les retrouver à chaque visite et il y a un petit lien en bas de la fenêtre pour réinitialiser tout ça.

Maintenant, l'histoire derrière cette feature, parce qu'elle est intéressante. À la base j'étais parti pour recoder un équivalent du " Bionic Reading ", vous savez ce truc à la mode qui met en gras le début de chaque mot pour soi-disant accélérer la lecture. J'avais déjà bien avancé quand je suis tombé sur une étude scientifique de 2024 qui démontait complètement le concept. En gros, les chercheurs ont mesuré que cela ne produisait aucun effet positif sur la vitesse de lecture ni sur la compréhension. Que dalle...

Du coup, pivot complet... J'ai tout repris pour bâtir un système basé sur ce qui marche vraiment, avec un principe simple : Chaque option du panneau affiche un badge "Sci ✓" si elle est soutenue par la recherche, ou "Pref" si c'est une préférence subjective documentée. Comme ça vous savez sur quoi vous cliquez et on évite le marketing déguisé en science.

Côté polices donc, vous avez 4 choix. La police par défaut du site, Lexend qui est une "variable font" développée par la Dr. Bonnie Shaver-Troup avec des résultats publiés montrant une amélioration significative de la fluidité de lecture, Atkinson Hyperlegible créée par le Braille Institute spécifiquement pour les personnes malvoyantes, et enfin OpenDyslexic que j'avais déjà. Pour cette dernière, je l'ai mise avec un badge "Pref" parce que la communauté dyslexique l'apprécie mais les études sont moins solides scientifiquement.

Les sliders d'espacement permettent également de jouer sur trois axes : espace entre les lettres, hauteur de ligne, largeur de la colonne de texte. Tout est calibré pour être utile sans casser le rendu. Vous pouvez aussi activer un fond crème qui utilise la couleur Solarized base3 (c'est #FDF6E3, reconnue dans la communauté des dev pour son confort de lecture sur une longue durée), et le texte non-justifié qui évite les "rivières" blanches entre mots qui posent problème notamment aux dyslexiques.

Pour le guide visuel, je vous ai mis 2 options. "Lignes colorées" qui applique un gradient cosinus caractère par caractère sur chaque ligne, avec une palette noir-bleu-noir-rouge qui alterne et permet à l'œil de suivre naturellement la progression du texte.

Et ce que j'ai appelé Saccade que j'ai gardé en option, marqué d'un badge orange "Pref ⚠" parce que la science dit que ça sert pas à grand chose, mais que si vous aimez visuellement, bah au moins c'est dispo !

Et puis il y a le mode audio (TTS) qui dépend de la qualité des voix installées sur votre système. Y'a pas d'IA là dedans, donc ça peut donner une lecture robotique sur certains OS. Une fois activé, ça apparaît en haut des articles avec une estimation de durée. Ça utilise la Web Speech API native de votre navigateur, donc zéro service externe une fois encore et ça respecte la voix système que vous avez configurée.

À ma connaissance, je suis le seul à proposer ce niveau de personnalisation pour l'accessibilité. N'oubliez pas qu'au delà de la démarche, l'accessibilité numérique est devenu une obligation légale en Europe avec l' European Accessibility Act qui s'applique depuis juin 2025 (Qui en a entendu parlé ? Pas grand monde je pense).

En tout cas, si je peux me permettre ce luxe de bosser sur des trucs qui ne rapportent pas un kopeck mais qui rendent le site plus agréable et plus accessible, c'est uniquement grâce à mes Patreons .

Alors un énorme merci à eux.

Vue normale