Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Social Analyzer - Scannez vos profils sociaux (OSINT)

Par : Korben
24 janvier 2026 à 10:00

Qui n'a jamais eu envie de savoir si "KikouLolDu93" avait aussi un compte sur un site de rencontre ou un forum obscur de haxx0rs ? C'est humain, c'est de la curiosité... ou de l'OSINT (Open Source Intelligence) si vous voulez faire genre vous êtes un pro. Et pour ça, j'ai l'outil qu'il vous faut : Social Analyzer .

Ce script est un détective privé numérique qui va frapper à la porte de plusieurs centaines de sites (Facebook, X (ex-Twitter), Instagram, Tinder, et des trucs bien plus niches) pour vérifier la présence d'un pseudo.

Développé par qeeqbox, Social Analyzer ne se contente pas de tester une URL. Il analyse les pages, vérifie les métadonnées, et vous sort un score de confiance de 0 à 100. Notez qu'un score de 100 n'est pas une preuve d'identité absolue (on n'est pas à la police scientifique), mais une forte probabilité basée sur les signaux trouvés. À l'inverse, un score de 0 peut signifier que c'est un homonyme, ou simplement que le site a bloqué la requête. Ça évite en tout cas de stalker la mauvaise personne trop vite.

L'outil est codé en JavaScript et Python, et vous pouvez l'utiliser en ligne de commande ou via une interface web plutôt propre si le terminal vous donne de l'urticaire.

Comment on installe la bestiole ?

Vous avez plusieurs options, mais la plus simple si vous avez Python 3 d'installé, c'est via pip (vérifiez bien que c'est le paquet officiel) :

pip3 install social-analyzer

Et hop, c'est réglé. Ensuite pour lancer une recherche rapide, c'est aussi simple que :

social-analyzer --username "le_pseudo_a_chercher"

Si vous êtes plus team NodeJS, vous pouvez aussi cloner le dépôt GitHub et lancer ça à la main :

git clone https://github.com/qeeqbox/social-analyzer.git
cd social-analyzer
npm install
npm start

Ça lancera l'interface web sur votre machine (généralement sur le port 9005), et vous pourrez faire vos recherches tranquillement en cliquant sur des boutons.

Et ça marche vraiment ?

Franchement, oui. C'est même assez bluffant de voir tout ce qui ressort. Il peut même tenter d'extraire des infos supplémentaires comme la bio ou l'avatar si les sites ne sont pas trop protégés contre le scraping.

Par contre, petit disclaimer habituel : ce genre d'outil, c'est pour de l'investigation légitime. Genre vérifier vos propres traces numériques pour faire du nettoyage, ou pour des enquêtes de sécu. Ne commencez pas à l'utiliser pour harceler les gens, le web n'a pas besoin de ça.

D'ailleurs, si le sujet de l'OSINT vous branche, jetez un œil à mon article sur Blackbird qui fait un boulot similaire, ou apprenez à analyser un profil GitHub comme un chef.

Bref, Social Analyzer c'est puissant, c'est open source, et ça fait le café. À utiliser avec intelligence évidemment !

Merci à Lorenper !

LangExtract - La nouvelle pépite de Google pour extraire des données structurées avec l'IA

Par : Korben
16 janvier 2026 à 16:05

Il y a des combats comme cela auxquels pas grand monde ne pense et qui pourtant sont très importants. Je parle évidemment de la lutte contre le chaos du texte non structuré. Si vous avez déjà essayé d'extraire des données propres d'un tas de PDF (après OCR), de rapports ou de notes griffonnées, vous voyez de quoi je parle : c'est l'enfer ! (oui j'aime me faire du mal en tentant des regex impossibles).

Heureusement, Google a lâché début janvier 2026 une petite pépite en open source (même si c'est pas un produit "officiel") qui s'appelle LangExtract . C'est une bibliothèque Python qui utilise la puissance des LLM pour transformer vos documents textuels en données JSON bien rangées.

Exemple d'extraction sur le texte de Roméo et Juliette ( Source )

Ce qui fait que LangExtract sort du lot par rapport à d'autres outils comme Sparrow , c'est surtout son système de Source Grounding. En gros, chaque info extraite est directement liée à sa position exacte dans le texte source. Ça facilite énormément la vérification et la traçabilité puisque vous pouvez voir visuellement d'où vient la donnée grâce à un système de surlignage automatique.

Sous le capot, l'outil est optimisé pour les documents à rallonge (le fameux problème de l'aiguille dans une botte de foin). Il utilise des stratégies de découpage de texte et de passes multiples pour améliorer le rappel et s'assurer que le maximum d'infos soit capturé.

La visualisation interactive permet de valider les données en un clin d'œil ( Source )

Et cerise sur le gâteau, il permet de générer un fichier HTML interactif pour visualiser les milliers d'entités extraites dans leur contexte original. À la cool !

Côté installation, c'est hyper fastoche :

pip install langextract

Pour faire le job, vous avez le choix des armes : les modèles cloud de Google (Gemini 2.5 Flash/Pro), ceux d'OpenAI (via pip install langextract[openai]), ou carrément du local avec Ollama . Pas besoin de passer des heures à fine-tuner un modèle, il suffit de fournir quelques exemples structurés via le paramètre examples et hop, c'est parti mon kiki.

Voici à quoi ça ressemble sous le capot pour lancer une machine à extraire :

import langextract as lx

# 1. On définit les règles du jeu
prompt = "Extraire les noms de personnages et leurs émotions."

# 2. On donne un exemple (few-shot) pour guider le modèle
examples = [
 lx.data.ExampleData(
 text="ROMEO. But soft! What light...",
 extractions=[lx.data.Extraction(extraction_class="character", extraction_text="ROMEO", attributes={"emotion": "wonder"})]
 )
]

# 3. On lance l'extraction (nécessite une clé API ou Ollama)
results = lx.extract(
 text_or_documents="votre_texte_brut_ici",
 prompt_description=prompt,
 examples=examples,
 model_id="gemini-2.5-flash"
)

# 4. On sauvegarde et on génère la visualisation HTML
lx.io.save_annotated_documents(results, output_name="results.jsonl")
html_content = lx.visualize("results.jsonl")
with open("view.html", "w") as f:
 f.write(html_content)

Honnêtement, je ne sais pas si ça va remplacer les solutions industrielles de RPA , mais pour un dev qui veut structurer du texte sans se prendre la tête, c'est vraiment impressionnant. Que vous fassiez du Grist ou de l'analyse de données pure, cet outil mérite clairement que vous y jetiez un œil !

Source

❌
❌