LEANN - L'IA personnelle qui écrase 97% de ses concurrents (en taille)
60 millions de documents, c’est ce que LEANN peut indexer sur votre petit laptop sans faire exploser votre SSD. C’est ouf non ? Car pendant que tout le monde se bat pour avoir le plus gros modèle d’IA avec des milliards de paramètres, des chercheurs de UC Berkeley ont décidé de prendre le problème à l’envers en compressant tout ça pour que ça tienne sur un Macbook Air ou équivalent.
L’idée est tellement… au lieu de stocker tous les embeddings vectoriels (ces représentations mathématiques qui permettent à l’IA de comprendre vos documents), LEANN les recalcule à la volée quand vous en avez besoin. C’est comme si au lieu de garder 10 000 photos de votre chat sous tous les angles, vous gardiez juste une photo + un algorithme capable de reconstituer les autres instantanément.
Le truc vraiment fou, c’est que cette approche réduit l’espace de stockage de 97% par rapport aux solutions classiques comme Pinecone ou Qdrant. Pour vous donner une idée, là où une base vectorielle traditionnelle aurait besoin de 100 Go pour indexer vos documents, LEANN s’en sort avec 3 Go seulement. Et selon les benchmarks publiés , ça maintient 90% de précision avec des temps de réponse sous les 2 secondes.
Concrètement, LEANN utilise une technique qu’ils appellent “graph-based selective recomputation with high-degree preserving pruning” (oui, les chercheurs adorent les noms à rallonge). En gros, au lieu de parcourir tous les vecteurs pour trouver une correspondance, le système navigue dans un graphe optimisé qui ne garde que les connexions les plus importantes. C’est un peu comme utiliser Waze au lieu de vérifier toutes les routes possibles pour aller quelque part.
L’installation est d’une simplicité déconcertante :
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv
source .venv/bin/activate
uv pip install leann
Et hop, avec ça vous pouvez indexer vos PDFs, vos emails Apple Mail, votre historique Chrome, vos conversations WeChat, et même votre codebase entière. Le système est d’ailleurs assez malin pour comprendre la structure du code (fonctions, classes, méthodes) plutôt que de bêtement découper le texte tous les 500 caractères.
Et LEANN s’intègre directement avec Claude Code via un serveur MCP. Pour ceux qui utilisent Claude Code (coucou les Vibe Coders, on est ensemble !! ^^), vous savez que le plus gros problème c’est qu’il fait toujours des grep qui ne trouvent presque jamais rien. Alors qu’avec LEANN, une seule ligne de config et boom, vous avez de la recherche sémantique intelligente dans votre IDE.
Les cas d’usage sont d’ailleurs assez dingues puisque certains l’utilisent pour créer leur propre second cerveau qui indexe tout ce qu’ils ont lu, écrit ou consulté. D’autres s’en servent en entreprise pour faire de la recherche dans des bases documentaires sensibles sans rien envoyer dans le cloud. Y’a même des développeurs qui l’utilisent pour naviguer dans des codebases monstrueuses de millions de lignes. Moi je suis en train de le dompter pour lui faire bouffer tout le contenu de mon site et voir ce que je peux en tirer…
Le projet arrive donc pile au bon moment pour moi, mais aussi pour tous ceux qui s’inquiètent de leur vie privée et des données qui partent chez OpenAI ou Google. Avoir une solution 100% locale qui tourne sur votre machine, c’est top surtout dans des domaines comme la santé ou la finance où envoyer des données dans le cloud, c’est juste pas une option.
Et les chercheurs de Berkeley ne se sont pas arrêtés là puisqu’ils ont aussi intégré du support multilingue, donc vous pouvez chercher en français dans des documents en anglais et vice versa. Et cerise sur le gâteau, tout est open source sous licence MIT, donc vous pouvez tripatouiller le code comme bon vous semble.
Évidemment, LEANN a ses limites car le recalcul à la volée consomme plus de CPU que de simplement lire des vecteurs pré-calculés. Donc sur une machine vraiment faiblarde, ça peut ramer un peu. Et pour des cas d’usage où vous avez besoin de réponses en millisecondes (genre un moteur de recherche public), c’est peut-être pas l’idéal. Mais franchement, pour 97% d’économie de stockage et une vie privée totale, c’est un compromis que beaucoup sont prêts à faire. Surtout quand on sait que le prochain macOS va probablement embarquer de l’IA partout et qu’on aimerait bien garder nos données pour nous.
Voilà, pour ceux qui veulent creuser, le papier de recherche détaille toute la théorie derrière. Les benchmarks notés dans ce papier montrent même que LEANN bat certaines solutions cloud sur des requêtes complexes, tout en tournant sur un laptop à 2000 euros au lieu d’un cluster à 100 000 balles.
Bref, LEANN c’est l’exemple parfait qu’on n’a pas toujours besoin de plus de puissance ou plus de stockage. Suffit juste d’être plus malin !
Merci à Letsar et Lorenper pour le partage !