Alexandria - Vos ebooks en livres audio multi-voix, en local

29 juin 2026 à 18:18

Je ne suis pas très client des livres audio parce que mon cerveau, en général, part faire des trucs dans son coin et je me retrouve à rien écouter du tout. Je préfère un petit podcast où ça rigole qu'une œuvre littéraire qui demande de la concentration.

Mais je sais que vous appréciez beaucoup les livres audio et il arrive très souvent qu'un bouquin n'ait pas sa version audio. Un vieux roman qui n'est plus édité, un PDF technique, une fanfiction de 800 pages, un article de korben.info ou juste un truc que personne chez Audible ne prendra le temps d'enregistrer parce que ça n'intéresse que vous.

Mais youpi, Finrandojin, un internaute, en a eu marre d'attendre l'audiobook de ses rêves et a codé Alexandria, un générateur de livre audio qui tourne 100% en local sur votre ordi.

Vous balancez un fichier .txt, .md ou .epub, dans l'appli, puis un LLM découpe le texte et annote chaque ligne avec le personnage qui parle et la manière dont il le dit, puis le moteur Qwen3-TTS joue le tout en local comme une vraie troupe de doubleurs professionnels. Et le résultat est assez propre, même si ça ne vaut pas encore un vrai enregistrement fait par un vrai humain. M'enfin, faute de mieux, pourquoi pas !

Et surtout, ce LLM qui fait le découpage, vous le branchez où vous voulez. En local via LM Studio ou Ollama, ou dans le cloud avec OpenAI ou n'importe quelle API compatible. Ensuite, une fois le script annoté, Alexandria vous propose 9 voix pré-entraînées avec contrôle de l'émotion et du ton.

Vous pouvez aussi cloner une voix à partir de 5 à 15 secondes d'échantillon, ou carrément en fabriquer une à partir d'une simple description écrite. Vous tapez par exemple "Une voix masculine chaude et grave, au ton calme et posé" (c'est ma voix quoi...lol) et hop, il vous la fabrique.

La fonctionnalité de génération de personnas fait également gagner un temps de dingue puisqu'en un clic, le LLM analyse le bouquin, invente une description de voix pour chaque personnage, génère l'audio de référence et assigne tout automatiquement.

Et pour les obsédés du détail, il y a même un éditeur web où vous regénérez n'importe quelle ligne individuellement, du training LoRA pour vous fabriquer des voix persistantes, et un export en MP3 en pistes séparées pour bidouiller ça ensuite dans Audacity, ou en M4B chapitré qui rentre direct dans Audiobookshelf, Apple Books ou VLC. Et tout ça bien sûr, dans une dizaine de langues, français compris.

Alexandria exigera par contre une carte graphique avec 8 Go de VRAM au minimum, 16 et plus si vous voulez du débit correct. Et si vous êtes sur Mac, mauvaise nouvelle, l'accélération MPS d'Apple Silicon n'est pas encore supportée, donc ça tournera en mode CPU, donc ce sera lent. Mais c'est pas très grave, vous lancez la génération, et vous retournez lire d'autres articles sur mon site pour passer le temps.

Même galère aussi pour les gens qui ont de l'AMD sous Windows. Les chanceux par contre, ce sont les possesseurs de NVIDIA sous Windows ou Linux et les AMD sous Linux. Maintenant si vous tenez juste à faire parler votre Mac sans y passer trois heures par chapitre , vous serez mieux servi ailleurs qu'avec Alexandria.

Pour l'installation, le plus simple passe par Pinokio en deux clics, et si vous n'avez pas le GPU qui va bien, il y a un notebook Google Colab pour tourner sur un T4 gratuit dans le navigateur. Comptez quand même un téléchargement de 3,5 Go pour les modèles TTS à la première utilisation, ils ne sont pas inclus dans l'install.

Vous l'aurez compris, c'est du DIY un peu gourmand en GPU, mais pour tous vos ebooks à écouter qui n'auront jamais de narrateur, ça ouvre les perspectives ! Le code est sous licence MIT et je vous invite quand même à tester avec un chapitre avant de vous lancer dans un roman entier.

Source

Un disque ressuscite le CD+G, ce format graphique oublié des CD audio

Korben

Vincent Lautier

26 juin 2026 à 10:28

Sur un disque audio classique, il restait depuis toujours quelques canaux de données inutilisés, glissés juste à côté des informations qui affichent le numéro de piste ou le temps écoulé, et c'est précisément dans ces recoins que Philips et Sony avaient logé en 1985 le CD+G, une extension capable d'afficher des images en 288 sur 192 pixels avec une maigre palette de 16 couleurs.

Vous l'avez forcément croisé sans le savoir, puisque ce format a surtout servi à faire défiler les paroles synchronisées sur les machines de karaoké pendant des décennies, avant de tomber dans l'oubli, à mesure que le CD physique déclinait.

Pour situer l'objet, le tout premier disque commercial à exploiter le CD+G remonte à 1985, avec l'album Eat or Be Eaten de la troupe américaine Firesign Theatre, et depuis, la feature n'a jamais vraiment dépassé le stade du gadget réservé aux bornes de karaoké et quelques rares appareils.

Sauf que voilà, deux artistes, Aizysse Baga et Adelaide, ont décidé de le déterrer pour de bon en pressant un mini-CD baptisé Divacore qui embarque de vraies illustrations à côté de la musique.

Et elles ne se sont pas contentées du strict minimum. Pour caser des visuels à peu près corrects dans seulement 16 couleurs, elles ont misé sur le tramage, cette vieille astuce qui mélange des points de teintes différentes pour donner l'illusion de couleurs qui n'existent pas vraiment dans la palette proposée.

Il faut dire que la marge de manœuvre était franchement limitée, avec à peine 28,8 kilobits par seconde réservés aux graphismes, de quoi peindre l'écran par petites tuiles de 6 sur 12 pixels et pas grand-chose d'autre.

Le plus intéressant dans l'histoire, c'est qu'elles ont poussé le délire jusqu'au CD+EG, une variante étendue qui grimpe à 256 couleurs tout en restant compatible avec les anciens lecteurs, un format tellement confidentiel à l'époque qu'il n'a quasiment jamais été gravé sur un disque commercial et que presque aucun appareil ne savait l'afficher.

Le tout a été fabriqué avec un encodeur maison écrit en Python, de quoi générer les deux versions des images et les glisser proprement dans les fameux sous-codes du disque.

Du coup, si vous lisez Divacore sur une Sega Saturn par exemple, ou sur les très obscurs lecteurs Victor VS-G2 et VS-G3, vous voyez les illustrations en 256 couleurs dans toute leur splendeur. Sur une simple machine de karaoké ou une Amiga CD32, vous récupérez la version en 16 couleurs, et c'est déjà pas mal

Bref, ressusciter un format que même son époque avait snobé, juste pour le plaisir de le voir tourner sur une Saturn. Inutile, et franchement cool non ?

Source : Hackaday

SteelSeries Sonar - L'alternative gratuite à Voicemeeter

Korben

Korben ✨

12 juin 2026 à 08:23

Si vous voulez mixer vos sources audio sous Windows sans y passer vos nuits en mode David Guetta, vous allez kiffer SteelSeries Sonar et enfin dire adieu à l'interface imbuvable de Voicemeeter et la configuration ultra-pénible d'Equalizer APO !

Ce logiciel de mixage virtuel, totalement gratuit, vient en effet se greffer directement sur le système Windows pour y créer des cartes son virtuelles indépendantes. Cela vous permet alors de piloter d'un coup de curseur le volume d'un jeu, de votre chat Discord, de vos musiques Spotify ou de votre navigateur. C'est super pratique pour baisser les copains qui hurlent sans couper le son du jeu lors de vos parties nocturnes.

Le système d'App Routing permet surtout d'assigner chaque application ouverte à un canal spécifique par un simple glisser-déposer. Plus besoin donc d'aller fouiller dans les paramètres enterrés de Windows que même Microsoft a oublié, pour dire que Spotify doit sortir sur le canal "média" et Discord sur le canal "chat". Tout se gère comme ça depuis l'interface centrale en quelques clics, c'est super agréable.

Et le truc cool, c'est que ça ne demande aucun matériel de la marque (et heureusement !). N'importe quel casque USB, jack ou Bluetooth fonctionne nickel. Avec un casque lambda, ça tourne impeccable, même si par contre, c'est packagé dans la suite SteelSeries GG, qui pèse son poids et vous obligera à vous créer un compte. Hé oui, "on ne peut pas tout avoir dans la vie" comme aime à vous le rappeler constamment votre mèèère.

En interne, l'égaliseur paramétrique 10 bandes est un modèle du genre. Ce n'est pas juste un égaliseur classique car on peut ajuster précisément chaque fréquence et créer des profils très pointus. D'ailleurs, si vous cherchez à améliorer le rendu sonore global de votre matériel, c'est un excellent complément à des projets comme AutoEq pour peaufiner vos courbes. Y'a d'ailleurs plus de 200 presets de jeux pros qui sont dispos si vous voulez vous amuser.

Pour le micro, la fonction ClearCast AI nettoie aussi le signal à la volée, ce qui permet d'éliminer le souffle de vos ventilateurs, de votre gros nez ou le tapotage infernal sur votre clavier mécanique de hipster en manque d'affection. Le traitement consomme bien sûr un peu plus de ressources CPU si on le pousse à fond, mais c'est redoutable pour éviter de casser les oreilles des autres. On y trouve aussi une spatialisation audio en 360 degrés avec réglage de la distance pour ceux qui aiment.

Bref, pour les joueurs et les créateurs qui veulent peaufiner leur setup de streaming Twitch sans investir dans des licences payantes ou du matériel physique coûteux, c'est une excellente surprise que nous offre la SteelSeries. C'est propre, bien complet et ça fait le taf !

Attention toutefois, le logiciel n'est disponible que pour Windows 10 et 11. Les utilisateurs sur macOS ou Linux devront passer leur chemin ou trouver d'autres alternatives. Vous pouvez télécharger l'application gratuitement en vous rendant sur le site officiel .

Vue lecture