Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Supervision – Donnez la vue à votre projet IA

Par : Korben
18 juin 2024 à 09:00

Vous rêvez de donner à vos projets d’IA des superpouvoirs visuels ? Ne cherchez plus, Supervision est là pour vous ! Détecter des objets, segmenter des instances, annoter des images et des vidéos… tout ça devient possible en quelques lignes de code seulement grâce à ce projet qui propose une API intuitive et des fonctionnalités avancées pour vous faciliter la vie.

Le secret de Supervision ? Une intégration transparente avec les meilleures librairies de deep learning du moment comme YOLO-NAS, YOLOv8…etc. Ces modèles surpuissants de détection d’objets n’auront plus de secrets pour vous et grâce à eux, vous pourrez identifier et localiser précisément chaque élément dans vos images et vidéos.

Supervision vous offre aussi des outils d’annotation et de visualisation hyper pratiques. Vous pourrez par exemple dessiner des boîtes englobantes autour des objets détectés, afficher les masques de segmentation avec des couleurs personnalisées, ajouter des étiquettes et des scores de confiance…etc.

Côté données, il assure également avec son API de gestion de datasets qui permet de charger vos images et annotations au format YOLO en un clin d’œil, explorer votre dataset, filtrer et spliter les données comme un pro…etc. C’est super simple !

Si ça vous intéresse, tout est sur le repo GitHub du projet et il y a même un site dédié avec la doc, le détail des API et plein d’exemple.

01 – L’appareil open-source basé sur un modèle de langage IA

Par : Korben
13 juin 2024 à 09:00

Imaginez un appareil qui comprend tout ce que vous lui dites, qui répond à vos questions avec intelligence et s’adapte à vos besoins… Et bien c’est exactement ce que propose le projet 01, un framework open-source qui allie intelligence artificielle et interface vocale.

Inspiré par l’iconique ordinateur de Star Trek, et développé par les mêmes personnes que ceux qui ont créé Open Interpreter que j’adore, 01 ambitionne de devenir le GNU/Linux des assistants vocaux. Son écosystème ouvert et modulaire permet aux développeurs de créer des applications innovantes et de personnaliser l’expérience utilisateur. Comme ça, que vous soyez maker ou un néophyte curieux, vous allez pouvoir construire votre propre appareil 01 en suivant les instructions détaillées fournies sur le dépôt GitHub.

Le modèle 01 Light, basé sur un ESP32, est un excellent point de départ pour découvrir cette technologie fascinante. Évidemment, tout est open source et vous pouvez créer votre propre device ou le faire tourner sur un appareil existant.

Pour une expérience optimale, 01 fonctionne de pair avec un serveur qui s’exécute sur votre ordinateur personnel ou votre NAS et qui grâce à des outils comme Whisper pour la reconnaissance vocale et GPT pour la génération de réponses, permet des interactions naturelles et pertinentes.

Tout cela est rendu possible notamment grâce au format LMC (Language Model Computer), inspiré par le concept de « LLM OS » d’Andrej Karpathy. 01 utilise donc un modèle de langage qui interprète du code pour réagir à des événements système. Les messages LMC sont donc une extension du format d’OpenAI en ajoutant un rôle « ordinateur » qui exécute du code Python directement dans les instructions système.

Son architecture flexible permet de l’intégrer à une multitude d’objets du quotidien, de l’assistant vocal au robot domestique en passant par la voiture intelligente. Les possibilités sont infinies et ne demandent qu’à être explorées.

En tant que projet open-source, 01 compte sur une communauté dynamique de contributeurs pour se développer et s’améliorer et y’a même un serveur Discord pour échanger avec d’autres enthousiastes du projet.

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Par : Korben
7 mai 2024 à 09:00

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.

❌
❌