Mistral vs ElevenLabs : La révolution vocale est française ? — Veille IA

En une phrase

Mistral AI a récemment lancé Voxal TTS, un modèle de synthèse vocale (Text-to-Speech) performant et entièrement local dans neuf langues, complétant son modèle de reconnaissance vocale (Speech-to-Text) Voxal Mini, offrant ainsi des solutions de traitement vocal de haute qualité pour des applications sur Macs Apple Silicon, révolutionnant potentiellement la domotique locale et privée.

Points clés

Voxal TTS (Text-to-Speech) de Mistral AI : Nouveau modèle de synthèse vocale fonctionnant en local sur Mac Apple Silicon, qui génère des voix naturelles et non robotiques dans neuf langues. Sa qualité est jugée comparable à des services cloud comme Eleven Labs et largement supérieure à d'autres solutions locales comme Piper.
Performance locale sur Apple Silicon : Les modèles Voxal fonctionnent efficacement sur des Macs avec puces Apple (ex : MacBook Air M5, 24 Go de RAM), tirant parti de l'architecture spécifique (GPU et mémoire unifiée), permettant un traitement rapide et silencieux, sans dépendre de matériel cloud coûteux.
Voxal Mini STT (Speech-to-Text) local : Mistral AI propose également un modèle de reconnaissance vocale local, Voxal Mini, capable de transcrire la parole en texte avec une grande précision, même en parlant rapidement ou en mélangeant les langues. L'exécution locale permet une écoute continue et une analyse en temps réel sans compromettre la vie privée.
Impact sur la domotique et la confidentialité : Ces modèles locaux de TTS et STT offrent la possibilité de créer des systèmes de maison connectée (comme Gladis Assistant) plus résilients, indépendants du cloud et garantissant une meilleure protection des données personnelles, car tout le traitement vocal se fait sur l'appareil.
Comparaison avec d'autres solutions : Les démonstrations soulignent la nette supériorité de Voxal TTS face à Piper (projet local jugé très robotique en français) et sa compétitivité avec Eleven Labs (solution cloud de référence), tout en offrant l'avantage fondamental de l'exécution locale.
MLX Audio pour le développement : L'intégration et la démonstration des modèles Voxal sur Mac sont réalisées via des scripts Python utilisant la bibliothèque MLX Audio, optimisée pour exploiter la puissance des puces Apple Silicon pour l'inférence de modèles d'IA.

Ressources

MLX Audio
Eleven Labs
Piper
Gladis Assistant
Clodopus 4