Claude Fable is Live...and its WILD! — Veille IA

En une phrase

Anthropic a lancé Claude 3.5 Haiku, une nouvelle classe de modèles LLM qui surpasse les benchmarks actuels de plus de 100%, intégrant des garde-fous de sécurité et une capacité d'auto-amélioration, marquant une "troisième ère" de l'IA où les modèles gèrent des responsabilités autonomes pour des tâches spécifiques.

Points clés

Lancement révolutionnaire de Claude 3.5 Haiku : Anthropic a dévoilé Claude 3.5 Haiku, sa plus grande avancée en trois ans, introduisant une nouvelle classe de modèles avec des capacités nettement supérieures, notamment en ingénierie logicielle et recherche scientifique.
Performance inédite sur les benchmarks : Claude 3.5 Haiku surpasse tous les modèles existants, incluant Claude Opus et GPT-4, en atteignant un score de 46% sur le "frontier code benchmark" de Cognition Labs, démontrant une amélioration de plus de 100% et la capacité de s'améliorer considérablement avec un "budget de pensée" accru.
Capacités avancées et sécurité : Le modèle excelle dans des domaines comme la conception de médicaments (accélération x10) et la génération d'hypothèses scientifiques. Claude 3.5 Haiku intègre des garde-fous de sécurité qui redirigent les requêtes sensibles (ex : cybersécurité, vulnérabilités) vers des modèles moins puissants comme Claude Opus. Une version moins restreinte est disponible pour des organisations sélectionnées.
Modèle économique et politique de données controversée : Claude 3.5 Haiku est coûteux (10$/million de tokens d'entrée, 50$/million de tokens de sortie) mais reste moins cher que certains modèles concurrents. Anthropic met en place une politique de rétention de toutes les données de trafic pendant 30 jours à des fins de sécurité (détection de contournements, faux positifs), ce qui pourrait soulever des préoccupations de confidentialité.
Vers une "troisième ère" de l'IA : L'émergence de Claude 3.5 Haiku suggère une transition où l'IA passe de la simple assistance humaine à la gestion autonome de "boucles de responsabilités" pour des tâches spécifiques et bien définies, comme la prévention proactive de problèmes (ex : empêcher les plantages d'applications), plutôt que de simplement aider à les réparer.

Ressources

Anthropic — développeur de modèles LLM
Claude 3.5 Haiku — dernier modèle phare d'Anthropic
Claude Opus — modèle précédent d'Anthropic
GPT-4 — modèles concurrents d'OpenAI
Cognition Labs — développeur du "frontier code benchmark"
Claude.ai — plateforme d'Anthropic pour accéder à ses modèles
Project Glass Swing — programme d'accès anticipé pour certaines organisations
Cursor Bench — plateforme de benchmarking tierce
Nome Brown — chercheur mentionné pour un article sur l'impact de l'augmentation du "test time compute"
Andrej Karpathy — expert en IA, mentionné pour son "auto research package"