En une phrase
Anthropic a lancé Claude 3.5 Haiku, une nouvelle classe de modèles LLM qui surpasse les benchmarks actuels de plus de 100%, intégrant des garde-fous de sécurité et une capacité d'auto-amélioration, marquant une "troisième ère" de l'IA où les modèles gèrent des responsabilités autonomes pour des tâches spécifiques.
Points clés
- Lancement révolutionnaire de Claude 3.5 Haiku : Anthropic a dévoilé Claude 3.5 Haiku, sa plus grande avancée en trois ans, introduisant une nouvelle classe de modèles avec des capacités nettement supérieures, notamment en ingénierie logicielle et recherche scientifique.
- Performance inédite sur les benchmarks : Claude 3.5 Haiku surpasse tous les modèles existants, incluant Claude Opus et GPT-4, en atteignant un score de 46% sur le "frontier code benchmark" de Cognition Labs, démontrant une amélioration de plus de 100% et la capacité de s'améliorer considérablement avec un "budget de pensée" accru.
- Capacités avancées et sécurité : Le modèle excelle dans des domaines comme la conception de médicaments (accélération x10) et la génération d'hypothèses scientifiques. Claude 3.5 Haiku intègre des garde-fous de sécurité qui redirigent les requêtes sensibles (ex : cybersécurité, vulnérabilités) vers des modèles moins puissants comme Claude Opus. Une version moins restreinte est disponible pour des organisations sélectionnées.
- Modèle économique et politique de données controversée : Claude 3.5 Haiku est coûteux (10$/million de tokens d'entrée, 50$/million de tokens de sortie) mais reste moins cher que certains modèles concurrents. Anthropic met en place une politique de rétention de toutes les données de trafic pendant 30 jours à des fins de sécurité (détection de contournements, faux positifs), ce qui pourrait soulever des préoccupations de confidentialité.
- Vers une "troisième ère" de l'IA : L'émergence de Claude 3.5 Haiku suggère une transition où l'IA passe de la simple assistance humaine à la gestion autonome de "boucles de responsabilités" pour des tâches spécifiques et bien définies, comme la prévention proactive de problèmes (ex : empêcher les plantages d'applications), plutôt que de simplement aider à les réparer.
Ressources
- Anthropic — développeur de modèles LLM
- Claude 3.5 Haiku — dernier modèle phare d'Anthropic
- Claude Opus — modèle précédent d'Anthropic
- GPT-4 — modèles concurrents d'OpenAI
- Cognition Labs — développeur du "frontier code benchmark"
- Claude.ai — plateforme d'Anthropic pour accéder à ses modèles
- Project Glass Swing — programme d'accès anticipé pour certaines organisations
- Cursor Bench — plateforme de benchmarking tierce
- Nome Brown — chercheur mentionné pour un article sur l'impact de l'augmentation du "test time compute"
- Andrej Karpathy — expert en IA, mentionné pour son "auto research package"