Claude Fable is Live...and its WILD!

En une phrase

Anthropic a lancé Claude 3.5 Haiku, une nouvelle classe de modèles LLM qui surpasse les benchmarks actuels de plus de 100%, intégrant des garde-fous de sécurité et une capacité d'auto-amélioration, marquant une "troisième ère" de l'IA où les modèles gèrent des responsabilités autonomes pour des tâches spécifiques.

Points clés

  • Lancement révolutionnaire de Claude 3.5 Haiku : Anthropic a dévoilé Claude 3.5 Haiku, sa plus grande avancée en trois ans, introduisant une nouvelle classe de modèles avec des capacités nettement supérieures, notamment en ingénierie logicielle et recherche scientifique.
  • Performance inédite sur les benchmarks : Claude 3.5 Haiku surpasse tous les modèles existants, incluant Claude Opus et GPT-4, en atteignant un score de 46% sur le "frontier code benchmark" de Cognition Labs, démontrant une amélioration de plus de 100% et la capacité de s'améliorer considérablement avec un "budget de pensée" accru.
  • Capacités avancées et sécurité : Le modèle excelle dans des domaines comme la conception de médicaments (accélération x10) et la génération d'hypothèses scientifiques. Claude 3.5 Haiku intègre des garde-fous de sécurité qui redirigent les requêtes sensibles (ex : cybersécurité, vulnérabilités) vers des modèles moins puissants comme Claude Opus. Une version moins restreinte est disponible pour des organisations sélectionnées.
  • Modèle économique et politique de données controversée : Claude 3.5 Haiku est coûteux (10$/million de tokens d'entrée, 50$/million de tokens de sortie) mais reste moins cher que certains modèles concurrents. Anthropic met en place une politique de rétention de toutes les données de trafic pendant 30 jours à des fins de sécurité (détection de contournements, faux positifs), ce qui pourrait soulever des préoccupations de confidentialité.
  • Vers une "troisième ère" de l'IA : L'émergence de Claude 3.5 Haiku suggère une transition où l'IA passe de la simple assistance humaine à la gestion autonome de "boucles de responsabilités" pour des tâches spécifiques et bien définies, comme la prévention proactive de problèmes (ex : empêcher les plantages d'applications), plutôt que de simplement aider à les réparer.

Ressources

  • Anthropic — développeur de modèles LLM
  • Claude 3.5 Haiku — dernier modèle phare d'Anthropic
  • Claude Opus — modèle précédent d'Anthropic
  • GPT-4 — modèles concurrents d'OpenAI
  • Cognition Labs — développeur du "frontier code benchmark"
  • Claude.ai — plateforme d'Anthropic pour accéder à ses modèles
  • Project Glass Swing — programme d'accès anticipé pour certaines organisations
  • Cursor Bench — plateforme de benchmarking tierce
  • Nome Brown — chercheur mentionné pour un article sur l'impact de l'augmentation du "test time compute"
  • Andrej Karpathy — expert en IA, mentionné pour son "auto research package"