OpenAI’s o3-mini reasoning model arrives to counter DeepSeek

MT HANNACH
16 Min Read
Disclosure: This website may contain affiliate links, which means I may earn a commission if you click on the link and make a purchase. I only recommend products or services that I personally use and believe will add value to my readers. Your support is appreciated!

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus


OpenAI a publié un nouveau modèle d’IA propriétaire à temps pour contrer le rapide Rise du rival open source Deepseek-R1 – mais sera-t-il suffisant pour assouplir le succès de ce dernier?

Aujourd’hui, après plusieurs jours de rumeurs et une anticipation croissante parmi les utilisateurs de l’IA sur les réseaux sociaux, Openal fait ses débuts O3-MinIle deuxième modèle de sa nouvelle famille de «raisonneurs» – des modèles Al qui prennent un peu plus de temps pour «penser», analyser leurs propres processus et réfléchir sur leurs propres «chaînes de pensée» avant de répondre aux requêtes et aux entrées des utilisateurs avec de nouvelles sorties.

Le résultat est un modèle qui peut fonctionner au niveau d’un doctorant ou même d’un titulaire de diplôme pour répondre aux questions difficiles en mathématiques, en sciences, en ingénierie et de nombreux autres domaines.

Le modèle O3-MinI est maintenant disponible sur Chatgpt, y compris le niveau gratuit, et sur l’interface de programmation d’applications d’OpenAI (API). Et, il est en fait moins cher, plus rapide et plus performant que le modèle haut de gamme précédent, O1 d’Openai, et son plus rapide et sœurs de comte de paramètre inférieur, O1-MinI.

Bien que cela sera inévitablement comparé à Deepseek-R1 – et la date de sortie est considérée par certains comme une réaction – il est important de se rappeler que O3 et O3-MinI ont été annoncés bien avant la sortie en janvier de Deepseek R1, dans Décembre 2024et ce PDG d’Openai Sam Altman indiqué précédemment sur x Cela en raison des commentaires des développeurs et des chercheurs, il arriverait à Chatgpt et à l’API OpenAI en même temps.

Contrairement à Deepseek-R1, O3-Mini ne sera pas mis à disposition en tant que modèle open source – ce qui signifie que le code ne peut pas être téléchargé pour une utilisation hors ligne, ni personnalisé dans la même mesure, ce qui peut limiter son attrait par rapport à Deepseek-R1 pour certaines applications .

OpenAI n’a pas fourni d’autres détails sur le modèle O3 plus grand (présumé) annoncé en décembre aux côtés d’O3-Mini. À ce moment-là, le formulaire déroulant Openai Opt-in pour tester O3 a déclaré qu’il subirait un «retard de plusieurs semaines» avant que les tiers ne puissent le tester.

Performances et fonctionnalités

Semblable à O1, Openai O3-Mini est optimisé pour le raisonnement en mathématiques, codage et science.

Ses performances sont comparables à l’Openai O1 lors de l’utilisation d’un effort de raisonnement moyen, mais offrent les avantages suivants:

  • 24% des temps de réponse plus rapides par rapport à O1-Mini (OpenAI n’a pas fourni de nombre spécifique ici, mais en regardant le groupe d’évaluation tiers Tests de l’analyse artificiellele temps de réponse d’O1-Mini est de 12,8 secondes pour recevoir et sortir 100 jetons. Ainsi, pour O3-Mini, une bosse de vitesse de 24% baisserait le temps de réponse à 10,32 secondes.)
  • Amélioration de la précision, les testeurs externes préférant les réponses d’O3-Mini 56% du temps.
  • 39% moins d’erreurs majeures sur les questions complexes du monde réel.
  • De meilleures performances dans le codage et les tâches STEM, en particulier lors de l’utilisation d’un effort de raisonnement élevé.
  • Trois niveaux d’effort de raisonnement (faible, moyen, élevé), permettant aux utilisateurs et aux développeurs d’équilibrer la précision et la vitesse.

Le modèle possède également des références impressionnantes, dépassant même l’O1 dans certains cas, selon la carte du système O3-Mini Openai publiée en ligne (qui a été publiée plus tôt que l’annonce officielle de disponibilité du modèle).

La fenêtre de contexte d’O3-Mini – le nombre de jetons combinés qu’il peut saisir / sortir en une seule interaction – est de 200 000, avec un maximum de 100 000 dans chaque sortie. C’est la même chose que le modèle O1 complet et surpasse En profondeurFenêtre de contexte de R1 Sur environ 128 000/130 000 jetons. Mais, c’est bien en dessous Google Gemini 2.0 Flash Thinking’s Nouvelle fenêtre de contexte jusqu’à 1 million de jetons.

Bien que O3-Mini se concentre sur les capacités de raisonnement, il n’a pas encore de capacités de vision. Les développeurs et les utilisateurs qui cherchent à télécharger des images et les fichiers devraient continuer à utiliser O1 entre-temps.

La compétition se réchauffe

L’arrivée des marques O3-MinI La première fois OpenAI met un modèle de raisonnement disponible pour les utilisateurs gratuits de Chatgpt. La famille de modèles O1 précédente n’était disponible que pour payer les abonnés de Chatgpt Plus, Pro et d’autres plans, ainsi que via l’API payante d’OpenAI.

Comme il l’a fait avec les chatbots de grande langue (LLM) via le lancement de Chatgpt en novembre 2022, OpenAI a essentiellement créé la catégorie complète des modèles de raisonnement en septembre 2024 Quand il a dévoilé O1 pour la première foisune classe de modèles avec un nouveau régime de formation et une architecture.

Mais Openai, conformément à son histoire récente, n’a pas fait de l’O1 open source, contrairement à son nom et à sa mission de fondation originale. Au lieu de cela, il a gardé le code propriétaire du code du modèle.

Et, au cours des deux dernières semaines, l’O1 a été éclipsé par Startup de l’IA chinois Deepseekqui a lancé R1, un modèle de raisonnement rival, très efficace, largement open source disponible gratuitement pour prendre, recycler et personnaliser par quiconque dans le monde, ainsi que l’utilisation gratuitement sur le site Web et l’application mobile de Deepseek – un modèle qui aurait été formé dans un Fraction du coût de l’O1 et d’autres LLM des meilleurs laboratoires.

Deepseek-R1 Termes de licence MIT permissiveapplication / site Web gratuit pour les consommateurs et décision de rendre la base de code de R1 disponible gratuitement à prendre et à modifier l’a conduit à une véritable explosion d’utilisation à la fois sur les marchés des consommateurs et des entreprises – même Investisseur Openai Microsoft et Anthropic Backer Amazon se précipitant pour en ajouter des variantes à leurs marchés cloud. Perplexité, la société de recherche AI, également rapidement Ajout d’une variante pour les utilisateurs.

Deepseek a également détrôné l’application Chatgpt iOS comme numéro n ° 1 dans le US Apple App Storeet est remarquable pour dépasser OpenAI en connectant son modèle R1 à la recherche Web dans son application et sur le Web. C’est quelque chose qu’Openai n’a pas encore fait pour l’O1, conduisant à une nouvelle anxiété techno parmi les travailleurs technologiques et autres en ligne que la Chine rattrape ou a dépassé les États-Unis dans l’innovation de l’IA – ou même en technologie plus généralement.

De nombreux chercheurs d’IA, scientifiques et meilleurs VC tels que Marc Andreessen, cependant, ont accueilli la montée en puissance de Deepseek, et son approvisionnement ouvert en particulier, comme une marée qui soulève tous les bateaux dans le domaine de l’IA, augmentant l’intelligence disponible pour tout le monde tout en réduisant les coûts .

Disponibilité dans le chatppt

O3 se déroule maintenant à l’échelle mondiale pour ChatGpt Free, Plus, Team and Pro utilisateurs, avec l’entreprise et l’accès à l’éducation à venir la semaine prochaine.

  • Les utilisateurs gratuits peuvent essayer O3-Mini pour la première fois en sélectionnant le bouton «Raison» dans la barre de chat ou en régénérant une réponse.
Capture d’écran de la barre d’incitation de chatppt avec le bouton «Raison». Notez que l’invite fournie dans la capture d’écran d’Openai fait sournoisement référence à la «distillation de l’IA», qui rivalise Deepseek est accusé d’avoir fait – Prenez les sorties des modèles OpenAI et les utilisez pour former son propre R1.
  • Les limites de messages ont augmenté de 3x pour plus et les utilisateurs de l’équipe, contre 50 à 150 messages par jour.
  • Les utilisateurs de PRO ont un accès illimité à la fois à O3-MinI et à une nouvelle variante encore plus élevée, O3-MinI-High.

De plus, O3-MinI prend désormais en charge l’intégration de recherche dans Chatgpt, fournissant des réponses avec des liens Web pertinents. Cette fonctionnalité est encore à ses débuts car OpenAI affine les capacités de recherche sur ses modèles de raisonnement.

Intégration et prix de l’API

Pour les développeurs, O3-MinI est disponible via l’API CHAT EXCELIONS, l’API Assistants et l’API Batch. Le modèle prend en charge l’appel de fonction, les sorties structurées et les messages de développeur, ce qui facilite l’intégration dans les applications du monde réel.

One of o3-mini’s most notable advantages is its cost efficiency: It’s 63% cheaper than OpenAI o1-mini and 93% cheaper than the full o1 model, priced at $1.10/$4.40 per million tokens in/out (with a 50% cache discount ).

Pourtant, il pâlit toujours par rapport à l’abordabilité de l’officiel API DeepseekL’offre de R1 à 0,14 $ / 0,55 $ par million de jetons en / sortie. Mais étant donné que Deepseek est basé en Chine et est livré avec des problèmes de conscience géopolitique et de sécurité à l’écoute concernant les données de l’utilisateur / d’entreprise qui se déroulent dans et hors du modèle, il est probable qu’Openai restera l’API préférée pour certains clients et entreprises axés sur la sécurité aux États-Unis et l’Europe.

Les développeurs peuvent également ajuster le niveau d’effort de raisonnement (faible, moyen, élevé) en fonction de leurs besoins d’application, ce qui permet un contrôle davantage sur les compromis latence et la précision.

En sécurité, Openai dit qu’il a utilisé quelque chose appelé «alignement délibératif» avec O3-MinI. Cela signifie que le modèle a été invité à raisonner sur les directives de sécurité autorisées par l’homme qui lui ont été données, à comprendre davantage leur intention et les dommages qu’ils sont conçus pour prévenir et proposer ses propres façons de s’assurer que ces méfaits sont évités. Openai dit qu’il permet au modèle d’être moins censuré lorsqu’ils discutent de sujets sensibles tout en préservant la sécurité.

Openai affirme que le modèle surpasse le GPT-4O dans la gestion des défis de sécurité et de jailbreak, et qu’il a effectué de vastes tests de sécurité externes avant sa sortie aujourd’hui.

UN rapport récent couvert dans Câblé (Là où ma femme travaille) a montré que Deepseek avait succombé à chaque invite de jailbreak et tente de 50 testés par des chercheurs en sécurité, ce qui peut donner à Openai O3-Mini le bord sur Deepseek R1 dans les cas où la sécurité et la sécurité sont primordiales.

Qu’est-ce que suivant?

Le lancement d’O3-Mini représente les efforts plus larges d’Openai pour rendre le raisonnement avancé plus accessible et plus rentable face à une concurrence plus intense que jamais auparavant de R1 de Deepseek et d’autres. Cela inclut Google, qui a récemment publié une version gratuite de son propre modèle de raisonnement rival Gémeaux 2 Flash Thinking avec un contexte de contribution élargi de jusqu’à 1 million de jetons.

En mettant l’accent sur le raisonnement et l’abordabilité des STEM, OpenAI vise à étendre la portée de la résolution de problèmes axée sur l’IA dans les applications des consommateurs et des développeurs.

Mais à mesure que l’entreprise devient plus ambitieuse que jamais – par exemple, annonçant récemment un projet d’infrastructure de centre de données de 500 milliards de dollars appelé Stargate avec le soutien de SoftBank – la question demeure de savoir si sa stratégie sera suffisamment bien payante pour justifier le nombre de plusieurs milliards de personnes en contrebas Investisseurs à poche profonds comme Microsoft et d’autres VC.

Alors que les modèles open source comblent de plus en plus l’écart avec Openai en performances et le dépasseront en coût, ses mesures de sécurité supérieures auraient des capacités puissantes, des API faciles à utiliser et des interfaces conviviales seront suffisantes pour maintenir les clients – en particulier dans l’entreprise – Qui peut prioriser le coût et l’efficacité sur ces attributs? Comme toujours, nous ferons rapport sur les développements au fur et à mesure qu’ils se déploient.

Share This Article
Leave a Comment

Leave a Reply

Your email address will not be published. Required fields are marked *