OpenAI a surpris de nombreux acteurs du monde de la technologie cette semaine en dévoilant GPT-4o, une mise à jour importante du modèle de langage GPT-4 qui alimente ChatGPT. Le nouveau modèle offre des améliorations impressionnantes en termes de vitesse, de fonctionnalité et d’accessibilité.
Cette décision intervient à un moment crucial pour l’OpenAI, alors que la concurrence dans le domaine de l’IA s’intensifie. Des entreprises comme Anthropic, Cohere et Gemini, le bras armé de Google en matière d’IA, rivalisent pour dominer ce domaine en pleine évolution.
Qu’est-ce que GPT-4o ?
GPT-4o se distingue par sa rapidité et son prix abordable. Selon Mira Murati, Directeur technique de l’OpenAI, le modèle est “beaucoup plus rapide” que son prédécesseur et présente des capacités accrues en matière de traitement du texte, de la vision et de l’audio.
L’un des aspects les plus importants de GPT-4o est qu’il est disponible gratuitement pour tous les utilisateurs de ChatGPT. Les utilisateurs payants conserveront des limites de capacité plus élevées, mais les fonctionnalités de base seront accessibles à tous. Cela démocratisera l’accès à la technologie avancée de l’IA, ce qui pourrait favoriser une vague d’innovation de la part des développeurs individuels et des adeptes.
Une centrale multimodale
Sam Altman, PDG d’OpenAI, souligne la nature « nativement multimodale » de GPT-4o. Cela signifie que le modèle peut non seulement traiter du texte, mais aussi comprendre et générer du contenu sur la base d’entrées visuelles et audio. Les développeurs peuvent tirer parti de l’API GPT-4o, qui présente des avantages significatifs par rapport à son prédécesseur : elle est deux fois moins chère et deux fois plus rapide que GPT-4 Turbo.
ChatGPT bénéficie d’une mise à jour de l’assistant vocal
L’arrivée de GPT-4o apporte des améliorations intéressantes au mode vocal de ChatGPT. L’application est sur le point de se transformer en un assistant en temps réel, semblable à Her, capable de répondre à vos commandes vocales tout en observant et en interagissant avec le monde qui vous entoure. Il s’agit d’une avancée significative par rapport au mode vocal actuel, plus limité, qui ne peut gérer qu’une seule commande à la fois et ne tient pas compte de l’environnement.
L’évolution de la vision d’OpenAI
Le billet de blog du PDG d’OpenAI, Sam Altman, publié à la suite du lancement, met en lumière l’évolution de la vision de l’entreprise. Alors que l’objectif initial était de créer “toutes sortes d’avantages pour le monde” en élaborant directement des solutions d’IA, l’entreprise semble s’orienter vers la mise à disposition de ces puissants modèles aux développeurs par le biais d’API payantes. Cette évolution permet à des tiers de créer des applications innovantes à partir de la technologie de base d’OpenAI, ce qui débouchera en fin de compte sur un éventail plus large de progrès fondés sur l’IA.
OpenAI vole la vedette avant la conférence Google I/O
Le lancement de GPT-4o précède stratégiquement la conférence des développeurs I/O de Google, au cours de laquelle le géant de la technologie devrait dévoiler sa propre gamme de produits d’IA. Cette initiative souligne la détermination d’OpenAI à maintenir sa position de leader dans le domaine de l’IA.