Microsoft dévoile WHAMM son IA qui permet de jouer à Quake II entièrement généré en temps réel

Microsoft dévoile WHAMM, son IA générative permettant de jouer à Quake II en temps réel. Cette technologie transforme le jeu culte en environnement virtuel entièrement généré par intelligence artificielle, offrant une expérience interactive unique malgré certaines limitations techniques.

8 Minutes de lecture
© Photo : Microsoft

Microsoft vient de présenter WHAMM, un modèle d’IA générative capable de recréer le jeu Quake II en temps réel et d’y permettre une interaction directe. Cette technologie, qui porte le nom de « World and Human Action MaskGIT Model », représente une avancée significative dans l’univers des jeux vidéo. En effet, WHAMM permet aux utilisateurs de naviguer, tirer et sauter tout en interagissant avec un environnement entièrement généré par intelligence artificielle, à partir d’un modèle entraîné sur seulement une semaine de données de jeu.

- Publicité -

Le géant de Redmond a conçu WHAMM comme une extension de son modèle WHAM-1.6B, publié dans la revue Nature en février dernier. La différence fondamentale entre ces deux technologies réside dans leur vitesse de génération d’images. Alors que WHAM-1.6B ne produisait qu’une image par seconde environ, WHAMM peut en générer plus de dix, offrant une expérience suffisamment fluide pour une interaction en temps réel.

Microsoft dévoile WHAMM son IA qui permet de jouer à Quake II entièrement généré en temps réel
© Photo : Microsoft

Pour atteindre cette performance, les ingénieurs de Microsoft ont modifié l’approche de modélisation. Au lieu d’utiliser un système autorégressif similaire aux grands modèles de langage qui génèrent un jeton à la fois, WHAMM adopte une architecture basée sur MaskGIT. Cette méthode permet de générer simultanément tous les jetons nécessaires à la composition d’une image, réduisant ainsi considérablement le temps de traitement.

- Publicité -

L’architecture technique de WHAMM se compose de deux éléments principaux. Le premier, nommé « Backbone Transformer », contient environ 500 millions de paramètres et analyse le contexte constitué des neuf paires image-action précédentes pour prédire l’ensemble des jetons de l’image suivante. Le second, appelé « Refinement Transformer », affine ces prédictions initiales par un processus itératif de masquage et de prédiction, avec ses 250 millions de paramètres. Ce processus garantit une meilleure qualité visuelle finale.

La résolution des images générées a également doublé par rapport au modèle précédent, passant de 300×180 à 640×360 pixels. Cette amélioration, obtenue en augmentant simplement la taille des patchs du modèle ViT de 10 à 20, confère une qualité visuelle nettement supérieure à l’expérience globale.

- Publicité -

La démonstration proposée par Microsoft permet aux utilisateurs de jouer à une version simulée de Quake II directement dans leur navigateur. Les joueurs peuvent se déplacer, regarder autour d’eux, sauter, s’accroupir, tirer et même faire exploser des barils, reproduisant ainsi les mécaniques fondamentales du jeu original. Le modèle a même mémorisé certaines zones secrètes du premier niveau du jeu.

Cependant, cette technologie présente plusieurs limitations importantes. La première, soulignée par Microsoft, concerne la nature même du modèle : il s’agit d’une approximation générative de l’environnement original, et non d’une réplication fidèle. Les interactions avec les ennemis sont souvent floues et les combats peuvent présenter des incohérences. La latence constitue également un problème majeur, le taux d’images par seconde oscillant entre 10 et 15, bien en deçà des standards actuels des jeux vidéo.

- Publicité -

Une autre limitation technique réside dans la longueur du contexte pris en compte par le modèle, limitée à 0,9 seconde de gameplay (9 images à 10 images par seconde). Cette contrainte entraîne des comportements particuliers : le modèle peut « oublier » les objets hors du champ de vision pendant plus d’une seconde. Ce phénomène crée des situations inattendues où les ennemis peuvent disparaître ou apparaître simplement en détournant le regard, ou permet aux joueurs de se « téléporter » dans la carte en regardant le ciel, puis à nouveau vers le sol.

La portée de l’expérience reste également limitée, le modèle n’ayant été entraîné que sur une partie spécifique du premier niveau de Quake II. Lorsque le joueur atteint la fin de cette section (en descendant l’ascenseur), les générations se figent car les développeurs avaient arrêté l’enregistrement des données à ce point précis.

Le processus d’entraînement de WHAMM représente toutefois une avancée considérable en termes d’efficacité. Contrairement au modèle WHAM-1.6B qui nécessitait l’équivalent de sept années de données de jeu, WHAMM n’a eu besoin que d’une semaine de données soigneusement collectées et sélectionnées. Cette optimisation a été rendue possible grâce à la collaboration de testeurs professionnels et à une stratégie de collecte ciblée, se concentrant sur un seul niveau avec des comportements de jeu intentionnels et diversifiés.

Microsoft présente cette technologie non pas comme un substitut aux jeux vidéo traditionnels, mais comme une exploration des possibilités offertes par l’IA générative dans le domaine du jeu interactif. L’entreprise souligne qu’il s’agit davantage de « jouer avec le modèle » que de jouer au jeu original. Cette nuance importante reflète l’état actuel de la technologie : une démonstration impressionnante, mais qui ne peut encore rivaliser avec l’expérience authentique.

Cette annonce intervient dans un contexte où l’IA générative suscite des débats, notamment depuis la tendance des créations dans le style Ghibli par OpenAI, qui a provoqué des réactions négatives. La question de la place de l’IA dans la création artistique et ludique reste entière : peut-elle véritablement capturer l’essence humaine présente dans chaque œuvre créative ?

Selon certains experts, le développement rapide de l’IA pourrait permettre la création de jeux et de films entièrement générés par intelligence artificielle d’ici quelques années. Toutefois, l’opinion dominante suggère que le véritable potentiel réside dans l’utilisation de l’IA comme outil d’amélioration de la création humaine plutôt que comme un moyen de la remplacer. Des technologies comme Nvidia ACE, qui permettent de créer des personnages non joueurs plus réalistes, illustrent cette approche complémentaire.

L’équipe derrière WHAMM, composée de membres des divisions Game Intelligence, Xbox Gaming AI et Xbox Certification Team de Microsoft, envisage ce modèle comme une première exploration des expériences de jeu générées en temps réel. Les limitations actuelles, loin d’être perçues comme des échecs, sont considérées comme des opportunités d’amélioration pour les futurs modèles, ouvrant la voie à de nouvelles formes d’expériences interactives.

WHAMM offre un aperçu fascinant des directions futures que pourrait prendre l’industrie du jeu vidéo. Si nous sommes encore loin des jeux entièrement générés par IA offrant une expérience comparable aux productions traditionnelles, cette démonstration prouve que la frontière entre contenu créé par l’homme et contenu généré par machine continue de s’amenuiser rapidement.

Microsoft n’a pas précisé si cette technologie serait intégrée à des produits commerciaux dans un futur proche, mais les applications potentielles dépassent le simple cadre du jeu vidéo. Des systèmes similaires pourraient trouver leur utilité dans la simulation, la formation, la visualisation virtuelle ou encore la création de contenu personnalisé adapté aux préférences individuelles des utilisateurs.

Vous pouvez essayer cette démonstration de Quake II généré par IA directement via Copilot Labs, en cliquant sur ce lien, depuis un navigateur web standard. Malgré ses imperfections, cette expérience offre un aperçu concret et interactif des capacités actuelles de l’IA générative dans le domaine du jeu vidéo.

- Publicité -
Partager cet article