Mercredi, Perplexity a dévoilé une mise à jour majeure de son outil Deep Research, qui fonctionne désormais avec le modèle Claude Opus 4.5 d’Anthropic. La société californienne, spécialisée dans la recherche assistée par intelligence artificielle, a également publié DRACO, un nouveau benchmark open source conçu pour évaluer les capacités réelles des agents de recherche approfondie par rapport à des concurrents tels que Google Gemini et OpenAI.
| 📌 Repères clés |
|---|
| 🚀 Outil : Deep Research mis à jour avec Claude Opus 4.5 🧪 Benchmark : DRACO (100 tâches réelles, 10 domaines) 📊 Score Perplexity : 67,15 % (devant Gemini et OpenAI) ⏱️ Latence moyenne : 459,6 secondes (la plus faible du comparatif) 🧠 Forces clés : précision factuelle, profondeur d’analyse, qualité des citations 🌍 Sources analysées : données issues de 40 pays sur 5 continents 🔓 Approche : benchmark entièrement open source (Hugging Face) |
Deep Research adopte Claude Opus 4.5 pour les tâches de recherche complexes
La nouvelle version de Deep Research intègre Claude Opus 4.5, combiné au moteur de recherche propriétaire de Perplexity et à son infrastructure sandbox. Cette architecture permet d’exploiter les capacités de raisonnement avancées du modèle d’Anthropic tout en maintenant une connexion directe avec les sources d’information en temps réel. La mise à jour est immédiatement disponible pour les abonnés Max et sera déployée progressivement pour les utilisateurs Pro dans les prochains jours.
L’entreprise a confirmé que Deep Research intégrerait les modèles de raisonnement les plus récents au fur et à mesure de leur sortie. Cette approche modulaire constitue une différence notable par rapport aux solutions concurrentes, qui restent liées à des modèles spécifiques. Le choix de Claude Opus 4.5 répond aux exigences techniques des tâches de recherche complexes nécessitant des sessions autonomes prolongées et une gestion sophistiquée du contexte.
DRACO : un benchmark open source conçu pour évaluer la recherche IA en conditions réelles
Le benchmark DRACO (Deep Research Accuracy, Completeness, and Objectivity) est une approche inédite pour évaluer les performances des systèmes de recherche IA. À la différence des benchmarks traditionnels qui testent des compétences isolées, comme la récupération factuelle ou les questions triviales, DRACO évalue des tâches complexes et ouvertes qui reflètent les besoins réels des utilisateurs.
Le benchmark se compose de 100 tâches réparties en 10 domaines : académique, finance, droit, médecine, technologie, connaissances générales, design UX, assistant personnel, shopping et recherche ciblée. Les tâches sont issues d’un échantillon anonymisé de requêtes réelles effectuées par les utilisateurs de Perplexity Deep Research entre septembre et octobre 2025. Cette méthodologie garantit que les évaluations correspondent à des cas d’utilisation pratiques plutôt qu’à des exercices théoriques.
Chaque tâche est évaluée selon environ 40 critères définis par des experts, couvrant quatre dimensions principales : la précision factuelle, l’étendue et la profondeur de l’analyse, la qualité de la présentation et la qualité des citations. La conception de ces critères a mobilisé 26 experts de différents domaines, parmi lesquels des professionnels de la santé, des avocats, des analystes financiers, des ingénieurs logiciels et des designers.
Perplexity devance Google Gemini et OpenAI sur les performances de recherche approfondie
Selon les résultats publiés par Perplexity, Deep Research obtient un score normalisé de 67,15 %, devançant Google Gemini Deep Research (58,97 %) et OpenAI Deep Research (52,06 %). Les écarts de performance les plus importants apparaissent dans les domaines médical, des connaissances générales et technologique, où Perplexity surpasse le deuxième meilleur système de 9 à 12 points de pourcentage.
Les performances absolues les plus élevées de Perplexity sont enregistrées en droit (86,0 %) et dans le domaine académique (80,2 %). Le classement reste cohérent quel que soit le modèle utilisé pour l’évaluation, y compris GPT-5.2 et Sonnet-4.5, même si les scores absolus varient.
Le benchmark mesure également les compromis en termes d’efficacité. Perplexity Deep Research affiche la latence moyenne la plus faible, à 459,6 secondes, tout en maintenant les scores de précision les plus élevés. OpenAI Deep Research 3 affiche la latence la plus élevée, à 1 808,1 secondes, tandis que Gemini Deep Research se situe à 592,2 secondes.
Suivez toute l’actualité d’Essential Homme sur Google Actualités, sur notre chaîne WhatsApp, ou recevoir directement dans votre boîte mail avec Feeder.
Une méthodologie de benchmark fondée sur des requêtes utilisateurs réelles
La construction du benchmark DRACO suit un processus en cinq étapes garantissant la rigueur et la représentativité. Les requêtes brutes sont d’abord échantillonnées, puis prétraitées pour éliminer les informations personnellement identifiables. Elles sont ensuite augmentées pour ajouter du contexte et élargir la portée, filtrées pour ne conserver que les tâches objectives et difficiles, puis curées manuellement par des experts.
L’augmentation systématique des requêtes transforme des questions ambiguës en tâches de recherche bien définies. Par exemple, une requête initiale sur les caméras moyen format se transforme en une comparaison détaillée qui spécifie le contexte professionnel, les exigences techniques précises et les considérations budgétaires sur trois ans. Cette approche reflète la manière dont les utilisateurs experts formulent leurs besoins lors d’une utilisation réussie de Deep Research.
Les tâches couvrent des sources d’information provenant de 40 pays répartis sur cinq continents. Cette diversité géographique garantit que le benchmark teste la capacité des systèmes à naviguer dans des environnements informationnels hétérogènes, avec des sources locales variées.
Précision, profondeur, citations : analyse détaillée des critères de performance
L’analyse par dimension de critères révèle que Perplexity Deep Research obtient les meilleurs taux de réussite dans trois catégories sur quatre : précision factuelle (60,1 %), étendue et profondeur de l’analyse (77,2 %) et qualité des citations (76,0 %). Seule la qualité de présentation voit Gemini Deep Research légèrement en tête, avec 92,1 % contre 91,4 % pour Perplexity.
Les écarts les plus significatifs entre Perplexity et le deuxième meilleur système concernent l’étendue et la profondeur de l’analyse, ainsi que la qualité des citations, avec 11,6 points de pourcentage d’avance dans les deux cas. Ces dimensions sont particulièrement importantes pour les applications professionnelles, où la fiabilité et la traçabilité des informations sont essentielles.
La répartition des critères d’évaluation montre que la précision factuelle représente la majorité des tests, avec en moyenne 20,5 critères par tâche, suivie de l’analyse approfondie (8,6 critères), de la qualité de présentation (5,6 critères) et de la qualité des citations (4,8 critères). Cette concentration sur la factualité souligne l’importance de cette dimension pour distinguer les capacités des systèmes.
La stratégie de Perplexity face à Google et OpenAI sur le marché de la recherche IA
Cette annonce intervient après la signature, en janvier 2026, d’un contrat cloud de 750 millions de dollars entre Perplexity et Microsoft. L’entreprise positionne Deep Research comme un élément central de sa stratégie pour fournir des analyses de recherche de qualité qui rivalisent avec les offres de Google et d’OpenAI.
Le PDG de Perplexity, Aravind Srinivas, a reconnu que la précision des données était un impératif absolu pour les applications financières à enjeux élevés. Cette prise en compte des exigences spécifiques à chaque domaine se reflète dans la conception de DRACO, qui adapte la complexité de l’évaluation en fonction des secteurs, avec 47,6 critères en moyenne par tâche pour la finance, contre 30,2 pour les tâches de recherche ciblée.
DRACO open source : vers un nouveau standard industriel de la recherche IA
Perplexity a rendu DRACO entièrement open source en publiant le benchmark, les critères d’évaluation et la méthodologie. Le jeu de données est disponible sur Hugging Face à l’adresse suivante : https://hf.co/datasets/perplexity-ai/draco. Cette ouverture vise à établir un nouveau standard pour évaluer les agents de recherche et pourrait accélérer les améliorations à l’échelle du secteur en matière de synthèse et d’objectivité.
La publication du benchmark complet permet aux chercheurs et aux entreprises concurrentes d’évaluer leurs propres systèmes selon les mêmes critères. Cette transparence contraste avec les pratiques habituelles du secteur, où les benchmarks internes restent confidentiels. Cette approche pourrait influencer la recherche et le développement de benchmarks plus rigoureux au cours des 12 à 24 prochains mois, alors que les concurrents adoptent des tests similaires.



