L’incursion d’Apple dans le monde de l’intelligence artificielle (IA) a été un véritable tourbillon ces derniers mois. Après avoir fait preuve de prudence dans un premier temps, l’entreprise s’est imposée de manière agressive dans ce domaine. Apple Intelligence, dévoilé lors de la WWDC 2024, promet l’intégration de l’IA dans l’ensemble de sa gamme de produits. Apple réalise également des progrès considérables en matière de modèles linguistiques d’IA.
La semaine dernière, l’entreprise a surpris son monde en publiant DCLM-Baseline-7B, un modèle de langage à 7 milliards de paramètres, sur Hugging Face. Ce modèle fait partie d’une initiative plus large appelée DataComp for Language Models (DCLM). Ce benchmark vise à améliorer la qualité des ensembles de données d’entraînement, un facteur essentiel pour le développement de modèles de langage puissants.
Avec 7 milliards de paramètres, DCLM-Baseline-7B se place confortablement aux côtés de modèles populaires tels que Llama 2 et Gemma. L’évaluation comparative de modèles de taille similaire dans le cadre du test Massive Multitask Language Understanding (MMLU) a révélé des performances impressionnantes. DCLM-Baseline-7B a même surpassé Mistral 7B, démontrant ainsi son avantage concurrentiel.
Ce qui distingue vraiment DCLM-Baseline-7B, cependant, c’est son engagement envers les principes du logiciel libre. Comme le souligne Vaishaal Shankar, chercheur chez Apple, le modèle se targue d’avoir “des données ouvertes, des modèles de poids ouverts, un code d’entraînement ouvert”. Cette transparence permet à d’autres chercheurs et développeurs de s’appuyer sur les travaux d’Apple, ce qui accélère les progrès dans ce domaine. Cette approche a été largement saluée, beaucoup reconnaissant le potentiel de progrès significatifs lorsque les connaissances sont partagées librement.
DCLM-Baseline-7B n’a pas été formé uniquement à des tâches linguistiques. En incorporant des données provenant de DCLM-BASELINE, de StarCoder et de ProofPile2, le modèle a acquis des compétences dans des domaines tels que le codage et les mathématiques, démontrant ainsi sa polyvalence. La générosité d’Apple ne se limite pas au modèle à 7 milliards de paramètres. La version publiée comprend également une version à 1,4 milliard de paramètres, ainsi que les poids du modèle, le code d’entraînement et l’ensemble de données utilisé pour l’entraînement.
Ce n’est pas la première incursion d’Apple dans les modèles d’IA. La société a déjà publié Ferret-UI, un modèle de langage multimodal à grande échelle (MLLM), et ReALM, un système d’intelligence artificielle conversationnelle. Avec la sortie à l’automne d’iOS 18 et d’Apple Intelligence, nous assisterons à l’entrée à part entière d’Apple dans l’espace de l’IA, ce qui nous permettra d’évaluer réellement le potentiel de ses efforts ambitieux.