L’informaticien et chercheur à l’Inria est l’expert français le plus cité dans les publications scientifiques portant sur l’IA. Avec Scikit-learn, un programme de machine learning dont il est le cocréateur, il a permis à des millions d’utilisateurs de faire « parler » plus facilement les données.
Publié le 14 décembre 2024 à 17h30
Temps de Lecture 6 min.
Dans certains sports, les entraîneurs désignent des impact players, des joueurs dont l’entrée sur le terrain en cours de match peut le faire basculer. En science aussi, il existe des acteurs « à impact ». Gaël Varoquaux, informaticien à l’Institut national de recherche en sciences et technologies du numérique (Inria), est peut-être de ceux-là. En plus, il est sportif, moniteur fédéral de voile depuis ses 18 ans, skieur de randonnée et adepte d’escalade et des longues balades à vélo.
A 43 ans, il est surtout le chercheur français le plus cité dans le domaine de l’intelligence artificielle (IA). Un article qu’il a cosigné en 2011 est mentionné plus de 62 000 fois dans d’autres travaux, selon la base de données Scopus, quand ceux de Yann Le Cun, autre vedette nationale du domaine, le sont au maximum 60 000 fois.
Pourtant, son **apport n’est pas lié à l’IA générative à la ChatGPT ni même au deep learning (apprentissage profond), qui a révolutionné la reconnaissance d’images. Il s’agit de machine learning, ou apprentissage machine, dont il a contribué à faciliter l’usage en étant coauteur du logiciel le plus utilisé en la matière, Scikit-learn. Cette boîte à outils est truffée de plus de 150 méthodes statistiques pour classer des objets, les regrouper par similarité ou identifier leurs particularités automatiquement. Tout pour faire parler de grandes masses de données, en quelques lignes de code. Scikit-learn est téléchargé environ 80 millions de fois par mois, quand les outils de deep learning, PyTorch ou TensorFlow, des géants Meta et Google, le sont moins de 30 millions de fois, rappelait encore Gaël Varoquaux lors d’un exposé à la conférence dotAI, le 18 octobre, à Paris.
« On oublie que, dans les laboratoires ou les entreprises, les données à étudier ne sont pas des textes ni des images, mais des tableaux de chiffres et pas dans des tailles énormes, déclare le chercheur. Scikit-learn est partout, mais on ne le voit pas. »
Un tel succès n’était pas écrit d’avance, car le chercheur ****a été formé à la physique à l’Ecole normale supérieure, intégrée en 2001, discipline qu’il a suivie jusqu’à sa thèse, soutenue en 2008, au sein du laboratoire d’optique quantique d’Alain Aspect, qui sera Nobel en 2022. « Il était très créatif et dynamique. Il est parti de zéro et a réalisé deux dispositifs expérimentaux, alors qu’on n’en attendait qu’un. On a vite senti son appétence pour les mathématiques et l’informatique », se souvient Philippe Bouyer, chercheur au CNRS, coencadrant du doctorant, qui bidouillait autant les interfaces des ordinateurs que les lasers. Son article le plus notable de cette période porte d’ailleurs plutôt sur les statistiques et s’est révélé « très utile pour nos analyses », souligne Philippe Bouyer.
Ce goût pour l’informatique remonte à sa jeunesse, lors de laquelle il crée ses premiers programmes sur l’ordinateur Thomson TO7 et la calculatrice TI-92. Au laboratoire d’Alain Aspect, il plonge dans le langage python. « Une partie de la motivation était de se passer du logiciel Matlab, un produit commercial », explique celui qui commence alors à mettre les pieds dans une communauté qu’il ne quittera plus, celle du logiciel libre. Il contribue ainsi à plusieurs logiciels, dont Mayavi (visualisation scientifique), Joblib (calcul parallèle) ou IPython, ancêtre du très populaire Jupyter, un bloc-notes électronique. « J’ai même fait des programmes moches », précise ce modeste, gêné à l’idée Le Monde dresse son portrait, « sauf pour dire qu[’il] travaille au sein d’une équipe fantastique ».
Après sa thèse, il poursuit ses recherches en Italie, toujours en optique quantique. A la suite d’un incident expérimental sur le laser, il décide de passer à la programmation. Après trois semaines de réflexion lors d’un trek en Ouzbékistan, il part quelques mois aux Etats-Unis, où il avait vécu, lycéen, lorsque son père, physicien, y travaillait. A l’époque, il y avait découvert les arts plastiques et acquis une sensibilité qu’il cultive encore avec la pratique de la photographie. Il rejoint une start-up, Enthought, qui développe des logiciels libres scientifiques en langage Python. « Le logiciel libre, c’est formidable pour comprendre ce que l’on fait. C’est défini par une licence qui donne plusieurs droits, d’utilisation, de modification, de distribution… Mais ce qui compte le plus, c’est que c’est aussi une communauté », affirme le chercheur, qui a travaillé ainsi avec des collègues du monde entier, dont certains lui suggèrent de s’orienter vers l’imagerie médicale. « L’idée d’appliquer des modèles mathématiques pour comprendre le cerveau m’a attiré », se souvient-il.
« La meilleure chose que j’ai faite, c’est recruter Gaël », salue Bertrand Thirion, également à l’Inria, qui a accueilli son collègue en 2008 après avoir quitté la physique. « Bertrand Thirion m’a dit : “On tente, on trouvera bien à utiliser tes compétences” », se souvient Gaël Varoquaux. Le jeune homme travaille nuit et jour, alternant la programmation, où son agilité impressionne, et l’assimilation de connaissances dans le domaine des neurosciences et de l’imagerie médicale, qu’il découvre.
« Nous avions besoin de nouveaux outils d’analyse. Gaël a vite compris qu’il fallait voir plus loin et ne pas se contenter de développer des logiciels pour nous, mais essayer de convaincre une communauté plus large », rappelle Bertrand Thirion. L’idée de Scikit-learn naît de cette vision, en s’appuyant sur un concept imaginé en 2007 par David Cournapeau. Puis le projet prend de l’ampleur à partir de 2009. Grâce à son ****charisme et à son énergie, le jeune chercheur convainc son employeur ****de recruter des ingénieurs. La mayonnaise prend. Le projet grossit avec la communauté.
Depuis fin 2023, il prend même une nouvelle dimension. Une start-up, Probabl, dont Gaël Varoquaux est cofondateur et conseiller à temps partiel, a été créée pour valoriser le trésor élaboré au sein de l’Inria, qui n’en a pas la propriété. L’entreprise vend déjà des « certifications » en Scikit-learn, sorte de diplôme rassurant pour les entreprises. « Il y avait 600 inscrits dès les premiers jours ! », salue le patron de Probabl, Yann Lechelle.
« Nous voulions mettre dans la main de non-spécialistes les outils pointus du machine learning. Faire du “machine learning sans la machine”, comme on disait », indique Alexandre Gramfort, qui travaille désormais chez Meta. *****« Gaël est techniquement très fort. Scikit-learn est son bébé aussi parce qu’il a su animer la communauté autour et proposer une vision pour le projet »*, complète son ancien collègue. Tout n’est pas affaire de compétences techniques.
La voix douce et l’œil malicieux sont d’ailleurs un peu trompeurs. Gaël Varoquaux est aussi connu pour ne pas avoir sa langue dans sa poche. « Il a des convictions fortes, et je devais parfois arrondir les angles », ajoute avec amusement Alexandre Gramfort. « Il a le sang chaud et peut vite monter dans les tours quand il n’est pas d’accord, mais il est dans le dialogue », témoigne Yann Lechelle. Certains se souviennent qu’il n’a pas apprécié que le rapport sur l’IA de Cédric Villani, en 2018, ne mentionne pas la réussite de Scikit-learn. « Il peut paraître clivant, mais il ne se fâche pas avec les gens », nuance Marine Le Morvan, chercheuse à l’Inria qui encadre avec lui des postdocs.