Philippe Gambette – Utiliser et enrichir Wikisource, Wikidata et Wikipédia pour une science ouverte et inclusive

Jeudi 18 avril 2024 de 14h0 à 15h30

Amphi Ircica – 50 avenue Halley – Haute Borne – Villeneuve d’Ascq

 

La bibliothèque numérique collaborative Wikisource peut être utilisée, aux côtés d’autres bibliothèques électroniques comme le projet Gutenberg, comme une source de textes pour des projets de recherche en traitement automatique des langues ou en humanités numériques. Un usage comme source de données textuelles pour créer des « corpus de convenance » mérite de connaitre les biais éventuels des contenus de la plateforme, notamment en ce qui concerne le biais de genre des auteurs. Nous verrons comment, en nous appuyant sur des approches similaires à celles mises en place par le collectif des sans pagEs sur Wikipedia, il est possible d’évaluer ces biais, notamment en utilisant la base de données collaborative Wikidata puis d’y remédier. Nous présenterons plusieurs initiatives menées dans le cadre de projets de recherche à l’université Gustave Eiffel, en partenariat avec l’association Le deuxième texte, pour enrichir les corpus avec des textes écrits par des femmes. Nous illustrerons enfin de quelle manière Wikidata peut aussi être utilisée pour mettre à disposition des données de la recherche, en servant de base de données pivot, dans une approche de science ouverte.

Bio:

Philippe Gambette est maître de conférences en informatique à l’Université Gustave Eiffel. Ses recherches au LIGM, Laboratoire d’informatique Gaspard-Monge, portent sur l’algorithmique pour les humanités numériques et la bio-informatique.  Il travaille sur les réseaux phylogénétiques pour reconstruire l’évolution lorsque le matériel génétique est transféré entre des espèces coexistantes. Ses travaux en humanités numériques portent notamment sur la construction d’outils de représentation des relations de similarité ou de proximité entre les textes d’un corpus ou à l’intérieur d’un texte. L’utilisation d’algorithmes d’alignement automatique inspirés de la bio-informatique l’a également amené à contribuer à de nouvelles méthodes de modernisation automatique des textes du XVIIe siècle. Il s’intéresse tout particulièrement aux femmes écrivains : après avoir coordonné le projet de recherche VisiAutrices en 2017-2019 (https://visiautrices.hypotheses.org, CNRS, RnMSH), il a codirigé, avec Caroline Trotot, le projet de recherche Cité des Dames, créatrices dans la cité, financé par le programme ISITE FUTURE de l’Université Gustave Eiffel (citedesdames.hypotheses.org, 2019-2023). Il a été chargé de mission open science pour son université en 2019 et de 2021 à 2022, et est chargé de mission égalité femmes-hommes, avec Bénédicte François, à la ComUE Paris-Est Sup, depuis 2021.

Les commentaires sont fermés.