Évaluation des traductions humaines du français au bambara pour l'apprentissage automatique : une étude pilote
Bayɛlɛmabaga est un mot en bambara, la langue la plus parlée au Mali, qui signifie “traducteur”. Bayɛlɛmabaga est un projet collaboratif qui vise à appliquer le traitement automatique du langage naturel — en anglais : Natural language processing (NLP) — au bambara et, ultimement, à toutes les autres langues nationales du Mali. Toutes ces langues manquent de ressources (les textes écrits et bilingues). Elles sont confrontées au défi du rassemblement de données suffisantes pour entraîner les systèmes de NLP à l’aide de techniques d’apprentissage profonde.
Bayɛlɛmabaga développe des techniques pour amasser des données en utilisant le crowdsourcing et d’autres nouvelles méthodes d’acquisition et de nettoyage des données. Les participants actuels à Bayɛlɛmabaga comprennent des chercheurs du Rochester Institute of Technology et d’Orange aux États-Unis et, au Mali, des linguistes de l’AMALAN (Académie Malienne des Langues), des technologues de RobotsMali, Le Centre National de l’Education en Robotique et en Intelligence Artificielle et du Ministère de l’Education Nationale, de l’Enseignement Supérieur et de la Recherche Scientifique.
Bayɛlɛmabaga s’efforce de devenir un projet national du Mali dans le cadre de son initiative visant à utiliser la science et la technologie pour faire progresser son éducation et son développement économique. 80% des Maliens ne maîtrisent pas la langue officielle du pays, le français, et ils n’ont pas, en conséquence, accès aux ressources d’information qui pourraient les aider à contribuer davantage au développement national. La promotion des langues nationales est donc un objectif officiel du gouvernement malien et Bayɛlɛmabaga est un outil qui peut accélérer leur utilisation généralisée et efficace.