RobotsMali AI4D Lab Dévoile Deux Modèles Open-Source pour la Reconnaissance Vocale en Bambara

RobotsMali AI4D Lab Dévoile Deux Modèles Open-Source pour la Reconnaissance Vocale en Bambara

1. Introduction

La reconnaissance automatique de la parole (ASR) est un domaine en plein essor, mais les langues à faibles ressources, comme le bambara, restent largement absentes des avancées technologiques. Le bambara est une langue véhiculaire majeure en Afrique de l’Ouest, utilisée quotidiennement par des millions de locuteurs. Pourtant, l’absence de modèles ASR performants et accessibles limite son intégration dans les solutions technologiques modernes. Pour pallier ce manque, RobotsMali AI4D Lab a lancé une série d’initiatives et d’expériences desquels on a publié les premiers résultats: deux modèles ASR open-source optimisés pour une utilisation en conditions réelles :

  • Soloni TDT-CTC (114 M) : un modèle hybride possédant deux decoders indépendants, un Token-and-Duration Transducer (TDT) et un Connectionist Temporal Classification (CTC) une version ajustée du modèle Parakeet-tdt-ctc-110m de Nvidia.
  • QuartzNet-15×5 (19 M) : Le plus petit modèle de ASR en Bambara à ce jour, aussi une version ajustée du modèle Open Source de Nvidia du même non.

Ces deux modèles ont été entraînés avec environ 35 heures d’audio bambara semi-professionnellement transcrit. Un rapport des expériences qui ont amené à la publication de ces modèles a également été publié sur la plateform Weights and Biases (https://wandb.ai/yacoudiarra-wl/bam-asr-nemo-training/reports/Draft-Technical-Report-V1–VmlldzoxMTIyOTMzOA ). L’objectif de cette publication est de stimuler la recherche sur la reconnaissance vocale pour les langues à faibles ressources maliennes et dans ce cas spécifiquement le bambara mais également de proposer des modèles beaucoup plus efficients que ceux qui étaient disponibles pour la transcription du bambara. De par les petites tailles, ces deux modèles sont plus adaptés à une utilisation dans un contexte de ressources limitées et offrent quand même des performances intéressantes pour la recherche. 

2. Résumé des performances des Modèles

Le tableau et la figure ci-dessous rapportent les résultats des deux modèles publiés sur l’ensemble de test du dataset bam-asr-all de RobotsMali.

Le métrique utilisé est le Taux d’erreur de mots (Word Error Rate) traditionnel pour l’évaluation des modèles de reconnaissance vocale.

Modèle

Taille (in Million parameters)

WER (TDT Decoder) (%)

WER (CTC Decoder) (%)

Soloni-114 M TDT-CTC

114

66

40.6

QuartzNet-15×5

19

46.5

Le Soloni-114 M avec son décodeur CTC se distingue par la meilleure précision de transcription qui vient au prix d’une plus grande complexité et moins d’interprétabilité comparé à la version ajustée de QuartzNet.

3. Accès Open-Source et Collaboration

Ces modèles et toutes les ressources associées sont accessibles en open-source afin d’encourager la recherche et l’innovation:

Nous invitons les chercheurs et développeurs à tester, affiner et enrichir ces modèles afin d’améliorer continuellement l’ASR pour le bambara et d’autres langues africaines.

4. Conclusion

L’open-source est un levier puissant pour démocratiser l’intelligence artificielle et les technologies vocales dans des contextes sous-dotés en ressources. Cette publication représente une avancée importante pour l’intégration du bambara dans l’écosystème numérique global.

Leave A Comment

FrançaisfrFrançaisFrançais