Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe - Unité de modélisation mathématique et informatique des systèmes complexes Accéder directement au contenu
Pré-Publication, Document De Travail (Preprint/Prepublication) Année : 2024

Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe

Apprentissage auto-supervisé et multilingue appliqué au Wolof, au Swahili et au Fongbe

Résumé

Under-resourced languages face significant challenges in speech recognition due to limited resources and data availability, hampering their development and usage. In this paper, we present a speech recognition model built upon existing frameworks based on self-supervised learning (Contrastive Predictive Coding (CPC), wav2vec and bidirectional version of CPC) by combining them with multilingual learning. This model is experimented on Wolof, Swahili, and Fongbe which are African languages. The results of our evaluation of representations on the automatic speech recognition task, using a similar architecture to DeepSpeech, highlight the model’s capability to discriminate language-specific linguistic features, achieving a Word Error Rate (WER) of 61% for Fongbe, 72% for Wolof and 88% for Swahili.
Les langues sous-dotées sont confrontées à des défis importants en matière de reconnaissance vocale en raison des ressources limitées et de la disponibilité des données, ce qui entrave leur développement et leur utilisation. Dans cet article, nous présentons un modèle de reconnaissance vocale construit à partir de cadres existants basés sur l'apprentissage auto-supervisé (Contrastive Predictive Coding (CPC), wav2vec et la version bidirectionnelle du CPC) en les combinant avec l'apprentissage multilingue. Ce modèle est expérimenté sur le wolof, le swahili et le fongbe qui sont des langues africaines. Les résultats de notre évaluation des représentations sur la tâche de reconnaissance automatique de la parole, en utilisant une architecture similaire à DeepSpeech, mettent en évidence la capacité du modèle à discriminer les caractéristiques linguistiques spécifiques à la langue, atteignant un taux d'erreur de mot (WER) de 61% pour le fongbe, 72% pour le wolof et 88% pour le swahili.
Fichier principal
Vignette du fichier
Papier_ARIMA.pdf (552.45 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04547298 , version 1 (15-04-2024)

Licence

Paternité

Identifiants

  • HAL Id : hal-04547298 , version 1

Citer

Prestilien Djionang Pindoh, Paulin Melatagia Yonta. Self-supervised and multilingual learning applied to the Wolof, Swahili and Fongbe. 2024. ⟨hal-04547298⟩
0 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More