Skip to content

Latest commit

 

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 

README.md

Groupe de travail pour Common Voice en français

Table des matières

Vous trouverez dans ce document l’ensemble des instructions, documentations… pour le projet Common Voice.

Introduction

Le projet Common Voice est une initiative de Mozilla pour aider à apprendre aux machines comment les humains parlent vraiment. Il va permettre de collecter des données pour fournir du contenu aux algorithmes comme Deep Speech.

Canaux

Participer à Common Voice

La voix

Il est possible de parler et d’écouter des voix pour faire grossir la base de données.

Proposer et valider de nouvelles phrases

Plusieurs étapes :

  1. Vous devez posséder un compte sur Common Voice.
  2. Identifiez-vous sur le Collecteur de phrases avec vos identifiants de Common Voice.
  3. Pour valider les phrases, il faut utiliser la page de validation.
  4. Si vous souhaitez ajouter de nouvelles phrases, vous devez vous rendre sur Ajouter une nouvelle phrase

Processus pour Common Voice fr

C’est un processus en deux grosses étapes :

  1. Construction d’un corpus de texte à faire lire (voir les contraintes ci-dessous).

  2. Contribution vocale :

  • différents genres
  • différents âges
  • différents accents
  1. Une fois collectées suffisamment de variétés et de quantité (des centaines d'heures d'audio), il faut construire des ensembles pour l'apprentissage du modèle français.

Étape en cours

Le corpus de texte est suffisant pour collecter de la données vocale. De nouvelles sources de texte sont toujours bienvenues, cependant. Pour en discuter https://discourse.mozilla.org/c/voice/fr.

Construction du corpus de texte

Méthode

Pour construire initialement et continuer à améliorer le corpus de texte, le processus est :

  • Identification d'un jeu de données intéressant (licence, volume)
  • Écriture d'un outil d'importation avec les paramètres adéquats (filtrage, etc.)
  • Transformation de la source complète en texte brut UTF-8 importé dans CommonVoice-data/
  • Envoi sur Sentence Collector pour validation et inclusion : https://common-voice.github.io/sentence-collector/

Contraintes

  • Common Voice redistribue en CC0. Il faut donc des corpus de texte compatibles.
  • Texte représentatif (dialogues de film, débats, théâtre).
  • Différents registres de langue nécessaires.
  • Normalisation des nombres (chiffres romains aussi).
  • Voir commonvoice-fr pour du code qui normalise proprement le texte.

Sources de données en CC0

Les sources des données sont disponibles à partir du projet Common Voice Data

Liens à garder pour plus tard

Rajouter des phrases

https://common-voice.github.io/sentence-collector/#/add