- Introduction
- Canaux
- Participer à Common Voice
- Processus pour Common Voice fr
- Liens à garder pour plus tard
- Rajouter des phrases
Vous trouverez dans ce document l’ensemble des instructions, documentations… pour le projet Common Voice.
Le projet Common Voice est une initiative de Mozilla pour aider à apprendre aux machines comment les humains parlent vraiment. Il va permettre de collecter des données pour fournir du contenu aux algorithmes comme Deep Speech.
- Common Voice fr sur Matrix pour la discussion et la coordination : s’inscrire au groupe
- Discourse Mozilla Francophone
- Discourse Mozilla (anglais)
Il est possible de parler et d’écouter des voix pour faire grossir la base de données.
Plusieurs étapes :
- Vous devez posséder un compte sur Common Voice.
- Identifiez-vous sur le Collecteur de phrases avec vos identifiants de Common Voice.
- Pour valider les phrases, il faut utiliser la page de validation.
- Si vous souhaitez ajouter de nouvelles phrases, vous devez vous rendre sur Ajouter une nouvelle phrase
C’est un processus en deux grosses étapes :
-
Construction d’un corpus de texte à faire lire (voir les contraintes ci-dessous).
-
Contribution vocale :
- différents genres
- différents âges
- différents accents
- Une fois collectées suffisamment de variétés et de quantité (des centaines d'heures d'audio), il faut construire des ensembles pour l'apprentissage du modèle français.
Le corpus de texte est suffisant pour collecter de la données vocale. De nouvelles sources de texte sont toujours bienvenues, cependant. Pour en discuter https://discourse.mozilla.org/c/voice/fr.
Pour construire initialement et continuer à améliorer le corpus de texte, le processus est :
- Identification d'un jeu de données intéressant (licence, volume)
- Écriture d'un outil d'importation avec les paramètres adéquats (filtrage, etc.)
- Transformation de la source complète en texte brut UTF-8 importé dans
CommonVoice-data/ - Envoi sur Sentence Collector pour validation et inclusion : https://common-voice.github.io/sentence-collector/
- Common Voice redistribue en CC0. Il faut donc des corpus de texte compatibles.
- Texte représentatif (dialogues de film, débats, théâtre).
- Différents registres de langue nécessaires.
- Normalisation des nombres (chiffres romains aussi).
- Voir
commonvoice-frpour du code qui normalise proprement le texte.
-
http://data.assemblee-nationale.fr/
- Licence ≃ CC0, avec attribution
- Débats en XML
- Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
- ~1.4M phrases, 35M mots, 110k mots uniques
- ~40k mots importés sur Crowdin (20180511)
-
- Licence domaine public
- HTML, ePUB, Kindle et texte brut (UTF-8)
- Parser qui commence à fonctionner : https://github.com/Common-Voice/commonvoice-fr
- Premiers essais, 1 000 livres extraits au hasard sur la langue française
- ~2,2M phrases, 42M mots, 430k mots uniques
-
- Licence domaine public
- HTML, texte brut (UTF-8)
- À PARSER
-
- Licence domaine public
- HTML, texte brut (UTF-8)
- Parser en cours https://github.com/Common-Voice/commonvoice-fr
-
- Différentes licences, dont certains livres en CC0
- epub, LaTeX, PDF
- Parser en cours https://github.com/Common-Voice/commonvoice-fr
-
http://www.inlibroveritas.net/
- Licence Art Libre – LAL 1.3
- PDF À PARSER
Les sources des données sont disponibles à partir du projet Common Voice Data
- Corpus vocaux scientifiques en français sur Ortolang
- http://golem13.fr/5000-films-tombes-dans-le-domaine-public-a-telecharger-gratuitement/
- https://www.apar.tv/cinema/700-films-rares-et-gratuits-disponibles-ici-et-maintenant/