Les expressions régulières dans Fonology

Leur utilisation pour la transcription phonémique

R
regex
Fonology
CRSH
SSHRC
Auteur·rice

Matéo Lévesque

Date de publication

5 avril 2026

Read in English

AstuceLe rôle des statistiques lexicales et post-lexicales dans l’acquisition d’une langue seconde

Comment identifier les patrons phonologiques d’une langue à partir de données écrites?

Nous voyons du texte partout, ce qui peut laisser croire que la collecte de données n’a jamais été aussi simple. Le problème réside dans le décalage bien connue entre les lettres (graphèmes) et les sons (phonèmes) : il est impossible de comprendre pleinement les systèmes phonologiques en se contentant d’examiner la distribution des lettres dans un corpus donné. Ainsi, pour identifier les patrons phonologiques, il faut d’abord convertir les graphèmes en phonèmes.

Cette série est consacrée à un projet financé par le CRSH (subvention no 141280) qui examine comment les statistiques lexicales peuvent être exploitées afin de générer une base de comparaison avec des données expérimentales. Une partie de ce projet implique le développement d’outils de conversion graphème-phonème (il est en effet très difficile d’analyser les patrons phonologiques dans des données écrites sans accès à une transcription phonétique). La bibliothèque R Fonology est directement liée à ce projet et couvre le portugais, le français, l’italien et l’espagnol. Matéo Levesque a travaillé sur des scripts de conversion graphème-phonème pour le français. Les articles de cette série s’inscrivent dans les efforts de mobilisation des connaissances du projet.

Guilherme D. Garcia

Introduction

Comme nous l’avons vu dans l’article précédent, le but de la transcription dans Fonology est de prendre des données textuelles en français et de les coder phonologiquement. Dans cet article, nous approfondirons comment utiliser les regex pour faire de la transcription phonémique en français.

La transcription

La transcription se découpe en plusieurs étapes importantes qui ont une organisation précise. Ces étapes sont : le nettoyage, la gestion des exceptions, l’application des règles de transcription et un nettoyage final.

Nettoyage

Avant de transcrire les mots, il faut nettoyer les données. Pour ce faire, on change tous les caractères pour leur équivalent en minuscules et on enlève toutes les marques de ponctuation. Une fois que le nettoyage est fait, on peut commencer la transcription.

Exceptions

En français, l’orthographe est relativement généralisable,1 mais il reste que plusieurs mots ont une orthographe particulière. Ces mots uniques, comme “monsieur”, “hier” ou “yeux”, doivent être transcrits en premier si on veut éviter que nos règles de transcription remplacent l’orthographe qui nous permet de les identifier.

Application des règles

Il serait impossible de présenter toutes les règles qui ont été utilisées dans le module. Les règles suivantes sont donc des exemples qui servent à expliquer les concepts de base utiles pour comprendre le processus.

Il y a des lettres (et groupes de lettres) qui sont assez simples à transcrire, comme :

  • “â” –> /ɑ/
  • “gn” –> /ɲ/
  • “oy” –> /waj/
  • etc.

Ces graphèmes sont réguliers, donc très faciles à transcrire2. Par contre, pour les autres règles, il faut être un peu plus vigilant. L’ordre d’application des règles est, en règle générale, très important. Par exemple, prenons deux règles :

  • A : “u” –> /y/
  • B : “ou” –> /u/

Si on applique la règle A avant la règle B, il n’y a pas de problème. Cependant, si on applique la règle B avant la règle A, tous les “u” deviendront des /y/, puisque le programme ne fait pas la différence entre le caractère “u” et le phonème /u/.3

Les remplacements temporaires

Dans certains cas, même le fait de changer l’ordre des règles ne corrige pas les erreurs. Pour remédier à cela, nous avons utilisé des remplacements temporaires. Cette méthode offre la possibilité de spécifier si une lettre a déjà été transcrite ou non. Par exemple, prenons les règles suivantes :

  • A : “ées”, “és”, “ée” et “é”4 –> /e/
  • B : “e” –> /ə/

Pour l’instant, les règles sont dans un ordre problématique, parce que la règle A perdra son effet à cause de la règle B. Cependant, si on tente de réorganiser les règles, on observe encore un problème : “ées” et “ée” seront transcrits comme /eə/. C’est donc dans des cas comme celui-ci qu’on peut utiliser les remplacements temporaires.

En conservant l’ordre décrit plus haut, on peut modifier la règle A comme suit :

  • A : “ées”, “és”, “ée” et “é” –> “E”
  • B : “e” –> /ə/

De ce fait, la règle B ne cible plus le résultat de la règle A, puisque celui-ci est une majuscule.

Nettoyage final et dernières transcriptions

Si on utilise les remplacements temporaires, on obtient un résultat fonctionnel, mais qui n’est pas une transcription phonémique. Il faut donc s’assurer de changer les caractères temporaires pour le bon phonème. C’est aussi dans cette section de la transcription que les consonnes géminées sont réduites à leur équivalent non géminé. Par exemple : “tt” –> /t/.

Conclusion

Donc, dans l’ordre :

  1. On nettoie les données.
  2. On gère les exceptions.
  3. On applique les règles qui ont une priorité (pour ne pas réécrire nos transcriptions).
  4. On applique le reste des règles dont l’ordre importe peu.
  5. On convertit les remplacements temporaires vers les phonèmes appropriés.
  6. On finalise les dernières transcriptions.

C’est ce qui résume le fonctionnement de la transcription phonémique du français dans Fonology.

Bien que des solutions aient été proposées aux problèmes présentés plus haut, la transcription peut parfois être erronée. Dans le prochain article, nous verrons quels sont les autres problèmes difficiles à gérer avec les expressions régulières. Nous verrons aussi certaines limitations de cette méthode.

Copyright © Guilherme Duarte Garcia

Notes de bas de page

  1. Le français exige une fenêtre d’analyse fréquemment plus longue que celle utilisée en portugais ou en espagnol, par exemple, où un seul caractère est souvent remplacé par un symbole phonétique non ambigu.↩︎

  2. En effet, si nous avions une langue dont l’orthographe représentait parfaitement les sons, les expressions régulières permettraient une transcription parfaite (100 % de précision)↩︎

  3. Il y a donc un parallèle entre l’application des règles de remplacement (regex) et les règles phonologiques.↩︎

  4. Ici, j’exclus volontairement les mots finissant par “er”, “ai”, “ez” et autres pour des raisons de simplicité et d’économie.↩︎