Les expressions régulières dans Fonology (i)

Une introduction au expressions régulières pour la transcription phonémique du français

Fonology

regex

CRSH

SSHRC

Auteur·rice

Matéo Lévesque

Date de publication

9 mars 2026

Read in English

Le rôle des statistiques lexicales et post-lexicales dans l’acquisition d’une langue seconde

Comment identifier les patrons phonologiques d’une langue à partir de données écrites?

Nous voyons du texte partout, ce qui peut laisser croire que la collecte de données n’a jamais été aussi simple. Le problème réside dans le décalage bien connue entre les lettres (graphèmes) et les sons (phonèmes) : il est impossible de comprendre pleinement les systèmes phonologiques en se contentant d’examiner la distribution des lettres dans un corpus donné. Ainsi, pour identifier les patrons phonologiques, il faut d’abord convertir les graphèmes en phonèmes.

Cette série est consacrée à un projet financé par le CRSH (subvention no 141280) qui examine comment les statistiques lexicales peuvent être exploitées afin de générer une base de comparaison avec des données expérimentales. Une partie de ce projet implique le développement d’outils de conversion graphème-phonème (il est en effet très difficile d’analyser les patrons phonologiques dans des données écrites sans accès à une transcription phonétique). La bibliothèque R Fonology est directement liée à ce projet et couvre le portugais, le français, l’italien et l’espagnol. Matéo Levesque a travaillé sur des scripts de conversion graphème-phonème pour le français. Les articles de cette série s’inscrivent dans les efforts de mobilisation des connaissances du projet.

Guilherme D. Garcia

Qu’est-ce qu’est une expression régulière?

Les expressions régulières (ou regex) sont utilisés en informatique pour valider le format d’une chaîne de caractères ou pour trouver une suite précise de chiffre, de lettres ou de symboles dans du texte. On les utilise souvent pour vérifier qu’une adresse courriel a le bon format ou pour s’assurer de la robustesse d’un mot de passe. Elles peuvent aussi être particulièrement utiles pour le nettoyage de données ou pour supprimer ou remplacer certains mots d’un texte.

Pour Fonology, nous avons utilisé les expressions régulières affin de faciliter la transcription phonémique en établissant un ensemble de généralisations orthographiques que nous pouvions cibler avec les regex, puis les remplacer par les phonèmes correspondants. On parle ici de la conversion graphème-phonème, cruciale pour l’analyse phonologique des données textuelles.

Le projet

Le but du projet est de rendre accessible la compilation de bases de données grâce auxquelles il serait possible d’émettre des hypothèses concernant les grammaires phonologiques de locuteurs natifs ou non natifs. Le problème est que plusieurs bases de données en ligne ne sont pas codées pour l’analyse phonologique. L’extension Fonology vise donc à remédier à ce problème en permettant de transformer un corpus textuel en base de données codée phonologiquement. Ici, nous nous concentrons sur le français, mais Fonology couvre également le portugais, l’espagnol et l’italien.

Pourquoi utiliser les expressions régulières dans un projet comme celui-ci?

Comme mentionné plus haut, les expressions régulières sont un excellent outil pour remplacer des suites précise de caractères dans un texte. On peut envisager appliquer ce type de remplacement dans le cadre de la transcription phonémique. On peut cibler des caractères qui représentent toujours le même son et les changer par les symboles API appropriés.

Par exemple, des caractères comme « é », « oi » ou « rr », sont toujours transcrit respectivement par les symboles /e/, /wa/ et /ʁ/ (en français). Toutefois, dans certains cas, les caractères ciblés ne se transcrivent pas toujours par les même symboles. C’est le cas de « ch », qui peut être transcrit comme /ʃ/ ou /k/, et parfois même /tʃ/. C’est ici que les expressions régulières sont particulièrement puissantes.

En effet, grâce au regex, on peut spécifier que les « ch » suivis de « r » ou « l » (dans des mots comme « chrome », « chronologie » ou « chlore ») doivent être remplacés par /k/, tandis que les autres occurrences de « ch » doivent être remplacées par /ʃ/. Puis, à l’aide de quelques autres généralisations, on arrive à produire une transcription d’une précision satisfaisante.

Cette méthode permet d’appliquer rapidement ce genre règles de transcription, contrairement à des approches comme l’apprentissage automatique, qui nécessite une grande quantité de données transcrites pour qu’un modèle puisse apprendre efficacement. Une telle approche serait contre-productive dans le cadre de notre projet, puisque nous tentons justement de compiler des données phonologiques. Ça explique donc pourquoi nous avons choisi cette méthode.

Ensuite ?

Ceci n’est qu’une brève introduction au concept des expressions régulières. Dans les deux prochains articles, nous verrons :

Comment les expressions régulières ont été utilisées dans Fonology
Quelles sont les difficultés et les limites des expressions régulières dans la transcription phonémique

Liens utiles

Aide-mémoire sur les regex