Julie Fontecave-Jallon


 

 
 
 
 
 
 
 
 
 
 
 
Site personnel Julie Fontecave-Jallon : travaux de doctorat

Travaux de doctorat

Extraction des mouvements du conduit vocal à partir de données cinéradiographiques


La radiographie a été pendant longtemps l’une des principales techniques d’acquisition de données articulatoires en offrant la possibilité d’obtenir une vue sagittale complète des articulateurs du conduit vocal, de la glotte jusqu’aux lèvres. Devenue dynamique à la fin des années 1950, sous le terme de cinéradiographie, elle permet l’observation des mouvements des articulateurs de la parole avec une résolution temporelle importante, de l’ordre de 60 ips (images par seconde). Depuis quelques années, pour des questions de déontologie, on n’enregistre plus de nouveaux films radiologiques du conduit vocal. La cinéradiographie ayant fait la preuve de son utilité pour la recherche scientifique, il est nécessaire de pouvoir continuer à utiliser les données existantes en préservant les films.  C’est dans ce contexte que Munhall et coll. [1] ont réalisé la base ATR  « X-ray film database for Speech Research ». Soutenu par le programme « Ingénierie des Langues » du CNRS, l’Institut de Phonétique de Strasbourg et l’Institut de la Communication Parlée de Grenoble ont aussi élaboré une base de données cinéradiographiques du français incluant les séquences Wioland et Flament [2].
L’extraction de données géométriques à partir de films radiologiques est généralement réalisée manuellement, mais on doit faire face à de grandes quantités de données pour traiter la moindre séquence. L’extraction automatique des contours de la langue fût envisagée par Laprie et Berger [3] pour exploiter au mieux ces grandes bases. Mais jusqu’à présent, seuls les travaux de Thimm et Luettin [4] ont aboutis au traitement complet d’un film issu de la base ATR (Laval43).
En vue d’améliorer cette situation, nous avons mis en place une méthode semi-automatique applicable film par film et qui combine le marquage manuel et la reconstruction automatique du mouvement.  Cette technique [5] est basée sur une adaptation de l’algorithme de rétro-marquage [6], dont le principe est d’associer des paramètres implicites et extraits du signal vidéo à des paramètres géométriques contrôlés et définis a posteriori, plutôt que d’extraire directement des données géométriques. Pour estimer les mouvements de langue, la méthode se décompose en 3 étapes : (1) le traitement manuel d’un nombre restreint d’images clefs qui permet de définir des paramètres géométriques (ici le contour de la langue), (2) une étape automatique d’indexation de la base à partir de ces mêmes images clefs réduites et cadrées, qui a pour but d’associer à chacune des images de la base le marquage géométrique et (3) des traitements postérieurs de régularisation. A noter que le rétro-marquage peut être rendu entièrement automatique lorsque les informations géométriques sont extractibles dans les images clefs. Mais dans le cas de la langue, cette tâche très difficile même pour l’expert humain est dévolue au marquage manuel dans des conditions de facilitation que nous décrirons par la suite.
A l’heure actuelle, cette méthode a aisément été appliquée avec succès sur plusieurs films radiographiques. Elle a été adaptée pour différents articulateurs, de façon à tirer profit des différentes bases : d’abord sur Wioland pour la mise au point(langue), puis sur le film Flament (langue et vélum) et enfin, sur l’une des séquences de la base de données d’ATR, Laval43 (conduit vocal complet).

Mots clés
Cinéradiographie, Conduit Vocal, Analyse de données vidéo, Mouvement, Langue, Vélum

Reconstruction du mouvement (vidéos Windows Media Player)
Langue - base Wioland (wmv)
Vélum - base Flament (wmv)
Conduit vocal complet - séquence Laval43 (wmv)

Liens vers d’autres vidéos (nécessitant l’utilisation d’un logiciel flash)

Langue - base Wioland
Langue - base Laval43
Vélum - base Laval43
Lèvres - base Laval43

Conduit vocal complet - séquence Laval43
Sections du conduit vocal complet - séquence Laval43

 



[1]

K.G. Munhall, E. Vatikiotis-Bateson & Y. Tohkura. X-ray Film database for speech research. Journal of the Acoustical Society of America, 98 : 1222-1224, 1995.

[2]

A. Arnal, P. Badin, G. Brock, P.-Y. Connan, E. Florig, N. Perez, P. Perrier, P. Simon, R. Sock, L. Varin, B. Vaxelaire & J.-P. Zerling. Une base de données cinéradiographiques du français. XXIIIèmes Journées d'Etude sur la Parole, pages 425-428, 2000.

[3]

Y. Laprie & M.-O. Berger. Extraction of Tongue Contours in X-Ray Images with Minimal User Interaction. In Proc. Int. Conf. on Spoken Language Processing, volume 1, pages 268-271 , 1996.

[4]

G. Thimm & J. Luettin. Extraction of articulators in X-ray image sequences. In Proc. Eur. Conf. on Speech Communication and Technology, pages 157-160, 1999.

[5]

J. Fontecave & F. Berthommier. Quasi-automatic extraction method of tongue movement from a large existing speech cineradiographic database. In Proc. Eur. Conf. on Speech Communication and Technology, pages 1081-1084, 2005.

[6]

F. Berthommier. Characterization and extraction of mouth opening parameters available for audiovisual speech enhancement. In Proc. Int. Conf. on Acoustics, Speech and Signal Processing, volume 3, pages 789-792, 2004.


 
 
Page mise à jour le 16/05/18