N.B.: Des exemples des stimuli utilisés sont disponibles sur ma Resynthesized speech page.

LE ROLE DU RYTHME POUR LA DISCRIMINATION DES LANGUES

Franck Ramus

Résumé

Se plaçant du point de vue de l’enfant né en milieu bilingue, essayant de distinguer les deux langues qu’il doit apprendre, cet article propose un nouveau paradigme expérimental pour étudier la discrimination des langues. Il s’agit d’utiliser la resynthèse de parole afin de préserver ou dégrader à volonté différents paramètres acoustiques de phrases naturelles. Suivant ce principe, des phrases en Anglais et en Japonais ont été resynthétisées en préservant les régularités phonétiques, le rythme et l’intonation (Expérience 1), le rythme et l’intonation (Expérience 2), le rythme seul (Expérience 3) ou l’intonation seule (Expérience 4). Il s’est avéré que le rythme était un paramètre nécessaire et suffisant pour que des sujets adultes français puissent distinguer les phrases anglaises des phrases japonaises. Ce résultat confirme des études précédentes réalisées avec de la parole filtrée, et est en accord avec les théories phonologiques prédisant des différences de rythmes entre les langues.

Mots-clés : Acquisition du langage, bilinguisme, prosodie, discrimination des langues.

Abstract

Considering the problem of the child born in a bilingual environment, trying to sort out her linguistic input in order to acquire two languages, this paper proposes a new experimental paradigm to explore the discriminability of languages. This paradigm relies on the speech resynthesis technique which makes it possible to preserve or degrade at will such acoustic cues as phonotactics, rhythm or intonation from natural utterances. Sentences of English and Japanese were resynthesized, preserving broad phonotactics, rhythm and intonation (Experiment 1), rhythm and intonation (Experiment 2), rhythm only (Experiment 3), or intonation only (Experiment 4). It appeared that rhythm was a necessary and sufficient cue for French adult subjects to discriminate English from Japanese sentences. This result is consistent with previous studies using low-pass filtered speech, as well as with phonological theories predicting rhythmic differences between languages.

Keywords : Language acquisition, bilingualism, prosody, language discrimination.

Introduction

Considérons le cas d’un enfant naissant dans un milieu bilingue, c’est-à-dire le cas d’au moins un enfant sur deux dans le monde . Si un tel enfant était incapable de détecter la présence de deux langues et de les distinguer avant de les avoir apprises, on devrait prédire, soit qu’il apprendrait un langage bâtard empruntant à ces deux langues, soit qu’il serait tellement dérouté par les contradictions apparentes entre les deux systèmes linguistiques que son acquisition du langage en serait bloquée, ou tout du moins sévèrement retardée. Tel n’est pas le cas, et les enfants bilingues apprennent deux langues sans les confondre et sans retard apparent. Il s’ensuit que le cas de l’enfant bilingue impose de fortes contraintes sur toute théorie de l’acquisition du langage, et c’est pour cette raison que des études ont déjà été réalisées sur la discrimination des langues chez le nourrisson. Ainsi, il a été montré qu’à l’âge de quatre jours, le nouveau-né est capable de reconnaître sa langue maternelle , et aussi de discriminer deux langues qu’il n’a jamais entendues , sous réserve qu’elles diffèrent par la prosodie. Soulignons en effet que ces expériences ont été réalisées avec des phrases filtrées (passe-bas, à 400 Hz), ce qui suggère que ce sont bien les propriétés prosodiques de ces langues, et non phonétiques ni a fortiori lexicales, qui sont essentielles à la discrimination.

Néanmoins, la nature exacte des indices acoustiques utilisés reste à préciser, car le filtrage passe-bas n’est pas un procédé assez sélectif pour pouvoir affirmer si c’est le rythme, ou l’intonation, ou les deux, qui est réellement pertinent. Dans cette étude, nous allons proposer une nouvelle approche pour explorer les bases acoustiques de la discrimination des langues, et nous l’appliquerons à une série d’expériences de catégorisation de phrases anglaises et japonaises par des adultes français.

La resynthèse de parole

Afin de mieux contrôler les paramètres acoustiques nécessaires à la discrimination des langues, nous avons employé la resynthèse de parole, une technique initialement utilisée par Cohen & ‘t Hart à IPO (Eindhoven) pour des recherches sur l’intonation.

Dans cette étude, nous avons réalisé quatre expériences qui ne diffèrent entre elles que par la nature des stimuli: les mêmes phrases ont été utilisées pour resynthétiser des stimuli plus ou moins dégradés. Nous avons employé 20 phrases anglaises et 20 phrases japonaises, prononcées par quatre locutrices natives dans chaque langue . Au sein de ces deux ensembles, les phrases avaient en moyenne le même nombre de syllabes (16.2) et la même fréquence fondamentale moyenne (229 Hz (+/-15) pour l’Anglais, 233 Hz (+/-16) pour le Japonais), afin de ne pas introduire de biais que les sujets pourraient remarquer trop facilement. La fréquence fondamentale a été extraite par pas de 5ms, afin d’obtenir la courbe d’intonation, et les phonèmes ont été marqués un par un. Ces informations ont ensuite été utilisées par le logiciel Mbrola pour resynthétiser les phrases par concaténation de diphones, avec une base de diphones français, afin de rester neutre par rapport aux langues testées.

Expérience 1

Stimuli

Les stimuli ont été construits comme précisé ci-dessus, et lors de la synthèse, les phonèmes ont été modifiés de la manière suivante: toutes les occlusives ont été remplacées par /t/, toutes les fricatives par /s/, toutes les nasales par /n/, toutes les liquides par /l/, toutes les semi-voyelles par /j/, et toutes les voyelles par /a/. Par conséquent, les phrases resynthétisées ont perdu tout contenu sémantique, tout en gardant la structure syllabique, certaines propriétés phonotactiques, le rythme, et l’intonation des phrases d’origine.

Ces phrases ont été divisées en deux ensembles égaux, l’un destiné à entraîner les sujets, l’autre destiné à les tester. Chaque ensemble comportait 10 phrases de chaque langue prononcées par deux locutrices par langue, les locutrices étant différentes entre les deux ensembles.

Procédure

16 étudiants ont été testés, tous de langue maternelle française. Ils commençaient par lire des instructions précisant qu’ils allaient entendre des phrases prononcées en deux langues, le Sahatu et le Moltec (supposées réelles), et " modifiées acoustiquement ", et qu’ils allaient devoir s’entraîner à les reconnaître. Des noms fictifs ont été donnés aux langues afin que les sujets ne cherchent pas à utiliser les connaissances qu’ils pourraient avoir sur celles-ci, se rapprochant ainsi au maximum de la situation du nouveau-né.

Une phrase de chaque langue parmi les phrases d’entrainement était jouée et identifiée à titre d’exemple préalable, après quoi le sujet entendait toutes les phrases d’entraînement dans un ordre aléatoire. Après chaque phrase, il était demandé au sujet d’identifier la langue en entrant S ou M (pour Sahatu ou Moltec), et la bonne réponse lui était alors immédiatement révélée, afin de lui permettre un apprentissage au fur et à mesure. Chaque sujet était autorisé à passer jusqu’à trois fois cette phase d’entraînement. Au bout de trois fois, ou plus tôt si le sujet atteignait 75% de bonnes réponses lors d’une précédente série, le sujet entendait les 20 phrases de test et répondait dans les mêmes conditions. Chaque sujet n’entendait les phrases de test qu’une seule fois.

Résultats

Seuls les scores obtenus durant la phase de test sont rapportés ici. Les phrases d’entraînement servaient uniquement de base pour apprendre à distinguer les deux langues, alors que les phrases de test servaient à vérifier que ce que le sujet avait appris au cours de l’entraînement était bien une propriété généralisable à d’autres phrases prononcées par d’autres locuteurs, et non un artéfact dû aux stimuli d’entraînement.

Le score moyen des sujets en phase de test est de 66.9% (+/- 15.7) de bonnes réponses, et un test t révèle que c’est significativement supérieur au hasard (50%): t(15) = 4.3, p = 0.001. Ainsi, malgré la difficulté de la tâche, les sujets ont été capables d’extraire des régularités fiables permettant de distinguer les phrases des deux langues. De plus, grâce à la transformation appliquée aux phonèmes, on peut affirmer que la distinction a été effectuée sans accès au lexique, sur la base uniquement d’informations phonotactiques ou prosodiques.

Ce premier résultat obtenu, il devient intéressant de dégrader encore plus le signal, dans le but de déterminer, parmi toutes les informations qui étaient utilisables dans cette expérience, lesquelles sont réellement critiques pour la dicrimination.

Expérience 2

Dans ce but, les phrases enregistrées ont été resynthétisées une nouvelle fois en appliquant une transformation différente sur les phonèmes: ici, toutes les consonnes ont été transformées en /s/, et toutes les voyelles en /a/. Ainsi, contrairement à l’Expérience 1, l’essentiel de l’information phonotactique a été éliminée, ne préservant que le rythme¹ et l’intonation. Le signal est donc considérablement appauvri par rapport à l’Expérience 1, mais la prosodie est néanmoins conservée. Si ce n’est la nature des stimuli, tous les autres paramètres de cette expérience ont été maintenus identiques à ceux de l’Expérience 1. 16 nouveaux sujets ont été testés.

Dans la phase de test, les sujets ont en moyenne un score de 65% (+/- 18.7), à nouveau significativement supérieur au hasard: t(15) = 3.21, p < 0.01.

Les résultats de cette expérience suggèrent que les informations d’ordre phonotactique n’étaient pas cruciales pour expliquer la performance des sujets dans l’Expérience 1, et qu’il est donc possible de distinguer des phrases anglaises et japonaises sur la base uniquement du rythme et de l’intonation. On est maintenant naturellement amené à se demander si l’une de ces deux composantes serait suffisante à elle seule pour permettre la discrimination.

Expérience 3

Ici, nous avons voulu tester le rôle de l’intonation seule. Dans ce but, nous avons resynthétisé une nouvelle fois les phrases, en remplaçant cette fois tous les phonèmes par /a/. Lors de la synthèse, la fréquence fondamentale a été interpolée linéairement dans les parties non voisées du signal. Chaque phrase a donc été transformée en une sorte de long /a/ continu variant seulement en fréquence fondamentale. 16 nouveaux sujets ont été testés. Dans la phase de test, le score moyen des sujets est en moyenne 50.9%, ce qui n’est pas différent du hasard (t(15) < 1). De même, dans aucune séance d’entraînement le score moyen n’a dépassé 55%, et n’a jamais été au-dessus du hasard, même lorsque les phrases d’entraînement avaient été entendues trois fois chacune. Les résultats de cette expérience contrastent donc fortement avec ceux des expériences précédentes: ici, les sujets n’ont pas été capables d’effectuer la tâche sur la base de l’intonation seule. On peut envisager deux explications possibles: soit il n’y a pas de différence d’intonation entre l’Anglais et le Japonais (d’un point de vue acoustique), soit il y en a une, mais les sujets sont incapables de la percevoir, ou de la représenter, ou d’effectuer un calcul dessus. En tout état de cause, la performance des sujets dans les expériences 1 et 2 ne peut être mise sur le compte de l’intonation seule. Il semble donc que le rythme soit un paramètre acoustique nécessaire pour la discrimination de ces phrases. Cependant, on ne peut encore affirmer qu’il est également suffisant, dans le mesure où il serait logiquement possible que l’interaction entre rythme et intonation soit cruciale sur le plan perceptif.

Expérience 4

Pour répondre à cette dernière question, il nous reste donc à explorer le rôle du rythme seul. Nous avons resynthétisé les phrases à la manière de l’Expérience 2, c’est-à-dire en préservant uniquement l’alternance consonne/voyelle, mais cette fois la fréquence fondamentale a été maintenue constante (à 230 Hz) pour la synthèse. L’intonation a donc été complètement éliminée. 16 nouveaux sujets ont été testés. Leur score moyen en phase de test est 68.1% (+/- 19.1), ce qui est significativement au-dessus du hasard (t(15) = 3.79, p < 0.005). Ce résultat montre que les sujets peuvent atteindre un score comparable à celui de l’Expérience 1, alors même que l’information disponible a été réduite au strict minimum, c’est-à-dire au rythme des syllabes.

Discussion

Il semble donc que le rythme soit un paramètre acoustique nécessaire et suffisant pour que des sujets français discriminent des phrases anglaises et japonaises, et ce bien que la délexicalisation des stimuli et l’absence d’information ait rendu impossible l’utilisation de connaissances éventuelles sur ces deux langues. Ce résultat confirme différentes études phonologiques sur la rythmicité des langues: d’après Ladefoged , l’Anglais est une langue dont le rythme est basé sur le stress, alors que le Japonais est une langue basée sur la more. Nos résultats viennent également à l’appui de l’hypothèse de Nazzi et coll. qui analysaient leurs résultats sur le nouveau-né en invoquant le rythme, bien que dans leur cas le filtrage de la parole n’ait pas pu départager le rôle du rythme de celui de l’intonation. Enfin, l’emploi de la resynthèse de parole permet d’explorer de manière précise et systématique les composantes prosodiques et/ou phonotactiques qui peuvent être utiles pour la discrimination d’une paire de langues donnée, et devrait donc être d’un grand secours pour continuer l’exploration des capacités perceptives du nourrisson.

Remerciements

Ce travail a été rendu possible par une allocation de recherche de la Délégation Générale pour l’Armement. Je tiens à remercier Jacques Mehler, Emmanuel Dupoux et Anne Christophe pour l’aide qu’ils m’ont apportée, ainsi que Christophe Pallier pour ses commentaires sur une précédente version de cet article.

Bibliographie

Cohen, A., & Hart, J. t. (1967). On the anatomy of intonation. Lingua, 19, 177-192.

Crystal, D. (1987). The Cambridge Encyclopedia of Language: Cambridge University Press.

Dutoit, T., Pagel, V., Pierret, N., Bataille, F., & van der Vrecken, O. (1996). The MBROLA Project: Towards a set of high-quality speech synthesizers free of use for non-commercial purposes. Paper presented at the ICSLP'96, Philadelphia.

Hakuta, K. (1985). Mirror of language: The debate on bilingualism. New York: Basic Books.

Ladefoged, P. (1975). A course in phonetics. New York: Harcourt Brace Jovanovich.

MacKey, W. F. (1967). Bilingualism as a world problem / Le bilinguisme: phénomène mondial. Montreal: Harvest House.

Maddieson, I. (1980). UPSID: UCLA phonological segment inventory database. UCLA Working Papers In Phonetics, 50, 4-56.

Mehler, J., Jusczyk, P., Lambertz, G., Halsted, N., Bertoncini, J., & Amiel-Tison, C. (1988). A precursor of language acquisition in young infants. Cognition, 29, 143-178.

Mehler, J., Lambertz, G., Jusczyk, P., & Amiel-Tison, C. (1986). Discrimination de la langue maternelle par le nouveau-né. Comptes-rendus de l'Académie des Sciences de Paris, 303, Série III(15), 637-640.

Muthusamy, Y. K., Barnard, E., & Cole, R. A. (1994). Reviewing automatic language identification. IEEE Signal Processing Magazine, October 1994, 33-41.

Nazzi, T., Bertoncini, J., & Mehler, J. (sous presse). Language discrimination by newborns: towards an understanding of the role of rhythm. Journal of Experimental Psychology: Human Perception and Performance.

¹ Ici et dans la suite, nous assimilons l’alternance consonne/voyelle au rythme des syllabes. Il est cependant bon de remarquer que cette manière de matérialiser le rythme préserve un petit peu d’information d’ordre phonotactique, à savoir la proportion de consonnes et de voyelles dans la langue, ainsi que la longueur des groupes vocaliques et consonantiques. Il nous semble qu’on ne peut pas complètement dissocier le rythme de ce type d’information.

Back to Franck Ramus' Publications