N.B.: Des exemples des stimuli utilisés sont disponibles sur ma Resynthesized speech page.
Laboratoire de Sciences Cognitives et Psycholinguistique (CNRS-EHESS)
54 boulevard Raspail
75006 PARIS (France)
Tél.: 01 49 54 24 98
Fax: 01 45 44 98 35
Email: ramus@lscp.ehess.fr
Se plaçant du point de vue de lenfant né en milieu bilingue, essayant de distinguer les deux langues quil doit apprendre, cet article propose un nouveau paradigme expérimental pour étudier la discrimination des langues. Il sagit dutiliser la resynthèse de parole afin de préserver ou dégrader à volonté différents paramètres acoustiques de phrases naturelles. Suivant ce principe, des phrases en Anglais et en Japonais ont été resynthétisées en préservant les régularités phonétiques, le rythme et lintonation (Expérience 1), le rythme et lintonation (Expérience 2), le rythme seul (Expérience 3) ou lintonation seule (Expérience 4). Il sest avéré que le rythme était un paramètre nécessaire et suffisant pour que des sujets adultes français puissent distinguer les phrases anglaises des phrases japonaises. Ce résultat confirme des études précédentes réalisées avec de la parole filtrée, et est en accord avec les théories phonologiques prédisant des différences de rythmes entre les langues.
Mots-clés : Acquisition du langage, bilinguisme, prosodie, discrimination des langues.
Considering the problem of the child born in a bilingual environment, trying to sort out her linguistic input in order to acquire two languages, this paper proposes a new experimental paradigm to explore the discriminability of languages. This paradigm relies on the speech resynthesis technique which makes it possible to preserve or degrade at will such acoustic cues as phonotactics, rhythm or intonation from natural utterances. Sentences of English and Japanese were resynthesized, preserving broad phonotactics, rhythm and intonation (Experiment 1), rhythm and intonation (Experiment 2), rhythm only (Experiment 3), or intonation only (Experiment 4). It appeared that rhythm was a necessary and sufficient cue for French adult subjects to discriminate English from Japanese sentences. This result is consistent with previous studies using low-pass filtered speech, as well as with phonological theories predicting rhythmic differences between languages.
Keywords : Language acquisition, bilingualism, prosody, language discrimination.
Considérons le cas dun enfant naissant dans un milieu bilingue, cest-à-dire le cas dau moins un enfant sur deux dans le monde . Si un tel enfant était incapable de détecter la présence de deux langues et de les distinguer avant de les avoir apprises, on devrait prédire, soit quil apprendrait un langage bâtard empruntant à ces deux langues, soit quil serait tellement dérouté par les contradictions apparentes entre les deux systèmes linguistiques que son acquisition du langage en serait bloquée, ou tout du moins sévèrement retardée. Tel nest pas le cas, et les enfants bilingues apprennent deux langues sans les confondre et sans retard apparent. Il sensuit que le cas de lenfant bilingue impose de fortes contraintes sur toute théorie de lacquisition du langage, et cest pour cette raison que des études ont déjà été réalisées sur la discrimination des langues chez le nourrisson. Ainsi, il a été montré quà lâge de quatre jours, le nouveau-né est capable de reconnaître sa langue maternelle , et aussi de discriminer deux langues quil na jamais entendues , sous réserve quelles diffèrent par la prosodie. Soulignons en effet que ces expériences ont été réalisées avec des phrases filtrées (passe-bas, à 400 Hz), ce qui suggère que ce sont bien les propriétés prosodiques de ces langues, et non phonétiques ni a fortiori lexicales, qui sont essentielles à la discrimination.
Néanmoins, la nature exacte des indices acoustiques utilisés reste à préciser, car le filtrage passe-bas nest pas un procédé assez sélectif pour pouvoir affirmer si cest le rythme, ou lintonation, ou les deux, qui est réellement pertinent. Dans cette étude, nous allons proposer une nouvelle approche pour explorer les bases acoustiques de la discrimination des langues, et nous lappliquerons à une série dexpériences de catégorisation de phrases anglaises et japonaises par des adultes français.
Afin de mieux contrôler les paramètres acoustiques nécessaires à la discrimination des langues, nous avons employé la resynthèse de parole, une technique initialement utilisée par Cohen & t Hart à IPO (Eindhoven) pour des recherches sur lintonation.
Dans cette étude, nous avons réalisé quatre expériences qui ne diffèrent entre elles que par la nature des stimuli: les mêmes phrases ont été utilisées pour resynthétiser des stimuli plus ou moins dégradés. Nous avons employé 20 phrases anglaises et 20 phrases japonaises, prononcées par quatre locutrices natives dans chaque langue . Au sein de ces deux ensembles, les phrases avaient en moyenne le même nombre de syllabes (16.2) et la même fréquence fondamentale moyenne (229 Hz (+/-15) pour lAnglais, 233 Hz (+/-16) pour le Japonais), afin de ne pas introduire de biais que les sujets pourraient remarquer trop facilement. La fréquence fondamentale a été extraite par pas de 5ms, afin dobtenir la courbe dintonation, et les phonèmes ont été marqués un par un. Ces informations ont ensuite été utilisées par le logiciel Mbrola pour resynthétiser les phrases par concaténation de diphones, avec une base de diphones français, afin de rester neutre par rapport aux langues testées.
Stimuli
Les stimuli ont été construits comme précisé ci-dessus, et lors de la synthèse, les phonèmes ont été modifiés de la manière suivante: toutes les occlusives ont été remplacées par /t/, toutes les fricatives par /s/, toutes les nasales par /n/, toutes les liquides par /l/, toutes les semi-voyelles par /j/, et toutes les voyelles par /a/. Par conséquent, les phrases resynthétisées ont perdu tout contenu sémantique, tout en gardant la structure syllabique, certaines propriétés phonotactiques, le rythme, et lintonation des phrases dorigine.
Ces phrases ont été divisées en deux ensembles égaux, lun destiné à entraîner les sujets, lautre destiné à les tester. Chaque ensemble comportait 10 phrases de chaque langue prononcées par deux locutrices par langue, les locutrices étant différentes entre les deux ensembles.
Procédure
16 étudiants ont été testés, tous de langue maternelle française. Ils commençaient par lire des instructions précisant quils allaient entendre des phrases prononcées en deux langues, le Sahatu et le Moltec (supposées réelles), et " modifiées acoustiquement ", et quils allaient devoir sentraîner à les reconnaître. Des noms fictifs ont été donnés aux langues afin que les sujets ne cherchent pas à utiliser les connaissances quils pourraient avoir sur celles-ci, se rapprochant ainsi au maximum de la situation du nouveau-né.
Une phrase de chaque langue parmi les phrases dentrainement était jouée et identifiée à titre dexemple préalable, après quoi le sujet entendait toutes les phrases dentraînement dans un ordre aléatoire. Après chaque phrase, il était demandé au sujet didentifier la langue en entrant S ou M (pour Sahatu ou Moltec), et la bonne réponse lui était alors immédiatement révélée, afin de lui permettre un apprentissage au fur et à mesure. Chaque sujet était autorisé à passer jusquà trois fois cette phase dentraînement. Au bout de trois fois, ou plus tôt si le sujet atteignait 75% de bonnes réponses lors dune précédente série, le sujet entendait les 20 phrases de test et répondait dans les mêmes conditions. Chaque sujet nentendait les phrases de test quune seule fois.
Résultats
Seuls les scores obtenus durant la phase de test sont rapportés ici. Les phrases dentraînement servaient uniquement de base pour apprendre à distinguer les deux langues, alors que les phrases de test servaient à vérifier que ce que le sujet avait appris au cours de lentraînement était bien une propriété généralisable à dautres phrases prononcées par dautres locuteurs, et non un artéfact dû aux stimuli dentraînement.
Le score moyen des sujets en phase de test est de 66.9% (+/- 15.7) de bonnes réponses, et un test t révèle que cest significativement supérieur au hasard (50%): t(15) = 4.3, p = 0.001. Ainsi, malgré la difficulté de la tâche, les sujets ont été capables dextraire des régularités fiables permettant de distinguer les phrases des deux langues. De plus, grâce à la transformation appliquée aux phonèmes, on peut affirmer que la distinction a été effectuée sans accès au lexique, sur la base uniquement dinformations phonotactiques ou prosodiques.
Ce premier résultat obtenu, il devient intéressant de dégrader encore plus le signal, dans le but de déterminer, parmi toutes les informations qui étaient utilisables dans cette expérience, lesquelles sont réellement critiques pour la dicrimination.
Expérience 2
Dans ce but, les phrases enregistrées ont été resynthétisées une nouvelle fois en appliquant une transformation différente sur les phonèmes: ici, toutes les consonnes ont été transformées en /s/, et toutes les voyelles en /a/. Ainsi, contrairement à lExpérience 1, lessentiel de linformation phonotactique a été éliminée, ne préservant que le rythme1 et lintonation. Le signal est donc considérablement appauvri par rapport à lExpérience 1, mais la prosodie est néanmoins conservée. Si ce nest la nature des stimuli, tous les autres paramètres de cette expérience ont été maintenus identiques à ceux de lExpérience 1. 16 nouveaux sujets ont été testés.
Dans la phase de test, les sujets ont en moyenne un score de 65% (+/- 18.7), à nouveau significativement supérieur au hasard: t(15) = 3.21, p < 0.01.
Les résultats de cette expérience suggèrent que les informations dordre phonotactique nétaient pas cruciales pour expliquer la performance des sujets dans lExpérience 1, et quil est donc possible de distinguer des phrases anglaises et japonaises sur la base uniquement du rythme et de lintonation. On est maintenant naturellement amené à se demander si lune de ces deux composantes serait suffisante à elle seule pour permettre la discrimination.
Ici, nous avons voulu tester le rôle de lintonation seule. Dans ce but, nous avons resynthétisé une nouvelle fois les phrases, en remplaçant cette fois tous les phonèmes par /a/. Lors de la synthèse, la fréquence fondamentale a été interpolée linéairement dans les parties non voisées du signal. Chaque phrase a donc été transformée en une sorte de long /a/ continu variant seulement en fréquence fondamentale. 16 nouveaux sujets ont été testés. Dans la phase de test, le score moyen des sujets est en moyenne 50.9%, ce qui nest pas différent du hasard (t(15) < 1). De même, dans aucune séance dentraînement le score moyen na dépassé 55%, et na jamais été au-dessus du hasard, même lorsque les phrases dentraînement avaient été entendues trois fois chacune. Les résultats de cette expérience contrastent donc fortement avec ceux des expériences précédentes: ici, les sujets nont pas été capables deffectuer la tâche sur la base de lintonation seule. On peut envisager deux explications possibles: soit il ny a pas de différence dintonation entre lAnglais et le Japonais (dun point de vue acoustique), soit il y en a une, mais les sujets sont incapables de la percevoir, ou de la représenter, ou deffectuer un calcul dessus. En tout état de cause, la performance des sujets dans les expériences 1 et 2 ne peut être mise sur le compte de lintonation seule. Il semble donc que le rythme soit un paramètre acoustique nécessaire pour la discrimination de ces phrases. Cependant, on ne peut encore affirmer quil est également suffisant, dans le mesure où il serait logiquement possible que linteraction entre rythme et intonation soit cruciale sur le plan perceptif.
Pour répondre à cette dernière question, il nous reste donc à explorer le rôle du rythme seul. Nous avons resynthétisé les phrases à la manière de lExpérience 2, cest-à-dire en préservant uniquement lalternance consonne/voyelle, mais cette fois la fréquence fondamentale a été maintenue constante (à 230 Hz) pour la synthèse. Lintonation a donc été complètement éliminée. 16 nouveaux sujets ont été testés. Leur score moyen en phase de test est 68.1% (+/- 19.1), ce qui est significativement au-dessus du hasard (t(15) = 3.79, p < 0.005). Ce résultat montre que les sujets peuvent atteindre un score comparable à celui de lExpérience 1, alors même que linformation disponible a été réduite au strict minimum, cest-à-dire au rythme des syllabes.
Il semble donc que le rythme soit un paramètre acoustique nécessaire et suffisant pour que des sujets français discriminent des phrases anglaises et japonaises, et ce bien que la délexicalisation des stimuli et labsence dinformation ait rendu impossible lutilisation de connaissances éventuelles sur ces deux langues. Ce résultat confirme différentes études phonologiques sur la rythmicité des langues: daprès Ladefoged , lAnglais est une langue dont le rythme est basé sur le stress, alors que le Japonais est une langue basée sur la more. Nos résultats viennent également à lappui de lhypothèse de Nazzi et coll. qui analysaient leurs résultats sur le nouveau-né en invoquant le rythme, bien que dans leur cas le filtrage de la parole nait pas pu départager le rôle du rythme de celui de lintonation. Enfin, lemploi de la resynthèse de parole permet dexplorer de manière précise et systématique les composantes prosodiques et/ou phonotactiques qui peuvent être utiles pour la discrimination dune paire de langues donnée, et devrait donc être dun grand secours pour continuer lexploration des capacités perceptives du nourrisson.
Ce travail a été rendu possible par une allocation de recherche de la Délégation Générale pour lArmement. Je tiens à remercier Jacques Mehler, Emmanuel Dupoux et Anne Christophe pour laide quils mont apportée, ainsi que Christophe Pallier pour ses commentaires sur une précédente version de cet article.
Cohen, A., & Hart, J. t. (1967). On the anatomy of intonation. Lingua, 19, 177-192.
Crystal, D. (1987). The Cambridge Encyclopedia of Language: Cambridge University Press.
Dutoit, T., Pagel, V., Pierret, N., Bataille, F., & van der Vrecken, O. (1996). The MBROLA Project: Towards a set of high-quality speech synthesizers free of use for non-commercial purposes. Paper presented at the ICSLP'96, Philadelphia.
Hakuta, K. (1985). Mirror of language: The debate on bilingualism. New York: Basic Books.
Ladefoged, P. (1975). A course in phonetics. New York: Harcourt Brace Jovanovich.
MacKey, W. F. (1967). Bilingualism as a world problem / Le bilinguisme: phénomène mondial. Montreal: Harvest House.
Maddieson, I. (1980). UPSID: UCLA phonological segment inventory database. UCLA Working Papers In Phonetics, 50, 4-56.
Mehler, J., Jusczyk, P., Lambertz, G., Halsted, N., Bertoncini, J., & Amiel-Tison, C. (1988). A precursor of language acquisition in young infants. Cognition, 29, 143-178.
Mehler, J., Lambertz, G., Jusczyk, P., & Amiel-Tison, C. (1986). Discrimination de la langue maternelle par le nouveau-né. Comptes-rendus de l'Académie des Sciences de Paris, 303, Série III(15), 637-640.
Muthusamy, Y. K., Barnard, E., & Cole, R. A. (1994). Reviewing automatic language identification. IEEE Signal Processing Magazine, October 1994, 33-41.
Nazzi, T., Bertoncini, J., & Mehler, J. (sous presse). Language discrimination by newborns: towards an understanding of the role of rhythm. Journal of Experimental Psychology: Human Perception and Performance.
1 Ici et dans la suite, nous assimilons lalternance consonne/voyelle au rythme des syllabes. Il est cependant bon de remarquer que cette manière de matérialiser le rythme préserve un petit peu dinformation dordre phonotactique, à savoir la proportion de consonnes et de voyelles dans la langue, ainsi que la longueur des groupes vocaliques et consonantiques. Il nous semble quon ne peut pas complètement dissocier le rythme de ce type dinformation.
Back to Franck Ramus' Publications