La voix est une composante invisible, et pourtant fondamentale, de la dimension corporelle du genre. Il s’agit d’un caractère sexuel secondaire, au même titre que la pilosité faciale ou la morphologie du corps, c’est-à-dire une marque du dimorphisme au sein de l’espèce humaine. Pourtant ces attributs, grossièrement corrélés au sexe biologique à l’échelle du groupe, sont également chargés, à l’échelle individuelle, d’une valeur symbolique : ils sont perçus comme preuves de la masculinité ou de la féminité de leur porteur ou leur porteuse. La voix, comme image sonore du corps qui la produit, n’échappe pas à cette règle. Ainsi, derrière le message linguistique qu’elle transmet, nous tirons de la façon de parler de notre interlocuteur ou de notre interlocutrice d’autres inférences indirectes sur son sexe, son âge, sa compétence, sa fiabilité, son orientation sexuelle, etc…
En particulier, la tessiture de la voix parlée joue un rôle considérable dans l’essentialisation des normes associées au féminin et au masculin, une voix aigüe étant plutôt associée à la légèreté et à la fragilité, tandis qu’une une voix grave est souvent entendue comme signe de virilité et d’autorité ¹.
En la matière, le cinéma véhicule son lot de stéréotypes de genre. Notons, par exemple, comment les différentes incarnations du personnage archétypal de la « blonde naïve » (dumb blonde, comme par exemple « Sugar » dans Some Like It Hot) possèdent systématiquement une voix haute et chantante (si l’on omet l’usage de la laryngalisation, phénomène sur lequel je reviendrai peut-être dans un prochain article), tandis que Harrison Ford, Arnold Schwarzenegger, ou encore Batman, icones de virilité, ont tous été doublés en français par la voix profonde de Richard Darbois. La hauteur de la voix peut également être un vecteur de la domination masculine, ce qui se traduit par exemple par une tendance des femmes à utiliser, consciemment ou non, un registre plus grave lorsqu’elles ont besoin d’asseoir leur autorité. Enfin, on peut également souligner l’importance du changement de voix, et en particulier de sa hauteur, pour les personnes en transition de genre (cf. ce documentaire d’Arte Radio).
Dans cet article je m’intéresse aux origines, biologiques ou apprises, de la voix genrée, et à ce qu’elles suggèrent quant au développement de l’identité de genre. Je m’appuie ici notamment sur le travail de Aron Arnold, dont je recommande la lecture de la thèse si l’on souhaite se documenter plus avant sur le sujet [2].
Les paramètres de la hauteur vocale
La hauteur perçue de la voix est une combinaison de plusieurs dimensions acoustiques, qui trouvent leur origine dans différents éléments de l’appareil phonatoire. Les deux principales sont la fréquence fondamentale (f0), liée aux cordes vocales, et ses fréquences de résonance, liées à la cavité bucco-nasale. La première est le corrélat acoustique de la « mélodie » de la voix et les secondes contribuent à son timbre. Une façon de mettre en évidence le lien entre ces deux paramètres et la hauteur perçue de la voix (ainsi que le genre perçu) est de modifier artificiellement ces caractéristiques dans des enregistrements de parole, et d’écouter l’influence de ces changements sur la perception de cette voix [3], [4]. Considérons par exemple la phrase ci-dessous, lue par une locutrice française :
Une diminution conjointe de la fréquence fondamentale et des fréquences de résonance donne naissance à une voix plus basse, et associée assez clairement au genre masculin ² :
En revanche, la modification d’un seul de ces deux paramètres engendre une voix peu vraisemblable :
Il ne fait donc aucun doute que ces deux caractéristiques concourent à la hauteur perçue – il s’agit là d’un résultat largement admis – et, indirectement, au genre perçu de la voix. Par la suite, je me limiterai à l’étude de la fréquence fondamentale, par souci de concision. Néanmoins, du fait de l’importante corrélation entre les deux variables, un raisonnement similaire peut être appliqué aux fréquences de résonance.
Évolution de la hauteur de la voix au cours du développement
Sans grande surprise, lorsqu’on considère des enregistrements de conversations quasi spontanées (corpus LUCID ³), on constate une différence de hauteur très marquée entre les voix adultes masculines et féminines. La figure 1 illustre par exemple la distribution de la fréquence fondamentale pour un groupe de 31 femmes (en bleu) et un groupe de 29 hommes (en rouge) : les voix des femmes sont distribuées autour de 200 Hz et celles des hommes autour de 100 Hz, soit une différence d’une octave environ.
Cette dichotomie particulièrement marquée entre les fréquences fondamentales des voix de femmes et celles des voix d’hommes reflète une variabilité réduite au sein de chaque genre. Autrement dit, les locuteurs sont resserrés autour de la moyenne masculine, et les locutrices autour de la moyenne féminine, formant deux distributions nettement disjointes. Ainsi, pour notre échantillon, seuls deux individus sur 60 possèdent des fréquences fondamentales chevauchant celles de l’autre groupe.
La représentation du même histogramme que celui de la figure 1 pour des groupes de locuteurs et de locutrices d’âge différent (figure 2) permet d’examiner l’évolution de la hauteur de la voix au cours du développement de l’enfant : voix également aigües pour les filles comme les garçons à 9-10 ans, puis descendant progressivement avec l’âge, avec l’apparition d’une différence seulement au moment de la puberté (ici pour le groupe 13-14 ans), principalement due à une baisse plus marquée de la hauteur de voix des garçons [5].
Plusieurs extraits sonores tirés des corpus LUCID et kidLUCID, et correspondant aux voix de locuteurs et locutrices des quatre groupes d’âge, peuvent être écoutés à l’adresse suivante : https://acousticstoday.org/diapix_task/
Quelles sont les causes de ces évolutions de la voix au cours de la vie ? Comme nous l’avons noté ci-dessus, la hauteur de la voix, à travers ses deux paramètres principaux, la fréquence fondamentale et les fréquences de résonance, est liée à la taille de l’appareil phonatoire (et notamment du larynx et de la cavité bucco-nasale). Celui-ci grandissant avec le reste du corps, la croissance de l’enfant entraîne mécaniquement un abaissement de la fréquence de sa voix, ce qui explique la baisse progressive et générale des voix féminines comme masculines avec l’âge, visible sur la figure 2. En outre, on constate que les hauteurs de voix des garçons du groupe 13-14 ans présentent une distribution bimodale (deux pics, autour de 100 Hz et 200 Hz). Cette répartition traduit le fait qu’une partie seulement des locuteurs de ce groupe avaient accompli leur mue vocale au moment des enregistrements. Le terme de « mue » regroupe un ensemble de transformations de l’appareil phonatoire (abaissement du larynx, allongement et épaississement des cordes vocales) se traduisant, là encore, par un abaissement de la hauteur de la voix. Celles-ci sont déclenchées par l’élévation du taux d’androgènes dans le sang, détecté par les récepteurs hormonaux situés dans le larynx. La mue vocale est ainsi observée chez une grande partie des garçons durant la puberté, mais également, dans une moindre mesure, chez les hommes trans ayant choisi de suivre un traitement aux androgènes, ou chez certaines femmes au moment de la ménopause [6].
L’apprentissage de la voix genrée
Comme on le voit, la différence marquée entre les hauteurs des voix masculines et féminines adultes semble s’expliquer par un facteur anatomique simple et clairement identifié : en moyenne les hommes possèdent des cordes vocales plus longues et plus épaisses que les femmes, qui vibrent donc plus lentement en produisant ainsi des fréquences plus basses. Néanmoins le dimorphisme sexuel n’exclut en rien la possibilité d’un apprentissage du genre de la voix. J’ai déjà mentionné plus haut qu’une personne trans peut apprendre à ajuster volontairement sa fréquence fondamentale et/ou ses fréquences de résonance. De même, se pourrait-il qu’inconsciemment, nous positionnions tous notre voix de manière à nous rapprocher des archétypes du genre auquel nous nous identifions ?
Un premier élément de réponse peut être trouvé dans les études interculturelles [7], [8]. Une comparaison des fréquences fondamentales moyennes des voix masculines et féminines en différents points du globe permet de se rendre compte que l’effet du genre, s’il est toujours présent, dépend néanmoins de la langue. J’ai représenté sur la figure 3 les fréquences fondamentales moyennes de locuteurs et locutrices appartenant à différent groupes linguistiques, issues d’une revue de littérature effectuée par Traunmüller [7]. On constate ainsi que les prototypes de voix genrées ne constituent pas une définition universelle et homogène, mais s’expriment au contraire de façon différente d’une langue à l’autre. Par exemple, les femmes chinoises parlant le mandarin ont une fréquence fondamentale beaucoup plus grave que les femmes allemandes. Par voie de conséquence, on observe de grandes variations dans la différence de genre, selon la langue : les fréquences fondamentales des voix des hommes et des femmes allemandes sont séparées, en moyenne, de 109 Hz tandis les voix anglaises le sont de 59 Hz seulement. Le dialecte wu (dialecte chinois) est remarquable de ce point de vue puisque les hommes semblent ajuster la hauteur vocale de leurs productions, se rapprochant fortement de celle des locutrices. Une variabilité interculturelle similaire peut être observée sur les fréquences de résonances qui sont, comme on l’a vu, un autre paramètre sous-tendant la hauteur de la voix (voir [8], figure 5).
Ces écarts n’étant pas explicables par des différences anatomiques entre les appareils phonatoires des membres de ces différents groupes linguistiques, il semblerait donc que la voix, tout comme le corps, obéisse à une codification genrée dépendant des cultures. Autrement dit, les différences de hauteur de voix entre hommes et femmes ne sont pas uniquement le résultat d’anatomies sexuellement différenciées mais aussi d’un mode d’utilisation particulier du mécanisme laryngé, mobilisé dans le but d’accorder ses productions aux normes culturelles de genre.
Une limite de ces deux études interculturelles tient à la multiplicité des sources – et donc des conditions d’enregistrement – des données comparées. En effet, il s’agit ici de revues de littérature, agrégeant les mesures de fréquences fondamentales et de fréquences de résonance issues d’études précédemment menées par d’autres chercheurs et chercheuses. Les différences dans les méthodologies employées introduisent donc une source d’erreur potentielle, susceptible de contribuer à la variabilité observée entre les langues.
Néanmoins, il existe un second faisceau de preuves étayant l’hypothèse d’une construction sociale de la hauteur de la voix genrée. Plusieurs recherches ont entrepris de comparer les voix d’enfants avant la puberté – qui correspond, comme on l’a vu, au moment de la différenciation sexuelle des cordes vocales et du tractus vocal. D’un point de vue anatomique, l’appareil phonatoire des petits garçons et petites filles de moins de 5 ans peut donc être considéré comme semblable. Pourtant, l’enregistrement et l’analyse de productions d’enfants pré-pubères ont montré, là encore, l’existence de différences de genre dans la hauteur de la voix. Plus spécifiquement, les jeunes garçons produisent des fréquences de résonance plus basses que ne le nécessite la taille de leur appareil vocal et, ce, dès l’âge de 5 ans – voire plus tôt selon certaines études [9]. Le phénomène opposé a pu être observé chez les jeunes filles qui produisent des fricatives (par exemple le son /s/) plus aigües, en positionnant leur langue plus à l’avant du palais [5], [10], [11]. Ces marqueurs de genre sont d’ailleurs clairement perceptibles, puisque nous parvenons relativement aisément à distinguer un petit garçon d’une petite fille sur la seule base de sa voix. Les jeunes enfants possédant une voix genrée bien avant les changements anatomiques qui la rendraient nécessaire, nous sommes donc amenés à supposer qu’ils ont appris, par mimétisme, à placer leur voix de manière à reproduire en partie les différences observées chez les adultes. Ils mettent en place des techniques articulatoires destinées à exagérer certaines caractéristiques acoustiques et ainsi à se rapprocher des archétypes du genre auquel ils se rattachent. Certains travaux suggèrent que cet apprentissage pourrait être initié extrêmement tôt dans le développement, à travers les paroles des parents et des personnes entourant le nouveau-né [12]. En effet, comme l’ont montré plusieurs études, on ne s’adresse pas de la même manière à une petite fille ou à un petit garçon. Ainsi, dès la naissance, l’enfant est exposé à un répertoire vocal différent selon le sexe qui lui a été assigné, à partir duquel il composera ensuite les caractéristiques de sa propre voix, en adoptant des pratiques articulatoires particulières pour créer l’illusion de différences sexuées des conduits vocaux.
Dimorphisme, vraiment ?
Lorsque nous parlons, nous produisons, en plus d’un message linguistique, des marqueurs de genre qui permettent à notre interlocuteur ou à notre interlocutrice de nous catégoriser comme un homme ou une femme. Comme nous l’avons vu, ces indices acoustiques sont intimement liés à des facteurs anatomiques dus au dimorphisme de l’appareil phonatoire humain ⁴. Néanmoins, plusieurs travaux tendent à démontrer que les différences naturelles sont, dans une certaine mesure, modulées ou anticipées par une dimension apprise dépendante de la langue parlée.
Il apparaît donc que, si la morphologie différenciée de l’appareil phonatoire humain a pu contribuer à structurer les représentations genrées de la voix, celles-ci sont néanmoins façonnées par la culture, et forment ensuite un cadre prescriptif pour les individus – comme c’est le cas de nombre de stéréotypes de genre associés aux caractères physiques. Il s’agit alors, pour le locuteur ou la locutrice, d’accentuer les traits sexués de sa voix, voire de les simuler dans le cas des enfants pré-pubères, de manière à se rapprocher de l’archétype du genre auquel il ou elle s’identifie. Selon Aron Arnold [2], la dissociation marquée des hauteurs de voix masculines et féminines, observées dans la figure 1, reflèterait en partie ce processus. En effet, cette distribution bipolaire ne se retrouve pas de façon aussi marquée dans les mesures des variations morphologiques de l’appareil phonatoire, comme par exemple la longueur du tractus vocal. Certains hommes ont ainsi des conduits vocaux plus petits et des cordes vocales plus courtes que certaines femmes et, de manière générale, les valeurs se répartiraient plutôt sur un continuum. L’apparente dichotomie des hauteurs vocales traduirait ainsi le caractère normatif des stéréotypes de genre : chaque individu met en place des stratégies articulatoires pour se rapprocher d’une voix qu’il juge « acceptable » pour le genre auquel il s’identifie, diminuant ainsi la variabilité au sein de chaque groupe.
En conclusion, la voix ne doit pas être considérée comme une caractéristique immuable. La différence entre les hauteurs vocales masculines et féminines moyennes masque un registre important et non binaire de morphologies individuelles du conduit vocal. Par ailleurs, il demeure possible de modifier intentionnellement la hauteur perçue de sa voix parlée naturelle, comme le rappelle l’exemple des personnes trans entreprenant un changement de voix par un travail orthophonique.
Références
[1] R. Barthes, Le grain de la voix. Paris: Seuil, 1999.
[2] A. Arnold, “La voix genrée, entre idéologies et pratiques – Une étude sociophonétique,” thesis, Sorbonne Paris Cité, 2015.
[3] V. G. Skuk and S. R. Schweinberger, “Influences of fundamental frequency, formant frequencies, aperiodicity, and spectrum level on the perception of voice gender,” J. Speech Lang. Hear. Res. JSLHR, vol. 57, no. 1, pp. 285–296, Feb. 2014.
[4] A. Arnold, “Le rôle de la fréquence fondamentale et des fréquences de résonance dans la perception du genre,” TIPA Trav. Interdiscip. Sur Parole Lang., no. 28, Sep. 2012.
[5] V. Hazan, “Speech communication across the life span.,” Acoust. Today, vol. 13, pp. 36–43, 2017
[6] K. V. S. Hari Kumar, A. Garg, N. S. Ajai Chandra, S. P. Singh, and R. Datta, “Voice and endocrinology,” Indian J. Endocrinol. Metab., vol. 20, no. 5, pp. 590–594, 2016.
[7] H. Traunmüller, “The frequency range of the voice fundamental in the speech of male and female adults,” 1993.
[8] K. Johnson, “Speaker Normalization in Speech Perception,” in The Handbook of Speech Perception, John Wiley & Sons, Ltd, 2008, pp. 363–389.
[9] T. L. Perry, R. N. Ohde, and D. H. Ashmead, “The acoustic bases for gender identification from children’s voices,” J. Acoust. Soc. Am., vol. 109, no. 6, pp. 2988–2998, Jun. 2001.
[10] R. Romeo, V. Hazan, and M. Pettinato, “Developmental and gender-related trends of intra-talker variability in consonant production,” J. Acoust. Soc. Am., vol. 134, no. 5, pp. 3781–3792, Nov. 2013.
[11] P. Flipsen, L. Shriberg, G. Weismer, H. Karlsson, and J. McSweeny, “Acoustic characteristics of /s/ in adolescents,” J. Speech Lang. Hear. Res. JSLHR, vol. 42, no. 3, pp. 663–677, Jun. 1999.
[12] P. Foulkes and G. Docherty, “The social life of phonetics and phonology,” J. Phon., vol. 34, no. 4, pp. 409–438, Oct. 2006.
[13] C. Monnet, “La répartition des tâches entre les femmes et les hommes dans le travail de conversation,” Nouv. Quest. Féministes, vol. 19, no. 1, pp. 9–34, 1998
¹ « [La voix de basse] charrie directement le symbolique, par-dessus l’intelligible, l’expressif : voici jeté devant nous, comme un paquet, le Père, sa stature phallique » [1]
² J’ai réalisé ces exemples sonores à l’aide de la toolbox en accès ouvert Straight : http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_e.html
³ Les corpus utilisés dans cette partie ont été collectés par Rachel Baker and Valérie Hazan (voir http://valeriehazan.com/wp/index.php/lucid-corpus-london-ucl-clear-speech-in-interaction/). Il s’agit de conversations « naturelles » enregistrées en laboratoire au moyen d’un dispositif ingénieux : un jeu des sept erreurs collaboratif où les deux participants doivent discuter pour identifier les différences entre les images qui leur ont été attribuées. Les corpus LUCID et kidLUCID correspondant aux différents groupes d’âge sont disponibles sur l’archive OSCAAR (https://oscaar3.ling.northwestern.edu/)
⁴ Comme on l’a vu, les indices acoustiques de la hauteur perçue de la voix regroupent essentiellement la fréquence fondamentale et les fréquences de résonance ; il est cependant important de rappeler que d’autres marqueurs du genre au niveau du discours n’ont quant à eux aucune base biologique, à commencer par le temps de parole et le taux d’interruption [13].
Un Richard Darbois qui a de jolis aigus aussi 🙂
https://www.youtube.com/watch?v=H1Fv67HKdkQ
En fait, puisqu’on parle doublage, en préparant l’article j’ai réécouté quelques doubleurs français, et j’ai étonné de constater que Patrick Poivey n’a en fait pas une voix spécialement grave, contrairement à ce que je croyais me rappeler du fait qu’il double lui aussi des voix très viriles.
Super article !
Petite question vis à vis de l’influence de la langue/culture sur la fréquence fondamentale : est-ce quelqu’un a étudié des individus bilingues et comparé leur fréquence fondamentale dans les deux langues?
PS: fun fact: chez le rat, j’ai observé la diminution de la fréquence de vocalisation avec l’âge, mais pas la bimodalité en fonction du sexe chez l’adulte, malgré une différence de taille importante entre mâles et femelles.
Merci Julie 🙂
Oui il y a un petit faisceau d’études portant sur bilinguisme et fréquence fondamentale, et elles montrent souvent une utilisation différente de la hauteur vocale selon la langue. Cependant un autre facteur qui complique l’interprétation est la dominance d’une des deux langues parlées (par exemple dans le cas d’une L2)… Les études portant sur la fréquence fondamentale de bilingues de naissance sont (très) rares mais certaines observent encore dans ce cas des différences selon les langues.
Pour les vocalisations du rat, c’est très intriguant…! On en sait plus sur sa morphologie différenciée, notamment au niveau du larynx ? Et y-a-t’il une fonction sociale de la fréquence fondamentale chez le rat ? Certaines espèces (cerf et singes, de mémoire) savent abaisser leurs vocalisations dans les situations de conflit pour intimider l’adversaire en exagérant leur taille.