L’image de classification auditive, partie 1 : Le cerveau comme boîte noire

La méthode dite de la corrélation inverse (en anglais reverse correlation ou plus familièrement revcorr) est une approche psychophysique relativement récente. Elle fit sa première apparition dans les années 70 dans les travaux de Albert J. Ahumada Jr., à l’époque chercheur à l’Université de Californie à Irvine, qui s’intéressait alors à la stratégie par laquelle notre système auditif parvient à détecter un ton pur (un « bip ») dans un bruit de fond [1, 2]. Pour attaquer ce problème, Ahumada décida de corréler directement chaque son à la réponse que celui-ci engendre chez un individu. L’idée de cette approche lui venait probablement de sa formation en mathématiques en lien avec l’ingénierie : en effet, une méthode similaire était déjà appliquée depuis les années 50 pour caractériser des systèmes physiques, comme les circuits électriques.

Caractériser une boîte noire électrique

Supposons que l’on possède une « boîte noire », renfermant une machinerie mystérieuse, à laquelle nous n’avons accès qu’en imposant un courant électrique en entrée et en mesurant un courant électrique en sortie, avec interdiction formelle de démonter la boîte.

Situation 1 : caractérisation du fonctionnement de la boîte noire

Alors, une méthode pour caractériser les processus qui ont lieu à l’intérieur de la boîte est d’envoyer en entrée un « bruit blanc » (c’est à dire un courant électrique aléatoire couvrant toutes les fréquences de manière égale, voir exemple ci-dessous), et de mesurer la sortie.

Exemple de bruit blanc acoustique

On peut alors chercher à établir la relation entre l’entrée et la sortie de la boîte en calculant la corrélation entre ces deux courants. De manière très schématique, si l’on constate que la présence d’une fréquence A dans le bruit engendre systématiquement un courant plus fort en sortie (corrélation positive), on pourra dire que cette fréquence est excitatrice du système caché dans la boîte. Au contraire, si la présence d’une fréquence B en entrée engendre une diminution du courant en sortie (corrélation négative), cette fréquence pourra être considérée comme inhibitrice pour le système. Il s’agit d’une description très simple (linéaire en fréquence) du système, mais qui permet néanmoins de déduire à quelles fréquences celui-ci est le plus sensible. Des caractérisations plus poussées (non-linéaires et intégrant des effets de mémoire) ont également été mises en œuvre au sein de ce cadre théorique.

Exemple schématique de corrélation entrée-sortie.
Ici la fréquence A est excitatrice et la fréquence B est inhibitrice.

Caractériser une boîte noire cognitive

L’approche d’Ahumada en 1971 consiste simplement à transposer cette approche à un autre domaine d’application. Le problème auquel il est confronté est très similaire au précédent. Il souhaite caractériser une autre boîte noire mystérieuse et impossible à ouvrir : le cerveau humain. Dans cette situation, l’entrée est le son qui parvient à l’oreille d’un individu, et la sortie sa réaction (par exemple appuyer sur un bouton).

Situation 2 : caractérisation du fonctionnement du cerveau dans une tâche auditive

Au vu de la similarité théorique entre les deux situations ci-dessus, il est tentant d’essayer d’appliquer la même approche pour caractériser le fonctionnement du cerveau que celle employée pour le circuit électrique. Il faudrait pour cela faire écouter un bruit blanc à un participant ou une participante et calculer la corrélation avec ses réponses. Cependant deux différences fondamentales font obstacle à la transposition directe de la méthode de corrélation inverse à l’étude de la cognition humaine :

  1. La sortie est plus sommaire dans le cas de la tâche auditive (une simple pression sur un bouton au lieu d’un courant continu). Ce problème peut néanmoins être contourné en utilisant des outils statistiques plus avancés.
  2. Surtout, contrairement au circuit électrique, l’être humain ne donne pas de réponse systématique s’il est simplement exposé passivement à un bruit blanc acoustique, comme celui de l’exemple plus haut. Il faut donc lui demander explicitement de réaliser une tâche auditive particulière sur la base de ce stimulus.

Pour cette raison, Ahumada choisit de superposer au bruit blanc un ton pur à 500 Hertz. Ce « bip » n’était pas présent dans tous les stimuli, mais seulement dans certains sélectionnés aléatoirement. La tâche auditive demandée après chaque écoute d’un son consistait simplement à appuyer sur un bouton si l’on pensait avoir détecté un bip dans le bruit blanc. Ceci obligeait donc les participantes et participants à écouter activement le bruit et à le traiter afin de donner une réponse, laquelle allait pouvoir ensuite être corrélée avec l’entrée pour caractériser la boîte-noire / cerveau réalisant la tâche.

Voici ci-dessous les résultats obtenus pour K.M., premier·e participant·e de l’expérience d’Ahumada.

Résultats obtenus par K.M. dans l’expérience d’Ahumada. Figure adaptée de [1].

Première constatation, la fréquence de 500 Hz est excitatrice pour K.M. Ceci est parfaitement normal : sa tâche, consistant à détecter un bip à 500 Hz, l’incite à être particulièrement sensible à cette fréquence particulière. Ainsi, une forte concentration du bruit dans la région de 500 Hz peut amener K.M. à croire que ce bruit contenait une cible, même si ce n’était pas le cas. Plus intéressant, les fréquence de 550 Hz et 450 Hz semblent quant à elles légèrement inhibitrices. Il s’agit d’un phénomène bien connu de masquage : la présence d’un bruit ayant une fréquence proche de 500 Hz empêche K.M. de détecter correctement le bip lorsque celui-ci est présent.

Bien que l’expérience d’Ahumada sur la perception de tons dans le bruit ait été concluante et ait démontré l’intérêt de la méthode de la corrélation inverse, ses travaux passèrent relativement inaperçus à l’époque – peut-être du fait de la grande variabilité observée dans les résultats individuels (le groupe expérimental était consitué de 10 personnes, dont les corrélations inverses n’étaient pas toutes aussi directement interprétables que celle de K.M.). Cependant, plusieurs dizaines d’années plus tard, Ahumada devenu entre-temps chercheur au sein de la NASA, trouva dans la question de la détection visuelle de l’alignement de deux barres horizontales (ou Acuité de Vernier) une nouvelle application possible de sa méthode, cette fois pour l’exploration du système visuel. Cette nouvelle série d’étude provoqua un vif engouement de la communauté scientifique pour la nouvelle technique. Dans le domaine de la psychophysique visuelle de nombreuses questions furent alors abordées au moyen de la méthode de corrélation inverse : la perception de motifs simples ou de formes, l’identification des lettres, la perception de la luminosité ou de la couleur, le traitement des visages… Et même un article intitulé « Voir le visage de Jésus sur un toast », primé aux Ig Nobels [3]. Par un juste retour des choses, les chercheuses et chercheurs en perception auditive se saisirent enfin de la méthode, près de 40 ans après son introduction par Ahumada, pour l’appliquer à des problématiques de psychoacoustique. Ainsi, récemment, elle a été mise en œuvre pour étudier la perception de l’intensité des sons, l’effet de la mélodie de la voix sur la confiance ressentie (voir la vidéo ci-dessous)… Témoin de cette thématique émergente, un Workshop fut même organisé à l’IRCAM en 2017 pour discuter des possibilités et limites de la méthode dans le champ de la psychoacoustique.

Pour une description mathématique et historique plus complète de la méthode de la corrélation inverse, le lecteur pourra se référer à l’article de revue de Richard F. Murray [4] et au livre de Kenneth Knoblauch et Laurence T. Maloney [5].

Dans la seconde partie de cet article, je décrirai l’une de mes propres applications de la méthode de la corrélation inverse à l’étude de la perception des phonèmes par le système auditif.

Par ailleurs, le sujet de la corrélation inverse est particulièrement intéressant, non seulement du point de vue méthodologique et statistique, mais également épistémologique : Quelles sont les limites du modèle (simpliste) de la situation 2 ? Quelle est la nature de l’observation obtenue par cette approche – souvent appelée « représentation mentale » ? J’espère revenir par la suite sur ces questions.


[1] Ahumada, A. & Lovell, J. (1971). Stimulus features in Signal detection. Journal of the Acoustical Society of America, 49(6), 1751-1756.

[2] Ahumada, A., Marken, R., Sandusky, A. (1975). Time and frequency analyses of auditory signal detection. Journal of the Acoustical Society of America, 57(2), 385-390.

[3] Liu, J., Li, J., Feng, L., Li, L., Tian, J., Lee, K. (2014). Seeing Jesus in toast: Neural and behavioral correlates of face pareidolia, Cortex, 53, 60-77.

[4] Murray, R. F. (2011). Classification images: A review , Journal of Vision, 11(5), 1-25

[5] Knoblauch, K. and Maloney, L. T. (2012). Modeling Psychophysical Data in R, Springer.

Illustration : Dislocation of Intimacy par Ken Goldberg. [source : http://goldberg.berkeley.edu/art/big-images/]

Une réflexion sur « L’image de classification auditive, partie 1 : Le cerveau comme boîte noire »

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Validation de la saisie. *