Information

Les chercheurs se tournent vers le cerveau pour trouver des algorithmes pour le problème des cocktails

Les chercheurs se tournent vers le cerveau pour trouver des algorithmes pour le problème des cocktails


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

La capacité d'un ordinateur à reconnaître certains signaux cachés dans une masse de données bruyantes mais pas d'autres est un problème bien connu et actuellement insoluble pour les informaticiens travaillant dans le domaine du traitement du langage et du son. Connu sous le nom de problème du cocktail, les algorithmes capables d'identifier une voix spécifique et de l'amplifier tout en atténuant la cacophonie d'autres voix, les bruits et la distorsion produits par l'environnement sont restés insaisissables à ce jour.

CONNEXES: CET APPAREIL BRAIN-ORDINATEUR DONNE LA VOIX À CEUX QUI NE PEUVENT PAS PARLER

Heureusement, les scientifiques ont un système à modéliser pour les aider à résoudre ce problème: le cerveau humain. Les êtres humains sont des animaux sociaux et, en tant que tels, notre cerveau a été très évolué pour isoler et se concentrer sur la voix de la personne à qui nous parlons, atténuant et souvent même supprimant complètement les autres voix et le bruit environnemental pour entendre ce qu'une personne dit. Aujourd'hui, les chercheurs commencent à faire des progrès significatifs dans la compréhension de la manière dont le cerveau isole et traite une voix spécifique parmi d'autres, ainsi que dans le développement de nouvelles approches pour résoudre le problème.

L'effet cocktail

L'effet de cocktail, comme on l'appelle, est la capacité du cerveau humain à se concentrer sur une seule voix dans une foule et à l'isoler du bruit ambiant environnant. Bien que cela puisse sembler assez simple pour certains, il est facile de prendre l'effet de cocktail pour acquis et de ne pas apprécier à quel point il est extraordinaire d'un processus neurologique.

Dans une foule, les voix sont des perturbations dans l'air ambiant qui se brisent et se dispersent les unes dans les autres, ce qui rend difficile d'entendre la voix de qui que ce soit à moins qu'elle ne domine tout le reste, qu'il crie ou quelque chose de similaire. Comme ce n'est pas une solution idéale au problème des cocktails, nos cerveaux font autre chose à la place qui est plutôt extraordinaire.

En quelques fractions de seconde, notre cerveau identifie et isole le signal vocal de la personne que nous voulons écouter et l'amplifie. Ensuite, il filtre ou masque tous les autres signaux vocaux ou le bruit afin que ces sons soient supprimés, nous permettant d'entendre ce qu'une personne dit dans la plupart des circonstances sociales.

Chaque jour, notre cerveau traite une infinité de sons qu'il priorise en fractions de seconde. Et tout comme ils suppriment continuellement l'image de ce morceau de notre nez qui s'étend physiquement dans notre champ de vision autrement non obstrué, notre cerveau amplifie les sons sur lesquels nous nous concentrons et supprime les autres bruits de moindre priorité dans l'environnement afin qu'ils disparaissent fonctionnellement.

Mais comment exactement nos cerveaux réalisent cet incroyable effet de cocktail était un mystère pendant des décennies après que le `` problème des cocktails '' ait été discuté pour la première fois par des chercheurs dans les années 1950. Heureusement, les recherches des dernières années ont mis en lumière la manière dont notre cerveau identifie et isole ces signaux vocaux essentiels dans les contextes sociaux, nous rapprochant plus que jamais de la réplication du même processus à l'aide d'une machine.

Ségrégation de différents signaux vocaux dans le cortex auditif

le la dernière décennie a vu des améliorations majeures dans notre compréhension de la façon dont les humains identifient et traitent la parole et le langage. Une paire de chercheurs soutenus par l'Institut national américain sur la surdité et les autres troubles de la communication publiant un article remarquable dans la revue La nature dans 2012 cela a montré comment nous pouvions non seulement voir comment le cerveau filtrait et distinguait les signaux vocaux concurrents, mais que les chercheurs étaient même capables de prédire quel mot le répondant écoutait.

Edward Chang, Ph.D., neurochirurgien et professeur agrégé à l'Université de Californie à San Francisco (UCSF) ne cherchait initialement pas à identifier comment l'homme parvient à l'effet de cocktail; il traitait des patients épileptiques. Il a implanté une feuille de 256 électrodes juste sous le crâne de ses patients pour surveiller l'activité électrique dans la couche externe des neurones de leurs lobes temporaux.

Chang et Nima Mesgarani, Ph.D., boursière postdoctorale à l'UCSF, ont réalisé que ces patients leur présentaient une opportunité rare. Avec leur équipement sophistiqué - qui était suffisamment sensible pour détecter le déclenchement d'un seul neurone - et le fait que les électrodes intracrâniennes seraient également capables de surveiller le cortex auditif - qui est situé dans le lobe temporal - ils ont pu étudier comment le cerveau traite le son avec des détails sans précédent.

Trois sujets volontaires ont écouté des enregistrements audio simultanés, l'un lu par une femme et l'autre par un homme, avec des instructions pour écouter l'un des deux mots cibles spécifiques qui commenceraient l'échantillon audio, puis ils rapportaient ce que la voix sur l'audio échantillon dit après ces mots. En analysant les lectures des électrodes à l'aide d'un algorithme de décodage qui pourrait identifier des modèles et reconstruire ce que le sujet a entendu, les chercheurs ont constaté que les lectures des électrodes ne captaient que le modèle du locuteur ciblé, ce qui signifie que le cortex auditif ignore le non- l'orateur cible entièrement.

«Beaucoup de gens pensaient que le cortex auditif ne faisait que transmettre ces informations à la partie cognitive du cerveau, au cortex frontal et aux zones de contrôle exécutif, où elles seraient vraiment traitées», a déclaré Chang. «Ce que nous avons trouvé, c'est que le cortex auditif est en lui-même assez sophistiqué. C'est comme s'il savait quels sons doivent être regroupés et n'extrait que ceux qui sont pertinents pour le locuteur unique.

Encore plus remarquable est le fait que l'algorithme de décodage était capable de prédire quel locuteur le sujet écoutait en se basant uniquement sur l'activité neuronale et qu'il était capable de détecter le moment où l'attention du sujet s'est déplacée ou s'est égarée vers l'autre locuteur. Ce que cela nous dit, c'est que le cortex auditif détient la clé pour comprendre comment le cerveau humain peut gérer le problème des cocktails d'une manière que les ordinateurs ne peuvent actuellement pas.

Différencier la voix du son

Alors qu'un ordinateur peut décoder l'activité neuronale du cerveau et savoir exactement ce que le cortex auditif a réellement entendu, cela ne suffit pas à surmonter seul le problème du cocktail; nous devons encore savoir comment le cerveau fait réellement ces distinctions et différencie les signaux vocaux et autres bruits environnementaux pour se concentrer sur la voix ciblée.

Des chercheurs de l'Université de Genève, Suisse (UNIGE) et de l'Université de Maastricht aux Pays-Bas ont publié un article cet été dans la revue Comportement humain de la nature qui a tenté d'obtenir le mécanisme de base de ce processus, à savoir comment le cerveau traite les voix que nous entendons et les mots qui sont prononcés.

Pour ce faire, les chercheurs ont conçu une collection de pseudo-mots - des mots qui n'ont pas de sens - prononcés par un phonéticien qualifié à trois hauteurs différentes. Les sujets ayant entendu les échantillons de voix ont ensuite été invités à effectuer les tâches auditives spécifiques de différenciation entre les différentes hauteurs de la même voix ou en écoutant les sons de la parole eux-mêmes, appelés phonèmes.

«Nous avons créé 120 pseudo-mots conformes à la phonologie de la langue française mais qui n'ont aucun sens, pour nous assurer que le traitement sémantique n'interfère pas avec la perception pure des phonèmes», a déclaré Narly Golestani, professeur à la section de psychologie de l'UNIGE. Faculté de psychologie et des sciences de l'éducation (FPES) et co-auteur de l'article.

Sanne Rutten, chercheuse au FPES de l'UNIGE et co-auteur de l'article, a déclaré que la tâche de différencier les voix de l'orateur devait être aussi difficile que possible pour le sujet afin d'étudier avec précision la façon dont le cerveau effectue cette audition. En traitement. "Pour rendre la différenciation des voix aussi difficile que celle des sons de la parole, nous avons créé la perception de trois voix différentes à partir des stimuli enregistrés, plutôt que d'enregistrer trois personnes différentes."

Avant le test, les chercheurs ont analysé les différences de paramètres acoustiques entre les sons vocaux et les sons phonémiques, tels que la fréquence - haute ou basse - la modulation temporelle - la vitesse perçue du son parlé - et la modulation spectrale - le manière dont l'énergie sonore est répartie sur les différentes fréquences. Des modulations spectrales élevées ont été déterminées comme étant les plus utiles pour différencier les différents échantillons de voix, et que des modulations spectrales faibles avec une modulation temporelle rapide étaient les plus utiles pour identifier les différences de phonèmes.

Au cours du test lui-même, les sujets ont été invités à identifier trois sons de parole spécifiques - / p /, / t /, ou / k /, comme dans les pseudowords preperibion, gabratade et ecalimacre - ou à déterminer si l'échantillon avait été prononcé. par voix un, deux ou trois. Au cours du test, leurs cerveaux ont été scannés par une machine d'imagerie par résonance magnétique fonctionnelle (IRMf) pour surveiller l'oxygénation sanguine du cerveau, un moyen très efficace d'identifier quelles parties du cerveau étaient les plus actives car plus d'activité nécessite plus d'oxygène que moins actif. régions du cerveau.

En utilisant un modèle informatique pour analyser les résultats de l'IRMf, les chercheurs ont constaté que le cortex auditif amplifiait les modulations spectrales supérieures lorsqu'il était chargé de différencier les voix et lorsqu'il était demandé d'identifier les phonèmes spécifiques dans les échantillons, il se concentrait sur le temporel le plus rapide. modulations et modulations spectrales plus faibles que d'autres stimuli.

«Les résultats montrent de grandes similitudes entre les informations de tâche dans les sons eux-mêmes et les données neurales, IRMf», a déclaré Golestani.

Cela démontre que le cortex auditif traite le même son différemment selon la tâche spécifique qu'il essaie d'effectuer, révélant les mécanismes essentiels impliqués dans la façon dont nous écoutons les personnes qui nous parlent et comment notre cerveau distingue les différentes voix. «C’est la première fois qu’il est démontré, chez les humains et en utilisant des méthodes non invasives, que le cerveau s’adapte à la tâche à accomplir d’une manière qui est cohérente avec les informations acoustiques qui sont prises en compte dans les sons de la parole», a déclaré Rutten.

Résoudre le problème du cocktail avec des algorithmes modélisés sur le cortex auditif

Au fur et à mesure que notre compréhension de ce qui se passe à l'intérieur du cortex auditif grandit et que nous découvrons davantage la mécanique de l'effet cocktail, nous pouvons utiliser ces nouvelles connaissances pour améliorer la façon dont les systèmes informatiques traitent le son de la voix humaine. Alors que les systèmes de traitement du langage naturel comme l'API de synthèse vocale de Google sont certainement puissants, leurs meilleurs algorithmes pour le problème des cocktails sont toujours insuffisants. Il faudra au moins plusieurs années avant que la recherche neurologique sur le cortex auditif n'apporte le genre de percées qui nous permettent de développer les bons algorithmes pour reproduire l'effet de cocktail dans les ordinateurs.

Jusque-là, le type d'interfaces informatiques à commande vocale comme celles vues sur Star Trek restera hors de portée. Mais la recherche sur le cortex auditif est très prometteuse et les données que nous avons glanées jusqu'à présent des études neurologiques montrent que de nouvelles recherches sur cette région du cerveau révéleront probablement de nouvelles mécaniques neurologiques essentielles pour développer des algorithmes efficaces pour le cocktail. problème de parti.


Voir la vidéo: Méthodes dOptimisation:Introduction Générale:Définition dun Problème dOptimisation Partie 1 (Juin 2022).