Distinguer la voix en une fraction de seconde

Publié le 16/10/2009 à 11:12

À lire ensuite D'immigrante à
première femme juge

Par Audrey Myrand-Langlois

Photographie fournie par le CRIM

Reconnaître les émotions de quelqu’un avec un extrait sonore de sa voix de seulement une à deux secondes, un défi que l’équipe de Pierre Dumouchel, professeur titulaire au département de génie logiciel et des TI à l’École de technologie supérieure (ÉTS) et vice-président scientifique du Centre de recherche informatique de Montréal (CRIM), a su surmonter.

C’est à partir d’extraits sonores de une à trois secondes que l’équipe de Pierre Dumouchel du CRIM a réussi à déterminer la tendance de leur émotion en s’appuyant uniquement sur la hauteur et l’intensité du son émis durant l’expression de syllabes.

Cette technique unique, développée par l’École de technologie supérieure et le Centre de recherche informatique de Montréal au courant des dernières années, a été la clé de son succès. Ce sont les « pseudo-syllabes » qui ont permis aux chercheurs d’analyser les extraits sur des durées pouvant aller jusqu’à une demi-seconde. C’est d’ailleurs pourquoi ils ont remporté le prix de reconnaissance des émotions positives et négatives à l’Interspeech Emotion Challenge 2009 en septembre dernier au Royaume-Uni, le premier concours de reconnaissance des émotions par ordinateur à partir de la voix organisé à l’échelle mondiale.

À quoi un tel système peut-il servir ?

Vous avez sûrement déjà été frustré à la suite d’un appel avec un centre de service à la clientèle, surtout si le message automatisé ne répondait pas à vos questions. Vous avez peut-être même émis un soupir pour simplement raccrocher peu de temps après.

C’est précisément l’idée commerciale que voit Pierre Dumouchel derrière cette nouvelle technologie. « Nous espérons vendre cette technologie à des entreprises qui ont des centres d’appels afin qu’ils puissent rappeler des consommateurs frustrés de leur expérience vocale automatisée », m'explique Pierre Dumouchel.

Depuis des années, le CRIM travaille avec des centres d’appels pour reconnaître la parole et avec des stations de télévision pour sous-titrer des reportages au bulletin de nouvelles ou pour sous-titrer pour les malentendants. Mais jamais auparavant n’a-t-il eu une technologie pour déterminer les émotions de l’interlocuteur, lesquels ne sont pas toujours évidentes à discerner en seulement quelques secondes.

Le CRIM recherche donc actuellement du financement pour mettre sa technologie sur le marché. Ils ont d’ailleurs fondé une entreprise, Perceve, afin de pouvoir mieux la commercialiser.

Qui est l’équipe de Pierre Dumouchel ?

L’équipe de M. Dumouchel réunissait deux doctorants à l’ÉTS en reconnaissance de l’identité à l’aide de la voix et en signal audio, à savoir Najim Dehak (présentement post-doctorant au Massachusetts Institute of Technology (MIT), codirigé par MM. Dumouchel et Patrick Kenny, chercheur au CRIM), Yazid Attabi, (dirigé par M. Dumouchel), ainsi que Réda Dehak, professeur à l’École pour l’informatique et les techniques avancées (ÉPITA), en France, et Narjès Boufaden, également chercheure au CRIM.

À la une

Distinguer la voix en une fraction de seconde

À la une

Assistons-nous à un retour en force des leaders toxiques?

Les nouvelles du marché du lundi 18 avril

Bourse: ce qui bouge sur les marchés avant l'ouverture jeudi 18 avril