Génération automatique d’audiodescription et de synthé

Le sous-projet 4 (SP4) du Flagship IICT concerne la génération automatique d’audiodescriptions et de synthés.

L’audiodescription est une technique utilisée pour rendre un programme télévisé plus accessible aux personnes ayant une déficience visuelle. Il s’agit d’une voix off qui décrit en détail les scènes non parlées pour assurer une meilleure compréhension de ce qui se passe à l’écran. Le synthé (ou lower third voice) est un commentaire audio, communément utilisé pour fournir des informations complémentaires aux éléments narratifs (ex. lecture des textes à l’écran). Ces opérations se révèlent très chronophages pour des utilisateurs humains.

L’institut de recherche Icare est impliqué dans la mise en place de différentes approches basées sur des algorithmes spécialisés, d’intelligence artificielle et de machine learning, pour automatiser ces tâches. C’est-à-dire extraire automatiquement l’information visuelle, en générer une description textuelle et stocker le résultat de manière structurée dans un fichier informatique. Ce dernier pourra ensuite être vocalisé synthétiquement pour que le spectateur puisse en prendre connaissance.

 

Flagship Innosuisse PFFS-21-47: Inclusive Information and Communication Technologies