Porteur du projet
I3S - Université de NicePartenaires
PARISSON, DEEZER, IRCAMFinanceurs
ANR,WASABI
Web Audio et Web Sémantique agrégées dans le navigateur pour de l'indexation
Deezer, Spotify, Pandora ou Apple-Music enrichissent l’écoute de pièces musicales par la biographie ou les albums du même artiste, et proposent des suggestions pour écouter d’autres oeuvres ou artistes “proches” (sans que la proximité ne soit définie). Un journaliste ou un animateur radio utilise souvent les données du Web et de la presse pour préparer ses émissions. Un professeur en Master en ingénierie utilise des outils d’analyse pour expliquer les techniques de production à ses étudiants. Tous utilisent des bases de connaissances allant de la plus empirique (la presse, Google) à la plus formalisée et accessible par des machines (Spotify utilise LastFM, MusicBrainz, DBPedia et des extracteurs audio issus de la startup The Echo Nest rachetée en 2014). Le besoin pour des bases de connaissances musicales plus riches, et pour des outils d’exploitation est important.
Le projet WASABI a pour originalité de mélanger plusieurs approches et propose une méthode d’enrichissement des résultats, cette mise en oeuvre conjointe qui vise à produire une base de connaissance plus riche et mieux outillée :
1) En exploitant les bases de données du Web Sémantique (par exemple: DBPedia, MusicBrainz, LastFM) on peut extraire des données structurées, liant la chanson à des éléments tels que le producteur, le studio où elle a été enregistrée, le compositeur, l’année, les paroles, la page WikiPedia la décrivant, etc.
2) En analysant les données en texte libre (paroles de la chanson, texte de pages liées à cette chanson), on peut extraire des données non explicites (thèmes abordés par la chanson, lieux, personnes, événements, dates, émotions véhiculées). Les données obtenues par ces quatre méthodes peuvent être liées, confrontées, confirmées ou infirmées en fonction des hypothèses, par exemple la description d’un groupe de rock et d’un producteur peuvent servir à configurer les paramètres initiaux de l’analyse audio et faciliter le démixage.
3) En utilisant de manière conjointe ces informations issues du Web Sémantique et de l’analyse des paroles avec les informations contenues dans le signal audio on peut améliorer l’extraction automatique d’information musicale (la structure temporelle, la présence et caractérisation de la voix, l’émotion musicale ou la présence de plagiat, reprise).
4) Lorsque une chanson est accessible sous forme démixées (pistes séparées) on peut procéder à une analyse audio plus précise et extraire des données plus riches (notes, instruments, type de réverbération, etc.). On étudiera dans ce projet comment le démixage peut être obtenu et comment un résultat peut être utilisé même lorsqu’il est imparfait dans le contexte du navigateur.
5) En favorisant la sérendipité et trouver des données non triviales avec un outil comme Discovery Hub (et répondre à des questions comme : qu’est-ce qui relie Radiohead à Pink Floyd ?)
Le projet WASABI spécifiera l’ensemble de ces cas d’usage grâce à la présence d’utilisateurs potentiels des technologies (Deezer, RadioFrance, journalistes musicaux, compositeurs et musicologues). WASABI proposera une suite de briques logicielles open source et de services en ligne open-data pour :
1) la visualisation de métadonnées audio des résultats de Music Information Retrieval et l’écoute de pistes démixées dans le navigateur en exploitant les dernières technologies issues de la Web Audio API (mixage temps réel, effets audio).
2) le traitement automatique de textes de chansons, reconnaissance et liage d’entité nommées, d’annotation et correction collaborative,
3) l’accès à un service web doté d’une API proposant un environnement d’étude de similarités musicales issu des analyses audio d’une part et sémantiques d’autre part. Ces briques logicielles serviront aux développement des démonstrateurs formalisés avec nos collaborateurs, utilisant le nouveau standard Web Audio API et permettant ainsi le développement d’applications musicales accessibles au grand public depuis un navigateur Web.