musique contemporaine

Ircam - articles scientifiques notice originale

Segmentation et indexation des signaux sonores musicaux

Type

text
 

Genre(s)

mémoire ou thèse
 

Forme(s)

document imprimé
 

Cette ressource est disponible chez l'organisme suivant : Ircam - Centre Pompidou

Identification

Titre

Segmentation et indexation des signaux sonores musicaux
 

Nom(s)

Rossignol, Stéphane (auteur)
 

Publication

Jussieu , 2000
 

Description

Sujet(s)

Segmentation   Indexation   Vibrato   DécisionSeuillage automatique   Classification
 

Résumé

Ce travail concerne la segmentation et l'indexation des signaux sonores musicaux. Trois niveaux de segmentation interdépendants sont définis, correspondant chacun à un niveau de description du son différent. 1) Le premier niveau, appelé << sources >>, concerne la distinction entre la parole et la musique. Les sons considérés peuvent provenir par exemple de bandes-son de films ou d'émissions radiophoniques. Des fonctions d'observation sont étudiées, qui tentent de mettre en évidence les propriétés différentes du signal de parole et du signal de musique. Plusieurs méthodes de classification ont été étudiées. Les performances du système avec des signaux réels sont discutées. 2) Le deuxime niveau, appelé << caractéristiques >>, concerne ce type d'index : silence/son, voisé/non voisé, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato. La plupart de ces caractéristiques donnent lieu à des fonctions d'observation utilisées par le troisième niveau. La détection du vibrato, l'estimation de ses paramètres (fréquence et amplitude) et sa suppression du trajet de f0 ont été particulièrement étudiées. Un ensemble de techniques sont décrites. Les performances de ces techniques avec des sons réels sont discutées. Le vibrato est supprimé du trajet de f0 original afin d'obtenir une ligne mélodique << lissée >>. Alors, ce nouveau trajet de f0 peut être utilisé pour la segmentation en notes (troisième niveau) des extraits musicaux, et peut aussi être utilisé pour des modifications de ces sons. La détection du vibrato est opérée seulement si lors du premier niveau de la musique a été détectée. 3) Le troisième niveau concerne la segmentation en << notes ou en phones ou plus généralement en parties stables >>, suivant la nature du son considéré : instrumental, voix chantée, parole, son percussif... L'analyse est composée de quatre étapes. La première consiste à extraire un grand nombre de fonctions d'observation. Une fonction d'observation est d'autant plus appropriée qu'elle présente des pics grands et fins quand des transitions surviennent et que sa moyenne et sa variance restent petites pendant les zones stables. Trois types de transitions existent : celles en f0, celles en énergie et celles en contenu spectral. En deuxième lieu, chaque fonction d'observation est automatiquement seuillée. En troisième lieu, une fonction de décision finale, correspondant aux marques de segmentation, est construite à partir des fonctions d'observation seuillées. Finalement, pour les sons monophoniques et harmoniques, la transcription automatique est effectuée. Les performances du système avec des sons réels sont discutées. Les données obtenues pour un certain niveau sont utilisées par les niveaux de numéros d'ordre supérieurs afin d'améliorer leurs performances.
 

Localisation

Envoyer la notice

Bookmark and Share 
 

Identifiant OAI

 

Date de la notice

2006-03-14 01:00:00
 

Identifiant portail

 

Contact