La méthode ESPRIT
LE MODÈLE DE SINUSOÏDES AMORTIES
Un signal sonore peut être entièrement caractérisé par une courbe représentant les variations de la pression dans l'air en fonction du temps.
Plus ces variations seront grandes, et plus le son sera perçu comme "fort". Plus ces variations seront rapides, et plus le son sera perçu comme "aigu".
Ce type de représentation des sons (que l'on peut appeler représentation temporelle) est très largement répandu et intuitif pour une grande majorité d'entre nous.
Voici à titre d'exemple la représentation du son "hein ?" :
Le domaine de la synthèse sonore consiste à créer une représentation à l'aide d'une ou plusieurs expressions mathématiques, puis à reproduire le son qui lui est associé.
Par exemple, on peut générer une représentation d'un signal audio à l'aide de la fonction cosinus :
Comme on peut l'observer sur la figure, la quantité a représente la valeur maximale qu'elle peut prendre au cours du temps ; elle est communément appelée amplitude.
Plus cette valeur est grande, et plus le son associé est perçu comme ayant un niveau sonore élevé.
La quantité ω, appelée pulsation est directement liée à la fréquence par la formule :
La fréquence indique le nombre de fois que le signal atteint son maximum en une seconde.
C'est cette quantité qui détermine la hauteur tonale du son perçu.
Plus cette quantité sera grande, et plus le son perçu sera perçu comme aigu.
Par exemple, le signal de tonalité d'un téléphone est généré par une sinusoïde dont la fréquence vaut 440 Hz.
Cela signifie qu'en un seconde, le signal passe 440 fois par son maximum.
Si l'on double la fréquence (à 880 Hz), le son sera perçu comme plus aigu (une octave au-dessus, pour les musiciens) :
La quantité φ appelée phase à l'origine est liée au décalage du maximum de la sinusoïde avec l'origine des temps.
On peut bien-sûr complexifier le modèle mathématique permettant de générer la représentation en considérant par exemple des sommes de sinusoïdes d'amplitudes, de fréquences et de phases différentes :
 |
 |
Ici la sinusoïde rouge est obtenue en sommant les deux sinusoïdes bleues (K=2 dans l'équation du dessus).
On voit qu'avec seulement deux sinusoïdes, on parvient à créer des formes plus complexes.
Une petite précision concernant la phase : lorsque l'on se trouve en présence d'une seule sinusoïde, on peut considérer que la phase à l'origine n'a aucune influence sur le rendu final.
En revanche ici, la phase à l'origine va influencer grandement la façon dont les différentes sinusoïdes vont interagir.
Deux cas simples et extrêmes permettent de fixer les limites de ces interactions : si l'on somme deux sinusoïdes de même fréquence et de même amplitude qui ont leur maxima aux mêmes instants, la sinusoïde résultante sera d'amplitude égale à la somme des deux sinusoïdes initiales.
Si en revanche on décale une de ces sinusoïdes dans le temps (en modifiant la phase à l'origine) pour faire coïncider les maxima de l'une avec les minima de l'autre, le signal résultant sera nul.
On parle respectivement d'interférence constructive, et d'interférence destructive.
En sommant des sinusoïdes, on peut générer un large panel de signaux sonores, qui seront d'autant plus élaborés que le nombre de sinusoïdes utilisé pour les générer est grand.
Il a d'ailleurs été montré au XIXe siècle par Joseph Fourier que n'importe quel signal fini peut être représenté par une somme de sinusoïdes de ce type.
C'est ce qu'on appelle la décomposition en série de Fourier.
Observons maintenant l'allure d'un son d'impact, et cherchons à savoir quelle serait le modèle mathématique qui serait le plus adapté pour décrire sa représentation temporelle :
Si on observe uniquement les 20 premières millisecondes après l'attaque :
on voit que le son a "localement" (c'est-à-dire sur une durée très courte) une structure sinusoïdale.
Ceci laisse penser que le modèle de somme de sinusoïdes décrit ci-dessus est adapté pour les décrire.
Cependant, au niveau global, on constante que le signal diminue en amplitude au cours du temps.
Ici la physique nous renseigne : on sait que ce son a été obtenu en frappant un objet.
L'
analyse modale*, nous dit que la réponse d'une structure solide a une telle sollicitation est précisément une somme de sinusoïdes, mais qui sont amorties exponentiellement dans le temps.
On peut donc complexifier le modèle mathématique de la représentation pour prendre en compte cet amortissement exponentiel :
Chacune des K composantes à ainsi l'allure suivante :
Le modèle inclut maintenant une nouvelle variable δ_k appelée amortissement.
Plus sa valeur sera grande, plus le son s'amortira rapidement.
Pour se faire une idée du type de sons que l'on peut générer à l'aide de ce modèle, voici à titre d'exemple un signal généré en sommant 5 sinusoïdes amorties :
Le son ainsi crée est somme toute assez "naturel" au sens où il s'approche des sons qu'un individu est susceptible d'entendre dans son quotidien.
Notre pari ici est de supposer qu'une grande majorité des sons d'impact est modélisable par ce modèle.
La question de savoir quel est le jeu de paramètres (nombre de sinusoïdes, fréquences, amortissements,…) permettant de décrire au mieux un signal donné enregistré relève du domaine de l'analyse sonore (l'analyse et la synthèse sont souvent des problème très proches, si bien que l'on parle communément d'analyse-synthèse des signaux sonores).
C'est un domaine actif de recherche constitué et continuellement enrichi de toute un panel de méthodes d'analyse plus ou moins adaptées à différentes situations.
ESPRIT (Estimation of Signal Parameters via Rotational Invariance Techniques) est une méthode qui permet justement l'estimation des paramètres du modèle de somme de sinusoïdes amorties.
ESPRIT
La méthode ESPRIT (Estimation of Signal Parameters via Rotational Invariance Techniques) permet la description d'un signal comme une somme de sinusoïdes amorties.
Cette méthode fut initialement développée pour une autre application : l'estimation de la direction d'arrivée de signaux sur des réseaux d'antennes
1.
Cependant elle s'applique aussi parfaitement au cas des sinusoïdes amorties.
Grosso modo, on arrive théoriquement à séparer le signal en deux : une partie comprenant les sinusoïdes amorties, qui est celle qui nous intéresse, et une autre partie comprenant le bruit, qui est inévitable lorsque l'on effectue des mesures ou des enregistrements dans la vie réelle.
Cette opération est effectuée au moyen d'une décomposition en valeurs propres ou diagonalisation.
Une fois la partie intéressante isolée, on utilise la propriété dite d'invariance rotationnelle, propre aux sinusoïdes amorties que l'on recherche, pour estimer leur fréquence et leur amortissement.
De façon très grossière, invariance rotationnelle signifie que l'amortissement et la fréquence restent constants au cours du temps.
Les amplitudes et les phases sont ensuite estimées à l'aide d'une méthode par moindres carrés.
Afin de mettre en évidence l'efficacité de la méthode, voici quelques exemples d'analyse-synthèse :
SON DE BOIS
SON DE VERRE
SON DE METAL
Le lecteur averti pourra se reporter à ce
document pour un descriptif complet et rigoureux de la méthode.
1 - R. Roy and T. Kailath, “ESPRIT - Estimation of Signal Parameters via Rotational Invariance Techniques”, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 37, no. 7, pp. 984-995, 1989.