Tâche 6 : PLATEFORME DE SYNTHESE SPATIALISEE TEMPS-REEL POUR LA REALITE AUGMENTEE

Responsable : S. Ystad (LMA) Participants : LMA, INCM, PSA

Sous-tâche 6.1 : Mise au point d’un moteur de synthèse/spatialisation.

Cette sous-tâche portera sur la conception et le développement d'un moteur générique de synthèse spatialisée. Ce moteur permettra de synthétiser en temps réel les sons à partir de paramètres de bas niveau fournis par des unités de contrôle. Les sons seront également spatialisés, le rendu sonore se faisant sur un système de haut-parleurs multicanal ou sur casque.
Le moteur sera fondé sur une plateforme temps-réel de sons impulsifs (voir section 3.1) développée au LMA [AKVY09] ainsi que sur un algorithme de spatialisation conçu dans le cadre d’une collaboration entre le LMA, l’INCM et Orange Labs [VAKP10]. Le développement de modèles de synthèse sonore (sous-tâche 4.1) influencera également l’évolution de cette sous-tâche. En pratique, le moteur de synthèse devra répondre à de fortes contraintes techniques :

Un modèle de synthèse polyvalent : le moteur de synthèse devra générer une large palette de sons (sons nouveaux, sons d'environnement divers). Nous utiliserons le modèle additif qui est un modèle générique au sens où il permet de simuler des sons aussi bien musicaux qu'environnementaux ou abstraits [SS90, KGY97]. De plus, le modèle additif est associé à des outils d'analyse permettant d'extraire les paramètres de synthèse pour reproduire des sons enregistrés. Nous envisageons d'intégrer d'autres modèles de synthèse à la plateforme (soustractif, table d'onde, …) et de l’enrichir d’outils pour travailler les textures sonores. Ces outils seront utilisés notamment pour la sonification de véhicules (Tâche 2) et de l’écriture (Tâche 3).
Une compatibilité avec plusieurs systèmes de rendu sonore 3D : le moteur de synthèse intègrera plusieurs méthodes de positionnement audio (Ambisonics [MM95], synthèse binaurale [HM05], VBAP [Pul97]). Cela assurera la possibilité de spatialiser les sources sonores et de diffuser le rendu 3D au casque ou sur des configurations de haut-parleurs standardisées (par exemple 5.1, 7.1, ...) ou arbitraires.
Une orientation temps-réel : imposé par l'aspect interactif des applications visées, les sons devront s'adapter aux actions de l'utilisateur et par conséquent, devront être générés en temps-réel. Pour optimiser le coût de calcul, nous nous baserons sur une architecture couplant une implémentation efficace du modèle de synthèse additive par IFFT (Inverse Fast Fourier Transform [RD92]) avec des modules de spatialisation basés sur des gains d'encodage spatial, comme précédemment proposé dans [VAKP10]. De plus, l'architecture proposée permettra l'implémentation d'une nouvelle méthode d'élargissement spatial des sources par décorrélation sans filtrage (voir [VAKP10]).
Une portabilité du système : pour satisfaire les contraintes de portabilité du code et du temps réel, le moteur de synthèse/spatialisation sera développé sous forme d'une librairie en langage C. Cela garantira la compatibilité avec les machines standard équipées des systèmes d'exploitation Windows, macOSX et Linux, et également avec des machines mobiles (systèmes embarqués) disposant d'un compilateur C.