Domaine de l'invention
[0001] La présente invention concerne le domaine de la spatialisation sonore, dite rendu
spacialisé, de signaux audio, intégrant en particulier un effet de salle, notamment
dans le domaine des techniques transaurales.
[0002] Le terme " binaural " vise la restitution sur un casque stéréophonique, ou une paire
d'écouteurs ou encore une paire d'enceintes, d'un signal sonore avec néanmoins des
effets de spatialisation. L'invention ne se limite toutefois pas à la technique précitée
et s'applique, notamment, à des techniques dérivées du "binaural" telles que les techniques
de restitution "transaurale" (nom commercial), c'est-à-dire sur des hauts parleurs
distants, installés par exemple dans une salle de concert ou de cinéma avec un système
sonore multipoint.
[0003] Une application spécifique de l'invention est, par exemple, l'enrichissement des
contenus audio diffusé par une paire d'enceintes afin de plonger un auditeur dans
une scène sonore spatialisée, incluant en particulier un effet de salle ou d'espace
extérieur.
Etat de la technique
[0004] Pour la mise en oeuvre des techniques "binaurales" sur casque ou haut-parleurs, on
définit dans l'état de la technique une fonction de transfert, ou filtre, d'un signal
sonore entre une position d'une source sonore dans l'espace et les deux oreilles d'un
auditeur. La fonction de transfert acoustique de la tête précitée est désignée HRTF
pour "Head Related Transfer Function" en anglais dans sa forme fréquentielle et HRIR
pour "Head Related Impulse Response" en anglais dans sa forme temporelle. Pour une
direction de l'espace, on obtient au final deux HRTF : une pour l'oreille droite et
une pour l'oreille gauche.
[0005] En particulier, la technique binaurale consiste à appliquer de telles fonctions de
transfert acoustique de la tête à des signaux audio monophoniques, afin d'obtenir
un signal stéréophonique qui permet, lors d'une écoute au casque, d'avoir la sensation
que les sources sonores proviennent d'une direction particulière de l'espace. Le signal
de l'oreille droite est obtenu en filtrant le signal monophonique par la HRTF de l'oreille
droite et le signal de l'oreille gauche est obtenu en filtrant ce même signal monophonique
par la HRTF de l'oreille gauche.
[0006] Lorsque, dans le rendu spatial, l'on prend en compte le fait, pour l'auditeur, de
percevoir les sources sonores plus ou moins éloignées de la tête, phénomène connu
sous le nom d'externalisation, et ce de manière indépendante de la direction de provenance
des sources sonores, il arrive fréquemment, dans un rendu 3D binaural, que les sources
soient perçues à l'intérieur de la tête par l'auditeur. La source ainsi perçue est
dite non externalisée.
[0007] Différents travaux ont montré que l'ajout d'un effet de salle dans les méthodes de
rendu 3D binaurales permet d'augmenter considérablement l'externalisation des sources
sonores.
[0008] On connaît dans l'état de la technique la demande de
brevet US 2007/011025A décrivant un procédé de spatialisation de son comportant une étape de détermination
d'une matrice acoustique pour un ensemble réel de sources sonores à un emplacement
réel et une étape de calcul d'une matrice acoustique pour la transmission d'un signal
acoustique d'un ensemble de sources sonores apparentes, à des emplacement différents
des emplacements réels de l'auditeur. La méthode inclut plus loin une étape de résolution
d'une matrice de fonction de transfert pour présenter à l'auditeur signal audio créant
une image audio de son émanant la source apparente. Le document
MX2008011994 décrit un procédé pour la production d'un fichier numérique audio stéréo spatialisé,
à partir d'un fichier audio multicanal originel.
Inconvénients de l'art antérieur
[0009] Les solutions de l'art antérieur sont figés et ne permettent pas de choisir une ambiance
spatiale parmi plusieurs ambiances possibles. Elles sont généralement basées sur une
matrice de transformation calculée à partir d'une tête virtuelle.
[0010] Les solutions de l'art antérieur ne permettent généralement pas une impression d'externalisation
de l'environnement sonore.
Solution apportée par l'invention
[0011] Les salles physiques et enceintes physiques permettent de calculer les filtres qui
seront utilisés pour générer les multicanaux.
Description détaillée d'un exemple de réalisation non limitatif
[0012] La présente invention sera mieux comprise à la lecture de la description qui suit,
faisant référence aux dessins annexés où :
- la figure 1 représente un schéma de principe général de l'installation destiné à la
phase de construire de la base de données de signaux impulsionnelle
- la figure 2 représente une vue schématique de l'installation pour l'acquisition des
signaux impulsionnels
- la figure 3 représente un schéma de principe de l'installation d'écoute.
[0013] Le procédé selon l'invention est defini dans la revendication 1 et comporte un premier
traitement (1) consistant à produire une base de données de signaux impulsionnels
à partir de l'acquisition de signaux acoustiques dans une pluralité d'espaces physiques,
par l'enregistrement des signaux produits par des enceintes acoustiques en réponse
à un signal multifréquence de référence.
[0014] Ensuite, pour chaque séquence audio à spatialiser, le procédé consiste à appliquer
une succession de traitements :
- lorsque le signal à spatialiser est un signal stéréo, le procédé comporte une étape
préliminaire (2) de construction d'un signal N.i à partir du signal stéréo
- une étape (3) de transformation du signal de chacun des N.i canaux à partir de l'un
des fichiers de réponse impulsionnel sélectionné dans la base de données susvisée
- une étape (4) de recombinaison des signaux des N.i canaux ainsi transformés pour construire
un signal stéréo spatialisé.
[0015] Ce signal stéréo pourra ensuite être diffusé par un couple d'enceintes acoustiques
standard, pour restituer une ambiance sonore spatialisée correspondant à l'espace
qui a servi à la production des signaux de réponse impulsionnel ou à une combinaison
de tels espaces.
Etape initiale de construction de la base de réponses impulsionnelles.
[0016] Cette étape est répliquée une pluralité de fois. Elle est illustrée par la figure
2.
[0017] Elle consiste, pour chaque série de réponses impulsionnelles, à disposer dans un
espace physique tel qu'une salle de concert, un lieu ouvert ou fermé, un local donnée,
une série d'enceintes acoustiques (5 à 11 ; 17) connues, associées à un amplificateur
(14), de préférence de qualité reconnue, ainsi qu'un couple de microphone (12, 13)
dont la position par rapport à la série d'enceintes (5 à 11 ; 17) est figée pour la
série en cours d'acquisition.
[0018] On applique ensuite successivement à chacune des enceintes (5 à 11) un signal multifréquence
d'origine à l'aide de l'amplificateur (14). Ce signal d'origine est par exemple une
séquence d'une durée comprise entre 10 et 90 secondes, avec une variation fréquentielle
dans le spectre sonore. Ce signal est par exemple une variation linéaire entre 20Hz
et 20 Khz, ou encore un signal quelconque couvrant l'ensemble du spectre de l'enceinte.
[0019] Le signal sonore produit par l'enceinte active est capté par le couple de microphone
(12, 13) et produit un signal stéréo enregistré. A partir de ce signal on procède
à un échantillonnage à 96 Khz de manière connue et à une déconvolution par transformée
de Fourier rapide entre le signal d'origine et le signal enregistré, pour construire
une réponse impulsionnelle pour l'enceinte considérée dans l'espace physique considéré.
[0020] On reproduit cette étape pour chacune des enceintes (5 à 11) de la série, puis pour
différents espaces physiques où on réimplante une série d'enceintes, identiques ou
différentes, avec un amplificateur identique ou différent et des microphones identiques.
[0021] Cette première étape conduit à la construction d'une base de données de réponses
impulsionnelles stéréo.
Etape de préparation d'un signal spatialisé
[0022] Cette étape permet de construire un signal audio stéréo spatialisé à partir d'un
signal multicanaux N.i correspondant à un enregistrement numérique traditionnel.
[0023] Cette étape consiste à sélectionner dans la base de données constituée lors de l'étape
initiale N+i réponses impulsionnelles.
[0024] La sélection va consister à associer à chacun des N+i signaux l'une des réponses
impulsionnelles de ladite base de données, en veillant à ce que la position d'acquisition
dans l'espace de la réponse impulsionnelle corresponde à la position dans l'espace
du canal auquel elle est associée.
[0025] Pour chaque couple «signal mono/réponse impulsionnel stéréo», on applique un traitement
de convolution pour calculer un couple de de signaux spatialisés stéréo S
sG et S
sD.
[0026] On produit ainsi N+i couples de j signaux spatialisés S
jsG et S
jsD, avec J compris entre 1 et N+i.
[0027] Par exemple, si l'enregistrement de départ était de type 5.1, on va construire 6
couples de signaux spatialisés.
[0028] Optionnellement, on procède à une égalisation des canaux pour améliorer la dynamique
des j signaux.
Construction du signal stéréo spatialisé
[0029] L'étape finale consiste à recombiner les j signaux pour construire un couple de signaux
droit et gauche spatialisé.
[0030] Pour cela, on additionne les j signaux S
jsG correspondant à l'espace situé à gauche, pour construire la voie gauche du signal
stéréo spatialisé. On procède de même pour les j signaux S
jsD correspondant à l'espace situé à droite, pour construire la voie droite du signal
stéréo spatialisé.
[0031] Optionnellement, on procède à une égalisation des canaux pour améliorer la dynamique
des deux voies.
Cas d'un signal de départ stéréo ; augmentation du nombre de canaux et création de
canaux intermédiaires
[0032] Lorsque le signal à spatialiser n'est pas de type N.i mais simplement un signal stéréo,
on procède à une étape intermédiaire consistant à construire un signal N.i par des
traitements d'extraction par phase entre la piste gauche et droite, pour construire
différents signaux nouveaux.
[0033] Cette extraction par phase consiste à produire un signal correspondant à une voie
centrale reconstruite, par un traitement consistant à additionner le signal de la
voie gauche avec un signal de la voie droite déphasée, par exemple en opposition de
phase.
[0034] Pour créer les autres voies « reconstruites », on procède à des déphasages des pistes
gauche et droite, avec des angles de déphasage différents, et on additionne les couples
de signaux déphasés, avec des pondérations déterminées empiriquement afin de restituer
une ambiance sonore spacialisée.
[0035] On applique de surcroit des filtres fréquentiels sur les signaux droit et gauche,
lors de la créations de canaux « reconstruits », afin d'augmenter la dynamique du
signal et conserver une qualité de haute fidélité du son.
Restitution du signal
[0036] La figure 3 représente une vue schématique de l'installation de restitution, à partir
d'une paire d'enceintes réelles (17, 18).
[0037] Ce couple d'enceintes (17, 18) reçoit un signal permettant de simuler des enceintes
calculées (20 à 27 et 30 à 37).
[0038] Le nombre effectif d'enceintes calculées (20 à 27) correspond au nombre d'enceintes
physiques (5 à 11 ; 17) utilisés pour la production de la base de données de signaux
impulsionnels, ou au nombre d'enceintes virtuelles reconstruites selon le procédé
susvisé.
[0039] On crée en outre des enceintes virtuelles (30 à 37) produisant une perception dans
l'espace sonore d'une combinaison des enceintes réelles voisines, afin de combler
les trous sonores.
[0040] Ces enceintes virtuelles sont créées par une modification du signal alimentant les
enceintes réelles voisines.
[0041] On produit ainsi quinze fichiers sonores, 8 (7.1) correspondant au traitement à partir
des signaux impulsionnels, et 7 calculés par une combinaisons de ces quinze fichiers.
[0042] On répartit les signaux en fonction de leur composante droite, gauche ou centrale
pour produire un signal gauche (17) destiné à l'enceinte gauche, et un signal droit
destiné à l'enceinte droite (18) :
- le signal « droite» correspond à l'addition des signaux « droite »calculés (21, 22,
23) et des signaux « droite » virtuels (30, 31, 32), ainsi que les signaux « centraux
» calculé (20, 27) et virtuel (33) avec une pondération de l'amplitude de 50%
- le signal « gauche » correspond à l'addition des signaux calculés gauche (24, 25,
26) et des signaux virtuels gauche (34, 35, 36), ainsi que les signaux centraux calculé
(20, 27) et virtuel (33) avec une pondération de l'amplitude de 50%.
[0043] Ce signal stéréo est ensuite appliqué à un équipement audio classique, raccordé à
une paire d'enceintes (18, 19), qui reproduiront une ambiance sonore spatialisée correspondant
à l'ambiance sonore de l'installation qui a servi à la construction de la base de
signaux impulsionnels, ou à une ambiance sonore virtuelle correspondant à la combinaison
de plusieurs ambiances originelles, le cas échéant enrichie avec des ambiances virtuelles.
1. Procédé pour la production d'un fichier numérique audio stéréo spatialisé à partir
d'un fichier audio multicanal originel,
caractérisé en ce qu'il comporte :
- un traitement (1) consistant à produire une base de données d'une pluralité de signaux
de réponse impulsionnelle stéréo à partir de l'acquisition de signaux acoustiques
dans une pluralité d'espaces physiques, par l'enregistrement des signaux produits
par des enceintes acoustiques en réponse à un signal multifréquence de référence
- puis, pour chaque séquence audio à spatialiser,
o lorsque le signal à spatialiser est un signal stéréo, une étape préliminaire (2)
de construction d'un signal N.i à partir du signal stéréo
o une étape (3) de transformation du signal de chacun des N.i canaux à partir de l'un
des signaux de réponse impulsionnelle stéréo sélectionné dans la base de données susvisée,
la position d'acquisition dans l'espace de la réponse impulsionnelle correspondant
à la position dans l'espace du canal auquel elle est associée,
o une étape de traitement, sur chacun des canaux, pour la suppression des trajets
croisés (cross talk cancelation)
o une étape (4) de recombinaison des signaux des N.i canaux ainsi transformés pour
construire un signal stéréo spatialisé,
o une étape de filtrage dynamique et d'équalisation spécifique pour l'augmentation
de la dynamique du son.
2. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la
revendication précédente caractérisé en ce que l'étape de suppression des trajets croisés consiste à ajouter au signal de chacun
des canaux un signal correspondant au signal déphasé et pondéré des autres canaux.
3. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la
revendication 1 caractérisé en ce que le signal originel est un signal multicanal 5.n natif.
4. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la
revendication 1 caractérisé en ce que le signal originel est un signal multicanal 5.n natif calculé à partir d'un signal
stéréo.
5. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon l'une
au moins des revendications précédentes caractérisé en ce qu'il comporte l'étape initiale de construction de la base de réponses impulsionnelles
consiste, pour chaque série de réponses impulsionnelles, à disposer dans un espace
physique une série d'enceintes acoustiques (5 à 11 ; 17) connues, associées à un amplificateur
(14), ainsi qu'un couple de microphone (12, 13) dont la position par rapport à la
série d'enceintes (5 à 11 ; 17) est figée pour la série en cours d'acquisition, puis
à appliquer successivement à chacune des enceintes (5 à 11) un signal multifréquence
d'origine à l'aide de l'amplificateur (14).
6. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la
revendication précédente caractérisé en ce que ledit signal d'origine est une séquence d'une durée comprise entre 10 et 90 secondes,
avec une variation fréquentielle dans le spectre sonore.
1. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei ausgehend
von einer ursprünglichen Mehrkanal-Audiodatei,
dadurch gekennzeichnet, dass es folgendes umfasst:
- eine Verarbeitung (1) die darin besteht, eine Datenbank mit einer Vielzahl von Stereosignalen
mit Impulsantwort herzustellen ausgehend von der Erfassung akustischer Signale in
einer Vielzahl physischer Räume durch Aufnahme der Signale, die von Lautsprechern
als Antwort auf ein Mehrfrequenz-Bezugssignal erzeugt werden,
- dann, für jede räumlich anzupassende Tonaufnahme
o wenn das räumlich anzupassende Signal ein Stereosignal ist, einen ersten Schritt
(2), in dem ein Signal N.i ausgehend von dem Stereosignal erzeugt wird;
o einen Schritt (3) der Umwandlung des Signals jeder der N.i Kanäle ausgehend von
einem aus der oben genannten Datenbank ausgewählten Stereosignal mit Impulsantwort,
wobei die Position der Erfassung der Impulsantwort im Raum der Position des Kanals
im Raum entspricht, mit dem sie verbunden ist, entspricht;
o einen Schritt der Verarbeitung in jedem der Kanäle, um gekreuzten Wege (cross talk
cancelation) zu löschen;
o einen Schritt (4) der Neukombination der auf diese Weise umgewandelten Signale der
N.i Kanäle, um ein raumangepasstes Stereosignal zu erzeugen,
o einen Schritt der dynamischen Filterung und der spezifischen Entzerrung zur Steigerung
der klanglichen Dynamik.
2. Verfahren für die Herstellung einer digitalen raumangepassten Stereo-Audiodatei nach
dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Phase des Löschens der gekreuzten Wege darin besteht, zum Signal jeder der Kanäle
ein Signal hinzuzufügen, das dem phasenverschobenen und gewichteten Signal der anderen
Kanäle entspricht.
3. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach
Anspruch 1, dadurch gekennzeichnet, dass das ursprüngliche Signal ein natives Mehrkanal-Signal 5.n ist.
4. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach
Anspruch 1, dadurch gekennzeichnet, dass das ursprüngliche Signal ein natives Mehrkanalsignal 5.n ist, das ausgehend von einem
Stereosignal berechnet wird.
5. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach
mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es den ersten Schritt der Herstellung der Impulsantwort-Datenbank umfasst, der darin
besteht, bei jede Serie von Impulsantworten in einem physischen Raum eine Serie bekannter,
akustischer Lautsprecher (5 bis 11; 17) anzuordnen, die mit einem Verstärker (14)
verbunden sind sowie mit einem Mikrofonpaar (12, 13), dessen Position im Verhältnis
zur Serie der Lautsprecher (5 bis 11; 17) bei der laufendem Erfassungsserie feststehend
ist, und mit Hilfe des Verstärkers (14) nacheinander auf jeden der Lautsprecher (5
bis 11) ein ursprüngliches Mehrfrequenzsignal anzuwenden.
6. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach
dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass besagtes ursprüngliches Signal eine Sequenz mit einer Dauer von 10 bis 90 Sekunden
mit einer Frequenzvariation im Klangspektrum ist.
1. A method for producing a spatialized audio stereo digital file from an original multi-channel
audio file,
characterized in that it comprises:
- a processing (1) consisting in producing a data base of a plurality of stereo impulse
response signals from the acquisition of acoustic signals in a plurality of physical
spaces, by recording signals produced by loudspeakers as a response to a reference
multi-frequency signal,
- then, for each audio sequence to be spatialized,
. when the signal to be spatialized is a stereo signal, a preliminary step (2) of
generating a N.i signal from the stereo signal,
. a step (3) of transforming the signal of each of the N.i channels from one of the
stereo impulse response signals selected from the above-mentioned data base, with
the position in space of acquisition of the impulse response corresponding to the
position in space of the channel which it is associated with,
. a step of processing, on each of the channels, for cross talk cancelation
. a step (4) of recombining the thus transformed signals of the N.i channels to generate
a spatialized stereo signal,
. a step of dynamic filtering and specific equalization for increasing the sound dynamics.
2. A method for producing a spatialized audio stereo digital file according to the preceding
claim, characterized in that the step of cross talk cancelation consists in adding a signal corresponding to the
phase-shifted and weighted signal of the other channels to the signal of each of the
channels.
3. A method for producing a spatialized audio stereo digital file according to claim
1, characterized in that the original signal is a native 5.n multi-channel signal.
4. A method for producing a spatialized audio stereo digital file according to claim
1, characterized in that the original signal is a native 5.n multi-channel signal calculated from a stereo
signal.
5. A method for producing a spatialized audio stereo digital file according to at least
one of the preceding claims, characterized in that it comprises the initial step of generating the impulse response base which consists,
for each series of impulse responses, in positioning, in a physical space, a series
of known loudspeakers (5 to 11; 17), associated with an amplifier (14), as well as
a couple of microphones (12, 13), the position of which, relative to the series of
loudspeakers (5 to 11; 17) is set for the series being acquired, then in successively
applying an original multi-frequency signal to each loudspeaker (5 to 11), using the
amplifier (14).
6. A method for producing a spatialized audio stereo digital file according to the preceding
claim, characterized in that said original signal is a sequence with a duration ranging from 10 to 90 seconds,
with a frequency variation in the sound spectrum.