PROCÉDÉ DE SYNTHÈSE TRANSAURALE POUR LA SPATIALISATION SONORE

(19)

(11)

EP 2 815 589 B1

(12)	FASCICULE DE BREVET EUROPEEN

(45)	Mention de la délivrance du brevet:
	05.04.2017 Bulletin 2017/14

(21)	Numéro de dépôt: 13710449.3

(22)	Date de dépôt: 11.02.2013

(51)

Int. Cl.:

H04S 3/00^(2006.01)

(86)	Numéro de dépôt:
	PCT/FR2013/050278

(87)	Numéro de publication internationale:
	WO 2013/121136 (22.08.2013 Gazette 2013/34)

(54)	PROCÉDÉ DE SYNTHÈSE TRANSAURALE POUR LA SPATIALISATION SONORE TRANSAURALES SYNTHESEVERFAHREN ZUR SCHALLSPATIALISIERUNG TRANSAURAL SYNTHESIS METHOD FOR SOUND SPATIALIZATION

(84)	Etats contractants désignés:
	AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

(30)

Priorité:

13.02.2012 FR 1251328

(43)	Date de publication de la demande:
	24.12.2014 Bulletin 2014/52

(73)	Titulaires:
	Rosset, Franck 1000 Bruxelles (BE) Haurais, Jean-luc 75008 Paris (FR)

(72)	Inventeurs:
	Rosset, Franck 1000 Bruxelles (BE) Haurais, Jean-luc 75008 Paris (FR)

(74)	Mandataire: IP Trust
	2, rue de Clichy 75009 Paris 75009 Paris (FR)

(56)

Documents cités: :

EP-A2- 1 545 154
US-A1- 2002 133 327

MX-A- 2008 011 994

PLOGSTIES J ET AL: "MPEG Sorround binaural rendering - Sorround sound for mobile devices (Binaurale Wiedergabe mit MPEG Sorround - Sorround sound fuer mobile Geraete)", TONMEISTERTAGUNG. INTERNATIONALER KONGRESS, XX, XX, no. 24th, novembre 2006 (2006-11), pages 1-19, XP007902572,
JEUB M ET AL: "A binaural room impulse response database for the evaluation of dereverberation algorithms", DIGITAL SIGNAL PROCESSING, 2009 16TH INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 5 July 2009 (2009-07-05), pages 1-5, XP031510342, ISBN: 978-1-4244-3297-4

Il est rappelé que: Dans un délai de neuf mois à compter de la date de publication de la mention de la délivrance de brevet européen, toute personne peut faire opposition au brevet européen délivré, auprès de l'Office européen des brevets. L'opposition doit être formée par écrit et motivée. Elle n'est réputée formée qu'après paiement de la taxe d'opposition. (Art. 99(1) Convention sur le brevet européen).

Description

Domaine de l'invention

[0001] La présente invention concerne le domaine de la spatialisation sonore, dite rendu spacialisé, de signaux audio, intégrant en particulier un effet de salle, notamment dans le domaine des techniques transaurales.

[0002] Le terme " binaural " vise la restitution sur un casque stéréophonique, ou une paire d'écouteurs ou encore une paire d'enceintes, d'un signal sonore avec néanmoins des effets de spatialisation. L'invention ne se limite toutefois pas à la technique précitée et s'applique, notamment, à des techniques dérivées du "binaural" telles que les techniques de restitution "transaurale" (nom commercial), c'est-à-dire sur des hauts parleurs distants, installés par exemple dans une salle de concert ou de cinéma avec un système sonore multipoint.

[0003] Une application spécifique de l'invention est, par exemple, l'enrichissement des contenus audio diffusé par une paire d'enceintes afin de plonger un auditeur dans une scène sonore spatialisée, incluant en particulier un effet de salle ou d'espace extérieur.

Etat de la technique

[0004] Pour la mise en oeuvre des techniques "binaurales" sur casque ou haut-parleurs, on définit dans l'état de la technique une fonction de transfert, ou filtre, d'un signal sonore entre une position d'une source sonore dans l'espace et les deux oreilles d'un auditeur. La fonction de transfert acoustique de la tête précitée est désignée HRTF pour "Head Related Transfer Function" en anglais dans sa forme fréquentielle et HRIR pour "Head Related Impulse Response" en anglais dans sa forme temporelle. Pour une direction de l'espace, on obtient au final deux HRTF : une pour l'oreille droite et une pour l'oreille gauche.

[0005] En particulier, la technique binaurale consiste à appliquer de telles fonctions de transfert acoustique de la tête à des signaux audio monophoniques, afin d'obtenir un signal stéréophonique qui permet, lors d'une écoute au casque, d'avoir la sensation que les sources sonores proviennent d'une direction particulière de l'espace. Le signal de l'oreille droite est obtenu en filtrant le signal monophonique par la HRTF de l'oreille droite et le signal de l'oreille gauche est obtenu en filtrant ce même signal monophonique par la HRTF de l'oreille gauche.

[0006] Lorsque, dans le rendu spatial, l'on prend en compte le fait, pour l'auditeur, de percevoir les sources sonores plus ou moins éloignées de la tête, phénomène connu sous le nom d'externalisation, et ce de manière indépendante de la direction de provenance des sources sonores, il arrive fréquemment, dans un rendu 3D binaural, que les sources soient perçues à l'intérieur de la tête par l'auditeur. La source ainsi perçue est dite non externalisée.

[0007] Différents travaux ont montré que l'ajout d'un effet de salle dans les méthodes de rendu 3D binaurales permet d'augmenter considérablement l'externalisation des sources sonores.

[0008] On connaît dans l'état de la technique la demande de brevet US 2007/011025A décrivant un procédé de spatialisation de son comportant une étape de détermination d'une matrice acoustique pour un ensemble réel de sources sonores à un emplacement réel et une étape de calcul d'une matrice acoustique pour la transmission d'un signal acoustique d'un ensemble de sources sonores apparentes, à des emplacement différents des emplacements réels de l'auditeur. La méthode inclut plus loin une étape de résolution d'une matrice de fonction de transfert pour présenter à l'auditeur signal audio créant une image audio de son émanant la source apparente. Le document MX2008011994 décrit un procédé pour la production d'un fichier numérique audio stéréo spatialisé, à partir d'un fichier audio multicanal originel.

Inconvénients de l'art antérieur

[0009] Les solutions de l'art antérieur sont figés et ne permettent pas de choisir une ambiance spatiale parmi plusieurs ambiances possibles. Elles sont généralement basées sur une matrice de transformation calculée à partir d'une tête virtuelle.

[0010] Les solutions de l'art antérieur ne permettent généralement pas une impression d'externalisation de l'environnement sonore.

Solution apportée par l'invention

[0011] Les salles physiques et enceintes physiques permettent de calculer les filtres qui seront utilisés pour générer les multicanaux.

Description détaillée d'un exemple de réalisation non limitatif

[0012] La présente invention sera mieux comprise à la lecture de la description qui suit, faisant référence aux dessins annexés où :

la figure 1 représente un schéma de principe général de l'installation destiné à la phase de construire de la base de données de signaux impulsionnelle
la figure 2 représente une vue schématique de l'installation pour l'acquisition des signaux impulsionnels
la figure 3 représente un schéma de principe de l'installation d'écoute.

[0013] Le procédé selon l'invention est defini dans la revendication 1 et comporte un premier traitement (1) consistant à produire une base de données de signaux impulsionnels à partir de l'acquisition de signaux acoustiques dans une pluralité d'espaces physiques, par l'enregistrement des signaux produits par des enceintes acoustiques en réponse à un signal multifréquence de référence.

[0014] Ensuite, pour chaque séquence audio à spatialiser, le procédé consiste à appliquer une succession de traitements :

lorsque le signal à spatialiser est un signal stéréo, le procédé comporte une étape préliminaire (2) de construction d'un signal N.i à partir du signal stéréo
une étape (3) de transformation du signal de chacun des N.i canaux à partir de l'un des fichiers de réponse impulsionnel sélectionné dans la base de données susvisée
une étape (4) de recombinaison des signaux des N.i canaux ainsi transformés pour construire un signal stéréo spatialisé.

[0015] Ce signal stéréo pourra ensuite être diffusé par un couple d'enceintes acoustiques standard, pour restituer une ambiance sonore spatialisée correspondant à l'espace qui a servi à la production des signaux de réponse impulsionnel ou à une combinaison de tels espaces.

Etape initiale de construction de la base de réponses impulsionnelles.

[0016] Cette étape est répliquée une pluralité de fois. Elle est illustrée par la figure 2.

[0017] Elle consiste, pour chaque série de réponses impulsionnelles, à disposer dans un espace physique tel qu'une salle de concert, un lieu ouvert ou fermé, un local donnée, une série d'enceintes acoustiques (5 à 11 ; 17) connues, associées à un amplificateur (14), de préférence de qualité reconnue, ainsi qu'un couple de microphone (12, 13) dont la position par rapport à la série d'enceintes (5 à 11 ; 17) est figée pour la série en cours d'acquisition.

[0018] On applique ensuite successivement à chacune des enceintes (5 à 11) un signal multifréquence d'origine à l'aide de l'amplificateur (14). Ce signal d'origine est par exemple une séquence d'une durée comprise entre 10 et 90 secondes, avec une variation fréquentielle dans le spectre sonore. Ce signal est par exemple une variation linéaire entre 20Hz et 20 Khz, ou encore un signal quelconque couvrant l'ensemble du spectre de l'enceinte.

[0019] Le signal sonore produit par l'enceinte active est capté par le couple de microphone (12, 13) et produit un signal stéréo enregistré. A partir de ce signal on procède à un échantillonnage à 96 Khz de manière connue et à une déconvolution par transformée de Fourier rapide entre le signal d'origine et le signal enregistré, pour construire une réponse impulsionnelle pour l'enceinte considérée dans l'espace physique considéré.

[0020] On reproduit cette étape pour chacune des enceintes (5 à 11) de la série, puis pour différents espaces physiques où on réimplante une série d'enceintes, identiques ou différentes, avec un amplificateur identique ou différent et des microphones identiques.

[0021] Cette première étape conduit à la construction d'une base de données de réponses impulsionnelles stéréo.

Etape de préparation d'un signal spatialisé

[0022] Cette étape permet de construire un signal audio stéréo spatialisé à partir d'un signal multicanaux N.i correspondant à un enregistrement numérique traditionnel.

[0023] Cette étape consiste à sélectionner dans la base de données constituée lors de l'étape initiale N+i réponses impulsionnelles.

[0024] La sélection va consister à associer à chacun des N+i signaux l'une des réponses impulsionnelles de ladite base de données, en veillant à ce que la position d'acquisition dans l'espace de la réponse impulsionnelle corresponde à la position dans l'espace du canal auquel elle est associée.

[0025] Pour chaque couple «signal mono/réponse impulsionnel stéréo», on applique un traitement de convolution pour calculer un couple de de signaux spatialisés stéréo S_sG et S_sD.

[0026] On produit ainsi N+i couples de j signaux spatialisés S^j_sG et S^j_sD, avec J compris entre 1 et N+i.

[0027] Par exemple, si l'enregistrement de départ était de type 5.1, on va construire 6 couples de signaux spatialisés.

[0028] Optionnellement, on procède à une égalisation des canaux pour améliorer la dynamique des j signaux.

Construction du signal stéréo spatialisé

[0029] L'étape finale consiste à recombiner les j signaux pour construire un couple de signaux droit et gauche spatialisé.

[0030] Pour cela, on additionne les j signaux S^j_sG correspondant à l'espace situé à gauche, pour construire la voie gauche du signal stéréo spatialisé. On procède de même pour les j signaux S^j_sD correspondant à l'espace situé à droite, pour construire la voie droite du signal stéréo spatialisé.

[0031] Optionnellement, on procède à une égalisation des canaux pour améliorer la dynamique des deux voies.

Cas d'un signal de départ stéréo ; augmentation du nombre de canaux et création de canaux intermédiaires

[0032] Lorsque le signal à spatialiser n'est pas de type N.i mais simplement un signal stéréo, on procède à une étape intermédiaire consistant à construire un signal N.i par des traitements d'extraction par phase entre la piste gauche et droite, pour construire différents signaux nouveaux.

[0033] Cette extraction par phase consiste à produire un signal correspondant à une voie centrale reconstruite, par un traitement consistant à additionner le signal de la voie gauche avec un signal de la voie droite déphasée, par exemple en opposition de phase.

[0034] Pour créer les autres voies « reconstruites », on procède à des déphasages des pistes gauche et droite, avec des angles de déphasage différents, et on additionne les couples de signaux déphasés, avec des pondérations déterminées empiriquement afin de restituer une ambiance sonore spacialisée.

[0035] On applique de surcroit des filtres fréquentiels sur les signaux droit et gauche, lors de la créations de canaux « reconstruits », afin d'augmenter la dynamique du signal et conserver une qualité de haute fidélité du son.

Restitution du signal

[0036] La figure 3 représente une vue schématique de l'installation de restitution, à partir d'une paire d'enceintes réelles (17, 18).

[0037] Ce couple d'enceintes (17, 18) reçoit un signal permettant de simuler des enceintes calculées (20 à 27 et 30 à 37).

[0038] Le nombre effectif d'enceintes calculées (20 à 27) correspond au nombre d'enceintes physiques (5 à 11 ; 17) utilisés pour la production de la base de données de signaux impulsionnels, ou au nombre d'enceintes virtuelles reconstruites selon le procédé susvisé.

[0039] On crée en outre des enceintes virtuelles (30 à 37) produisant une perception dans l'espace sonore d'une combinaison des enceintes réelles voisines, afin de combler les trous sonores.

[0040] Ces enceintes virtuelles sont créées par une modification du signal alimentant les enceintes réelles voisines.

[0041] On produit ainsi quinze fichiers sonores, 8 (7.1) correspondant au traitement à partir des signaux impulsionnels, et 7 calculés par une combinaisons de ces quinze fichiers.

[0042] On répartit les signaux en fonction de leur composante droite, gauche ou centrale pour produire un signal gauche (17) destiné à l'enceinte gauche, et un signal droit destiné à l'enceinte droite (18) :

le signal « droite» correspond à l'addition des signaux « droite »calculés (21, 22, 23) et des signaux « droite » virtuels (30, 31, 32), ainsi que les signaux « centraux » calculé (20, 27) et virtuel (33) avec une pondération de l'amplitude de 50%
le signal « gauche » correspond à l'addition des signaux calculés gauche (24, 25, 26) et des signaux virtuels gauche (34, 35, 36), ainsi que les signaux centraux calculé (20, 27) et virtuel (33) avec une pondération de l'amplitude de 50%.

[0043] Ce signal stéréo est ensuite appliqué à un équipement audio classique, raccordé à une paire d'enceintes (18, 19), qui reproduiront une ambiance sonore spatialisée correspondant à l'ambiance sonore de l'installation qui a servi à la construction de la base de signaux impulsionnels, ou à une ambiance sonore virtuelle correspondant à la combinaison de plusieurs ambiances originelles, le cas échéant enrichie avec des ambiances virtuelles.

Revendications

1. Procédé pour la production d'un fichier numérique audio stéréo spatialisé à partir d'un fichier audio multicanal originel, caractérisé en ce qu'il comporte :

- un traitement (1) consistant à produire une base de données d'une pluralité de signaux de réponse impulsionnelle stéréo à partir de l'acquisition de signaux acoustiques dans une pluralité d'espaces physiques, par l'enregistrement des signaux produits par des enceintes acoustiques en réponse à un signal multifréquence de référence

- puis, pour chaque séquence audio à spatialiser,

o lorsque le signal à spatialiser est un signal stéréo, une étape préliminaire (2) de construction d'un signal N.i à partir du signal stéréo

o une étape (3) de transformation du signal de chacun des N.i canaux à partir de l'un des signaux de réponse impulsionnelle stéréo sélectionné dans la base de données susvisée, la position d'acquisition dans l'espace de la réponse impulsionnelle correspondant à la position dans l'espace du canal auquel elle est associée,

o une étape de traitement, sur chacun des canaux, pour la suppression des trajets croisés (cross talk cancelation)

o une étape (4) de recombinaison des signaux des N.i canaux ainsi transformés pour construire un signal stéréo spatialisé,

o une étape de filtrage dynamique et d'équalisation spécifique pour l'augmentation de la dynamique du son.

2. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la revendication précédente caractérisé en ce que l'étape de suppression des trajets croisés consiste à ajouter au signal de chacun des canaux un signal correspondant au signal déphasé et pondéré des autres canaux.

3. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la revendication 1 caractérisé en ce que le signal originel est un signal multicanal 5.n natif.

4. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la revendication 1 caractérisé en ce que le signal originel est un signal multicanal 5.n natif calculé à partir d'un signal stéréo.

5. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon l'une au moins des revendications précédentes caractérisé en ce qu'il comporte l'étape initiale de construction de la base de réponses impulsionnelles consiste, pour chaque série de réponses impulsionnelles, à disposer dans un espace physique une série d'enceintes acoustiques (5 à 11 ; 17) connues, associées à un amplificateur (14), ainsi qu'un couple de microphone (12, 13) dont la position par rapport à la série d'enceintes (5 à 11 ; 17) est figée pour la série en cours d'acquisition, puis à appliquer successivement à chacune des enceintes (5 à 11) un signal multifréquence d'origine à l'aide de l'amplificateur (14).

6. Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la revendication précédente caractérisé en ce que ledit signal d'origine est une séquence d'une durée comprise entre 10 et 90 secondes, avec une variation fréquentielle dans le spectre sonore.

Ansprüche

1. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei ausgehend von einer ursprünglichen Mehrkanal-Audiodatei, dadurch gekennzeichnet, dass es folgendes umfasst:

- eine Verarbeitung (1) die darin besteht, eine Datenbank mit einer Vielzahl von Stereosignalen mit Impulsantwort herzustellen ausgehend von der Erfassung akustischer Signale in einer Vielzahl physischer Räume durch Aufnahme der Signale, die von Lautsprechern als Antwort auf ein Mehrfrequenz-Bezugssignal erzeugt werden,

- dann, für jede räumlich anzupassende Tonaufnahme

o wenn das räumlich anzupassende Signal ein Stereosignal ist, einen ersten Schritt (2), in dem ein Signal N.i ausgehend von dem Stereosignal erzeugt wird;

o einen Schritt (3) der Umwandlung des Signals jeder der N.i Kanäle ausgehend von einem aus der oben genannten Datenbank ausgewählten Stereosignal mit Impulsantwort, wobei die Position der Erfassung der Impulsantwort im Raum der Position des Kanals im Raum entspricht, mit dem sie verbunden ist, entspricht;

o einen Schritt der Verarbeitung in jedem der Kanäle, um gekreuzten Wege (cross talk cancelation) zu löschen;

o einen Schritt (4) der Neukombination der auf diese Weise umgewandelten Signale der N.i Kanäle, um ein raumangepasstes Stereosignal zu erzeugen,

o einen Schritt der dynamischen Filterung und der spezifischen Entzerrung zur Steigerung der klanglichen Dynamik.

2. Verfahren für die Herstellung einer digitalen raumangepassten Stereo-Audiodatei nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Phase des Löschens der gekreuzten Wege darin besteht, zum Signal jeder der Kanäle ein Signal hinzuzufügen, das dem phasenverschobenen und gewichteten Signal der anderen Kanäle entspricht.

3. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach Anspruch 1, dadurch gekennzeichnet, dass das ursprüngliche Signal ein natives Mehrkanal-Signal 5.n ist.

4. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach Anspruch 1, dadurch gekennzeichnet, dass das ursprüngliche Signal ein natives Mehrkanalsignal 5.n ist, das ausgehend von einem Stereosignal berechnet wird.

5. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es den ersten Schritt der Herstellung der Impulsantwort-Datenbank umfasst, der darin besteht, bei jede Serie von Impulsantworten in einem physischen Raum eine Serie bekannter, akustischer Lautsprecher (5 bis 11; 17) anzuordnen, die mit einem Verstärker (14) verbunden sind sowie mit einem Mikrofonpaar (12, 13), dessen Position im Verhältnis zur Serie der Lautsprecher (5 bis 11; 17) bei der laufendem Erfassungsserie feststehend ist, und mit Hilfe des Verstärkers (14) nacheinander auf jeden der Lautsprecher (5 bis 11) ein ursprüngliches Mehrfrequenzsignal anzuwenden.

6. Verfahren für die Herstellung einer digitalen, raumangepassten Stereo-Audiodatei nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass besagtes ursprüngliches Signal eine Sequenz mit einer Dauer von 10 bis 90 Sekunden mit einer Frequenzvariation im Klangspektrum ist.

Claims

1. A method for producing a spatialized audio stereo digital file from an original multi-channel audio file, characterized in that it comprises:

- a processing (1) consisting in producing a data base of a plurality of stereo impulse response signals from the acquisition of acoustic signals in a plurality of physical spaces, by recording signals produced by loudspeakers as a response to a reference multi-frequency signal,

- then, for each audio sequence to be spatialized,

. when the signal to be spatialized is a stereo signal, a preliminary step (2) of generating a N.i signal from the stereo signal,

. a step (3) of transforming the signal of each of the N.i channels from one of the stereo impulse response signals selected from the above-mentioned data base, with the position in space of acquisition of the impulse response corresponding to the position in space of the channel which it is associated with,

. a step of processing, on each of the channels, for cross talk cancelation

. a step (4) of recombining the thus transformed signals of the N.i channels to generate a spatialized stereo signal,

. a step of dynamic filtering and specific equalization for increasing the sound dynamics.

2. A method for producing a spatialized audio stereo digital file according to the preceding claim, characterized in that the step of cross talk cancelation consists in adding a signal corresponding to the phase-shifted and weighted signal of the other channels to the signal of each of the channels.

3. A method for producing a spatialized audio stereo digital file according to claim 1, characterized in that the original signal is a native 5.n multi-channel signal.

4. A method for producing a spatialized audio stereo digital file according to claim 1, characterized in that the original signal is a native 5.n multi-channel signal calculated from a stereo signal.

5. A method for producing a spatialized audio stereo digital file according to at least one of the preceding claims, characterized in that it comprises the initial step of generating the impulse response base which consists, for each series of impulse responses, in positioning, in a physical space, a series of known loudspeakers (5 to 11; 17), associated with an amplifier (14), as well as a couple of microphones (12, 13), the position of which, relative to the series of loudspeakers (5 to 11; 17) is set for the series being acquired, then in successively applying an original multi-frequency signal to each loudspeaker (5 to 11), using the amplifier (14).

6. A method for producing a spatialized audio stereo digital file according to the preceding claim, characterized in that said original signal is a sequence with a duration ranging from 10 to 90 seconds, with a frequency variation in the sound spectrum.

Dessins

Références citées

RÉFÉRENCES CITÉES DANS LA DESCRIPTION

Cette liste de références citées par le demandeur vise uniquement à aider le lecteur et ne fait pas partie du document de brevet européen. Même si le plus grand soin a été accordé à sa conception, des erreurs ou des omissions ne peuvent être exclues et l'OEB décline toute responsabilité à cet égard.

Documents brevets cités dans la description