[0001] La présente invention se rapporte de manière générale à la compression de flux audio
multicanal - c'est-à-dire comprenant une pluralité de signaux audio - destinés à être
traités par un système audio comprenant une pluralité de haut-parleurs afin de reproduire
une scène sonore spatialisée. En particulier, les moyens de compression s'appliquent
aux flux audio encodés selon un format de codage multicanal de type 5.1, 6.1, 7.1,
10.2, 22.2, ou encore selon un format de codage ambiophonique communément désigné
par l'acronyme anglo-saxon « HOA » pour «Higher Order Ambisonics ». Le format d'encodage
ambiophonique HOA est notamment détaillé dans le document Daniel, J., Représentation
de champs acoustiques, application à la transmission et à la reproduction de scènes
sonores complexes dans un contexte multimédia. 2000, Thèse de l'Université Pierre
et Marie Curie (Paris VI): Paris. La compression opérée sur les flux audio peut notamment
être introduite préalablement à une étape de transmission, de diffusion, ou de stockage
par exemple sur un disque optique.
[0002] Pour réduire la quantité d'information nécessaire pour représenter un flux audio
multicanal, il est possible de coder séparément les différents signaux constitutifs
dudit flux selon un schéma conventionnel de compression de flux audio, exploitant
généralement les propriétés de masquage fréquentiel observées dans la perception d'un
signal sonore par un auditeur. On peut citer à titre d'exemple le codage « MPEG-1/2
Audio Layer 3 », plus généralement désigné par son acronyme MP3, ou encore le codage
audio avancé ou « AAC » pour « Advanced Audio Coding » en anglais. Les signaux étant
considérés séparément, les éventuelles redondances entre les signaux sont peu exploitées.
Cette solution est adaptée à l'encodage de flux audio multicanaux à haut débit, typiquement
ayant un débit supérieur ou égal à 128 kbit/s par canal dans le cas du MP3, 64 kbits/s
par canal dans le cas de l'AAC. Ainsi, l'encodage séparé des signaux d'un flux n'est
pas adapté à la production de flux, dont le débit est de l'ordre typiquement de 64
kbits/s pour 5 à 7 canaux, sans réduction significative du niveau de qualité sonore.
[0003] Une autre alternative possible consiste à mélanger les différents flux pour obtenir
un signal mono ou stéréo. Cette technique est notamment employée dans le codage «
MPEG Surround » en bas débit, c'est-à-dire dont le débit est de l'ordre typiquement
de 64 kbits/s pour 5 à 7 canaux. Cette opération est conventionnellement qualifiée
de « downmix » en anglais. Le signal mono ou stéréo peut alors être codé selon un
schéma conventionnel de compression pour obtenir un flux compressé. Des informations
spatiales sont en outre calculées puis ajoutées au flux compressé. Ces informations
spatiales sont par exemple le retard entre deux canaux (en anglais, « ICTD » pour
« Inter-Channei Time Difference »), la différence d'énergie entre deux canaux ( en
anglais « ICLD » pour « Inter-Channel Level Difference »), la corrélation entre deux
canaux (en anglais « ICC » pour « Inter-Channel Coherence »).
[0004] Le codage du signal mono ou stéréo issu de l'opération de "downmix" est effectué
en se basant sur l'hypothèse inadaptée d'une perception monophonique ou stéréophonique
et ne prend donc pas en compte les caractéristiques propres à une perception spatiale
du signal multi-canal, notamment dans le cas où le flux audio comporte un nombre important
de canaux, typiquement supérieur ou égal à 7.
[0005] Ainsi, la dégradation inaudible sur le signal issu de l'opération de "downmix" peut
devenir audible sur un dispositif de restitution multi haut-parleurs du flux multi-canal
résultant du traitement de "upmix", notamment en raison du phénomène de démasquage
binaural, décrit notamment dans le document
Saberi, K., Dostal, L., Sadralodabai, T., and Bull, V., "Free-field release from masking,"
Journal of the Acoustical Society of America, vol. 90, 1991, pp. 1355-1370.
[0006] Le document
WO2009/067741 décrit un procédé de codage de représentations paramétriques de champs sonores. Le
champ de pression échantillonné temporellement et spatialement dans une zone cible
tridimensionnelle peut être premièrement paramétré par une décomposition par des fonctions
d'une base orthogonale et deuxièmement paramétré en utilisant les corrélations spatiales
et temporelles entre les paramètres du premier jeu de paramètres.
[0007] Il existe donc un besoin pour compresser plus efficacement des flux audio spatialisés
tout en conservant une qualité sonore perçue au moins équivalente aux techniques de
l'état de l'art.
[0008] La présente invention vise à améliorer la situation.
[0009] Selon un premier aspect, il est proposé un procédé de compression d'un flux audio
comprenant une pluralité de signaux. Le flux audio décrit une scène sonore produite
par une pluralité de sources dans un espace. Le procédé comporte les étapes suivantes
:
- à partir du flux audio, identification des sources ;
- détermination pour chacune des sources identifiées d'une bande de fréquences, d'un
niveau d'énergie et d'une position spatiale dans l'espace;
- détermination, pour chaque source identifiée, d'une résolution spatiale correspondant
à une variation de position de ladite source dans l'espace la plus faible qu'un auditeur
est susceptible de percevoir, en fonction :
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite
source ; et,
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres
sources identifiées ;
- génération d'un flux compressé comportant les informations nécessaires pour restituer
chaque source identifiée avec au moins la résolution spatiale correspondante
[0010] Le procédé de compression propose une solution pour exploiter les propriétés psychoperceptives
et cognitives de perception audio spatialisée d'un auditeur pour compresser le flux
audio multicanal. Parmi ces propriétés, on peut citer le masquage spatial d'une source
prédominante sur les autres sources, réduisant la capacité d'un auditeur à localiser
ces dernières. sonores non exploitées par le système auditif de l'auditeur, sans présenter
de risques d'introduction d'artefacts audibles dans le système de restitution spatialisée,
contrairement aux techniques de compression de l'art antérieur.
[0011] En outre, le procédé selon l'invention permet d'exploiter les interactions entre
les différentes sources, puisque la résolution spatiale de chaque source est déterminée,
non seulement en fonction des caractéristiques de ladite source, mais encore en fonction
de celles des autres sources de l'espace. En comparaison des autres techniques de
compression traitant chaque signal séparément, le taux de compression obtenu s'avère
potentiellement plus important.
[0012] Il est possible d'identifier, dans l'espace, seulement les sources audibles par un
auditeur, ce qui permet de réduire encore ainsi les informations à coder. Par exemple,
à l'aide d'une analyse de masquage énergétique simultané prenant en compte le démasquage
binaural, un sous-ensemble des sources sonores est répertorié. En effet, les sources
non-audibles n'ont pas nécessairement besoin d'être considérées dans la mise en oeuvre
du modèle psycho-acoustique de masquage spatial. Ainsi, la complexité, au sens algorithmique
du terme, du procédé peut être diminuée.
[0013] Dans un mode de réalisation, les signaux du flux audio comprennent des informations
représentant la scène sonore dans une base d'harmoniques sphériques. Alternativement,
le procédé peut comporter une étape de transposition des informations comprises dans
les signaux du flux audio représentant la scène sonore dans une base d'harmoniques
sphériques, permettant ainsi de convertir le flux.
[0014] Dans ce mode de réalisation, le flux compressé peut également être généré en subdivisant
l'espace en sous-espaces, et en tronquant, pour chacun des sous-espaces, un ordre
de représentation des signaux dans la base des harmoniques sphériques, jusqu'à obtenir
une résolution spatiale sensiblement égale à la valeur maximale des résolutions spatiales
associées aux sources présentes dans le sous-espace considéré.
[0015] La troncature de l'ordre de représentation des signaux permet de diminuer la résolution
spatiale de la représentation des signaux. Dans le cas d'une représentation HOA, la
scène sonore peut être décrite par un ensemble de signaux correspondant aux coefficients
de la décomposition de l'onde acoustique sur la base des harmoniques sphériques. Cette
représentation possède la propriété de scalabilité, au sens où les coefficients sont
hiérarchisés et que les coefficients des premiers ordres contiennent une description
complète de la scène sonore. Les coefficients des ordres supérieurs ne font que préciser
l'information spatiale. La troncature de l'ordre de représentation revient en ce cas
à éliminer les composantes des ordres supérieurs jusqu'à atteindre la résolution déterminée.
[0016] Dans ce mode de réalisation, la subdivision de l'espace en sous-espaces peut être
dynamique au cours du temps. Une subdivision dynamique permet de regrouper dans un
même sous-espace des sources adjacentes de résolutions spatiales perçues de manière
similaire.
[0017] Dans un mode particulier de réalisation, les différentes étapes des procédés de compression
sont déterminées par des instructions de programmes d'ordinateurs.
[0018] En conséquence, l'invention vise aussi des programmes d'ordinateur sur un support
d'informations, ces programmes étant susceptibles d'être mis en oeuvre respectivement
dans un ordinateur, ces programmes comportant respectivement des instructions adaptées
à la mise en oeuvre des étapes des procédés de compression qui viennent d'être décrits.
[0019] Ces programmes peuvent utiliser n'importe quel langage de programmation, et être
sous la forme de code source, code objet, ou de code intermédiaire entre code source
et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle
autre forme souhaitable.
[0020] L'invention vise aussi un support d'informations lisible par un ordinateur, et comportant
des instructions d'un programme d'ordinateur tel que mentionné ci-dessus.
[0021] Le support d'informations peut être n'importe quelle entité ou dispositif capable
de stocker le programme. Par exemple, le support peut comporter un moyen de stockage,
tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou
encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc)
ou un disque dur.
[0022] D'autre part, le support d'informations peut être un support transmissible tel qu'un
signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique,
par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier
téléchargé sur un réseau de type Internet.
[0023] Alternativement, le support d'informations peut être un circuit intégré dans lequel
le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé
dans l'exécution des procédés en question.
[0024] Selon un deuxième aspect, il est proposé un dispositif de compression de flux audio
multicanal, adapté à la mise en oeuvre du procédé selon le premier aspect. Le dispositif
comprend une entrée pour recevoir un flux audio multicanal décrivant une scène sonore
produite par une pluralité de sources dans un espace, et une sortie pour délivrer
un flux compressé. Le dispositif comporte en outre :
- une unité d'identification des sources, couplée à l'entrée, adaptée pour identifier
les sources, à partir du flux, et pour déterminer pour chacune des sources identifiées
une bande de fréquence, un niveau d'énergie et une position spatiale dans l'espace
;
- une unité de détermination de résolution spatiale, couplée à l'unité d'identification,
adaptée pour déterminer, pour chaque source identifiée, une résolution spatiale correspondant
à une variation de position de ladite source dans l'espace la plus faible qu'un auditeur
est susceptible de percevoir, en fonction
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite
source ; et,
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres
sources identifiées ;
- une unité de génération du flux compressé, couplée à l'unité de détermination de résolution
spatiale, adaptée pour former le flux compressé à partir des informations nécessaires
pour restituer chaque source identifiée avec au moins la résolution spatiale correspondante,
et délivrer le flux compressé sur la sortie.
[0025] L'unité d'identification peut être configurée pour identifier seulement les sources
audibles.
[0026] Dans un mode de réalisation, l'unité de génération peut être adaptée pour produire
le flux compressé à partir dès signaux lorsque ces derniers comportent des informations
représentant la scène sonore dans une base d'harmoniques sphériques en :
- subdivisant l'espace en sous-espaces, et
- tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux dans
la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement
égale à la valeur maximale des résolutions spatiales associées aux sources présentes
dans le sous-espace considéré.
[0027] L'unité de génération peut être configurée pour adapter la subdivision de l'espace
en sous-espaces au cours du temps.
[0028] Dans un mode de réalisation, le dispositif comprend en outre une unité de conversion
adaptée pour transposer des informations comprises dans les signaux du flux audio
dans une base d'harmoniques sphériques.
[0029] D'autres aspects, buts et avantages de l'invention apparaîtront à la lecture de la
description d'un de ses modes de réalisation.
[0030] L'invention sera également mieux comprise à l'aide des dessins, sur lesquels :
- la figure 1 illustre, par un synoptique, les étapes principales du procédé de compression
appliqué à un flux audio multicanal ;
- la figure 2 illustre, par un synoptique, les étapes d'un mode de réalisation du procédé
de compression, dans une base d'harmoniques sphériques, par exemple dans le domaine
HOA, appliqué à un flux audio multicanal;
- la figure 3 montre, par un schéma de principe, un dispositif de compression de flux
audio multicanal ;
- la figure 4 montre, par un schéma de principe, un dispositif de compression de flux
audio multicanal, selon un autre mode de réalisation ;
- la figure 5 illustre, par un schéma de principe, un dispositif de traitement pour
mettre en oeuvre le procédé de compression.
[0031] Dans la présente description, on considère une scène sonore SCE, c'est-à-dire un
champ acoustique réel, formé par des signaux sonores émis par une pluralité de sources
SR, ou un champ acoustique synthétique obtenu par spatialisation artificielle de signaux
monophoniques. Le signal émis par une source sonore ou source peut être représenté
par une distribution spatiale d'énergie dans une bande de fréquences. Lorsque la distribution
spatiale de l'énergie est corrélée et contigüe dans l'espace, la source correspondante
est alors qualifiée de source étendue, dans le cas contraire la source est dite ponctuelle.
La scène sonore est captée par un nombre limité de capteurs sonores, pour former un
flux F audio multicanal comportant une pluralité de signaux S. Alternativement la
scène peut être synthétisée par spatialisation de signaux monophoniques. Le flux F
peut être subdivisé en trames T temporelles. Le flux F peut être considéré comme une
description ou représentation au cours du temps de la scène sonore SCE. Les composantes
spatiales de la scène sonore SCE peuvent être représentées dans le domaine HOA par
des composantes spatiales projetés dans une base d'harmoniques sphériques. On définit
par les termes encodage ambiophonique (traduction du mot anglais "ambisonic") l'étape
consistant à obtenir ces composantes spatiales du champ dans la base d'harmoniques
sphériques. Cet encodage permet ainsi de représenter la scène sonore sous forme de
signaux ambiophoniques.
[0032] Sur la figure 1 sont représentées les étapes principales du procédé de compression
appliqué au flux F.
[0033] Dans une étape 10, par analyse spatio-fréquentielle des signaux S, on identifie les
sources SR, et on détermine, pour chaque source SR identifiée, une bande de fréquences
de la source ou la fréquence centrale de ladite bande de fréquence, un niveau d'énergie
et une position spatiale.
[0034] Pour identifier les sources, on pourra notamment procéder à une analyse temps/fréquence
de chacun des signaux S constituant le flux F pour extraire un niveau d'énergie par
bande de fréquences pour chaque trame T. Des résultats d'une analyse temps/fréquence
réalisée préalablement à la mise en oeuvre du procédé selon l'invention, par exemple
lors d'une compression éventuelle des signaux S par des techniques de masquage fréquentiel,
pourront également être exploités au cours de l'étape 10 pour identifier les sources
SR.
[0035] Au cours de l'étape 10, on associe à chaque source SR identifiée les grandeurs suivantes
: sa bande de fréquences de la source ou la fréquence centrale de ladite bande de
fréquence, son niveau d'énergie et sa position spatiale. En particulier, la bande
de fréquences de la source ou la fréquence centrale de ladite bande de fréquence pourra
être obtenue directement, suite à l'analyse temps/fréquence mise en oeuvre pour identifier
chaque source SR.
[0036] Des méthodes d'identification ou de séparation de sources adaptées sont décrites
dans le document
Arberet, S. "Estimation robuste et apprentissage aveugle de modèles pour la séparation
de sources sonores", Thèse de l'Université de Rennes 1, 2008, ou des méthodes de formation de faisceau, comme celle décrite dans le document
Veen, B. D. V. & Buckley, K. M. "Beamforming: a versatile approach to spatial filtering"
IEEE ASSP Magazine, 1988, 4-24. Si la source SR considérée est une source étendue, la position spatiale peut correspondre
au barycentre spatial de ladite source étendue, et une mesure de la largeur de l'étendue
spatiale de ladite source est également réalisée. De manière optionnelle, il est possible
de ne sélectionner qu'un sous-ensemble des sources SR identifiées au cours de l'étape
10. Par exemple, ne seront sélectionnées que les sources SR audibles pour un auditeur
moyen. Pour déterminer, si une source est audible, on pourra notamment mettre en oeuvre
une analyse de masquage énergétique simultané prenant en compte le démasquage binaural,
comme celle décrite notamment dans le document
Saberi, K., Dostal, L., Sadralodabai, T., and Bull, V., "Free-field release from masking,"
Journal of the Acoustical Society of America, vol. 90,1991, pp. 1355--1370.
[0037] Dans une étape 20, on calcule une résolution spatiale RS pour chacune des sources
SR identifiée au cours de l'étape 10, par mise en oeuvre d'un modèle psycho-acoustique.
La résolution spatiale RS calculée pour une source correspond à une résolution optimale
au-delà de laquelle un auditeur moyen ne perçoit pas une augmentation significative
du niveau de précision dans la localisation de ladite source. La résolution spatiale
RS correspond également à une dégradation spatiale maximale applicable à la source
SR correspondante, sans dégradation sensible des capacités d'un auditeur à localiser
ladite source SR, en présence des autres sources SR.
[0038] A titre d'exemple non limitatif, si la résolution spatiale RS est égale à 1 degré
pour une des sources SR, on considérera que l'auditeur n'est pas en mesure de localiser
ladite source SR avec une précision supérieure à 1 degré.
[0039] En fonction des caractéristiques de la source SR considérée, le modèle psycho-acoustique
retourne une résolution spatiale adaptée. Ainsi à chaque source SR correspond une
résolution spatiale RS propre. La résolution spatiale RS d'une des sources SR peut
également être définie comme l'angle minimum audible associé à ladite source RS, au
sens par exemple de l'expérience de Mills de 1958, présentée dans le document
A.W. Mills, "On the Minimum Audible Angle", The Journal of the Acoustical Society
of America, vol. 30, Apr. 1958, pp. 237-246. D'après cette définition, l'angle minimum audible de la source SR est sensiblement
équivalent à la mesure réalisée, dans les mêmes conditions que celles décrites dans
l'expérience de Mills, pour une source cible au sens de A.W. Mills, ayant les mêmes
caractéristiques que la source RS.
[0040] La résolution spatiale RS associée à l'une des sources SR est fonction notamment
des paramètres suivants :
- la fréquence centrale de la bande de fréquences de la source SR ;
- le niveau d'énergie de la source SR ;
- la position spatiale de la source SR ;
- la fréquence centrale de la bande de fréquences de chacune des autres sources SR ;
- le niveau d'énergie de chacune des autres sources SR ;
- la position spatiale de chacune des autres sources SR.
[0041] Le modèle psycho-acoustique peut donc être décrit par une fonction f(s
c, sd
1, sd
2, ..., sd
N), où s
c représente la source SR pour laquelle on souhaite obtenir la résolution spatiale
RS, et sd
1, sd
2, ..., sd
N représente tout ou partie des autres sources SR. Les sources SR peuvent chacune être
décrites par un quadruplet {f
c, I, θ, ϕ}, où f
c représente la fréquence centrale, I le niveau d'énergie, θ la position angulaire
en azimut, et ϕ la position angulaire en élévation.
[0042] Le modèle psycho-acoustique peut en outre être construit à partir de modèles décrivant
les capacités d'un auditeur en fonction des paramètres précédemment décrits, et/ou
à partir de résultat de tests. Pour la construction du modèle, il est en outre possible
de prendre l'hypothèse que l'auditeur fait toujours face à la source SR pour laquelle
on calcule la résolution spatiale RS, cas dans lequel la capacité de l'auditeur à
séparer les sources est maximale.
[0043] Dans une étape 30, on génère un flux compressé F
c comportant des signaux compressés S
c, de sorte que le flux compressé F
e comporte les informations nécessaires à la restitution de chaque source SR avec la
résolution spatiale RS correspondante, calculée au cours de l'étape 20. Cela revient
également à générer le flux compressé F
c en réduisant la quantité d'informations spatiales contenue initialement dans le flux
F pour chaque source SR, jusqu'à conserver les informations nécessaires à la restitution
de chaque source SR avec au moins la résolution spatiale RS correspondante. Il convient
donc de noter que le flux compressé Fc comporte en conséquence une quantité d'informations
inférieure au flux F.
[0044] A titre d'exemple non limitatif, si la résolution spatiale RS est égale à 1 degré
pour une des sources SR, on considérera que ladite source SR devra être encodée dans
le flux compressé F
c de sorte à permettre lors de sa restitution par un système audio à un auditeur moyen
de localiser la source SR avec une précision de 1 degré. D'autre part, on notera dans
cet exemple, qu'encoder la source SR avec une résolution supérieure, par exemple 0,5
degré, n'apportera pas un gain sensible dans la capacité de l'auditeur à localiser
avec une précision supérieure la source SR. Par exemple, si le flux F comprend les
informations nécessaires pour atteindre une résolution de 0,5 degré pour la source
SR, le flux compressé F
c comportera seulement les informations nécessaires pour restituer la source SR avec
une précision de 1 degré.
[0045] La figure 2 illustre les étapes d'un mode de réalisation du procédé de compression,
dans une base d'harmoniques sphériques, par exemple dans le domaine HOA, appliqué
au flux F.
[0046] Le procédé peut comporter une étape 100 de transformation, dans une base des harmoniques
sphériques, du flux F. Cette étape 100 est optionnelle si le flux F est déjà encodé
dans une base des harmoniques sphériques. Typiquement, cette transformation peut correspondre
à une projection des informations comprises dans les signaux S dans une base d'harmoniques
sphériques.
[0048] Le procédé comporte une étape 110 d'analyse temps/fréquence des signaux S
HOA pour extraire, pour chaque signal S
HOA, pour chaque trame T, et pour chaque bande de fréquences, un niveau d'énergie E.
[0049] Le procédé comporte une étape 120 au cours de laquelle on calcule, pour chaque trame
T et pour chaque bande de fréquences, une projection spatiale Pr des niveaux d'énergie
E sur une sphère. On obtient ainsi un modèle permettant de déterminer le niveau d'énergie
E en fonction de la direction, pour chaque trame T et pour chaque bande de fréquences.
On pourra notamment calculer la projection spatiale Pr des niveaux d'énergie E en
procédant à une transformation inverse des signaux S
HOA dans un domaine de variables d'espace. Par exemple, on reconstruit une onde acoustique
correspondant aux signaux S
HOA par combinaison linéaire des harmoniques sphériques pondérées par les valeurs des
composantes HOA. On obtient ainsi une évolution spatiale de l'onde acoustique sur
une sphère. La projection spatiale Pr des niveaux d'énergie est alors construite en
échantillonnant spatialement la sphère, le nombre d'échantillons choisi étant fonction
de la résolution souhaitée.
[0050] Le procédé comporte une étape 130 au cours de laquelle on identifie, pour chaque
trame T, les sources SR, leur position spatiale et leur énergie respective. Pour cela,
on recherche toutes les directions de la projection spatiale Pr pour lesquelles le
niveau d'énergie E est non nul. Puis, pour chaque direction dans laquelle le niveau
d'énergie est non nul, on calcule la corrélation avec les niveaux d'énergie présents
dans les directions voisines. Par exemple, pour chaque bande de fréquences, on détermine
les fluctuations d'énergie dans le temps, éventuellement en tenant compte des trames
T précédant et/ou suivant ladite trame T, pour chaque direction. Pour augmenter la
précision temporelle, il est possible de calculer la corrélation sur des plages temporelles
se recouvrant, puis de sous-échantillonner les résultats ainsi obtenus pour la bande
de fréquences.
[0051] Si le niveau d'énergie est corrélé pour un ensemble de directions, on identifie une
source étendue dans lesdites directions, et on calcule le niveau d'énergie correspondant
en additionnant les niveaux d'énergies associés à l'ensemble des directions. Si le
niveau d'énergie n'est pas corrélé avec les niveaux d'énergie présents dans les directions
voisines, on identifie une source et le niveau d'énergie correspond à celui donné
par la projection spatiale Pr dans cette direction. A l'issue de l'étape 130, il est
ainsi possible de décrire la scène sonore SCE sous la forme d'un ensemble de sources
SR dont on connaît la position, l'étendue spatiale et l'énergie.
[0052] Dans une étape optionnelle 135, on sélectionne un sous-ensemble des sources SR identifiées
au cours de l'étape 130. Par exemple, ne seront sélectionnées que les sources SR audibles
pour un auditeur moyen. Pour déterminer, si une source est audible, on pourra notamment
mettre en oeuvre une analyse de masquage énergétique simultané prenant en compte le
démasquage binaural.
[0053] Dans une étape 140, on détermine, à l'aide d'un modèle psycho-acoustique de masquage
spatial, pour chaque source SR identifiée au cours de l'étape 130 et éventuellement
sélectionnée au cours de l'étape 135, la résolution spatiale RS correspondante. Typiquement,
pour une trame T, on évalue le pouvoir masquant dans chaque région de l'espace et
dans chaque bande de fréquences de chaque source SR identifiée sur les autres sources
SR identifiées. Plus spécifiquement, pour chaque source SR identifiée, en fonction
notamment de sa position, de la bande de fréquences, et de son niveau d'énergie, on
détermine la résolution spatiale RS avec laquelle la source SR est perçue.
[0054] Dans une étape 150, on génère le flux compressé F
c comportant les signaux compressés S
c, de sorte que le flux compressé F
c comprenne les informations nécessaires à la restitution de chaque source SR avec
au moins la résolution spatiale RS correspondante, calculée au cours de l'étape 140.
Cette opération revient à compresser le flux F en adaptant la résolution spatiale
des signaux S
HOA en fonction de la résolution spatiale RS obtenue pour chaque source SR identifiée.
Dans un mode de réalisation de l'étape 150, on décompose l'espace en un ensemble de
sous-espaces, de sorte que l'union des sous-espaces soit sensiblement égale à l'espace.
Pour chacun de ces sous-espaces, on construit une sous-base d'harmoniques sphériques.
Par exemple, une méthode de construction adéquate peut être celle décrite dans le
document
Pomberger H. & Zotter F. "An Ambisonics format for flexible playback layouts" Ambisonics
Symposium 2009, 2009. Les fonctions propres de la base d'harmoniques sphériques de l'espace complet sont
recombinées pour former, pour chacun des sous-espaces, une sous-base de représentation
de ce sous-espace uniquement. A partir des signaux obtenus à l'étape 110, pour une
des trames T donnée et une bande de fréquences donnée, en projetant l'énergie dans
cette bande de fréquences sur chacune des sous-bases de représentation des sous-espaces,
on obtient un ensemble de représentations supplémentaires de la représentation d'origine,
chacune restreinte à un des sous-espaces. La décomposition de l'espace peut soit être
statique, soit varier d'une trame T à l'autre. Une décomposition dynamique présente
l'avantage de pouvoir regrouper dans un même sous-espace des sources adjacentes dont
la résolution spatiale perçue est sensiblement égale. On tronque alors, pour chacun
des sous-espaces, l'ordre de représentation dans la base des harmoniques sphériques
des signaux S
HOA, jusqu'à obtenir une résolution spatiale correspondant à la valeur maximale des résolutions
spatiales RS associées aux sources SR présentes dans le sous-espace considéré.
[0055] Il est également possible, en plus de la dégradation de résolution spatiale dans
le flux compressé F
c par rapport au flux F, de compresser le flux compressé F
c en exploitant les informations de masquage énergétique. Toutefois, et pour prendre
en compte les effets de démasquage binaural, il convient de se placer dans le cas
le plus défavorable en termes de masquage en considérant :
- d'une part le seuil de masquage le plus bas parmi ceux de toutes les sources SR en
présence dans le sous-espace considéré. ;
- et de façon conjointe, pour chaque source SR, son seuil de masquage le plus bas du
fait de sa position spatiale dans le sous-espace considéré.
[0056] La figure 3 montre, sur un schéma de principe, un dispositif 200 de compression de
flux audio multicanal, selon un mode de réalisation. Le dispositif 200 est notamment
adapté à la mise en oeuvre du procédé selon l'invention.
[0057] Comme représenté sur la figure 3, le dispositif 200 comprend une entrée 210 pour
recevoir le flux F audio multicanal décrivant la scène sonore SCE produite par une
pluralité de sources SR dans un espace. Le dispositif 200 délivre sur une sortie 260
le flux compressé F
c.
[0058] Le dispositif 200 comprend une unité d'identification 220 des sources SR couplée
à l'entrée 210 de sorte à recevoir le flux F. L'unité d'identification 220 est adaptée
pour identifier les sources SR à partir du flux F, et pour déterminer pour chacune
des sources SR identifiées une bande de fréquence, un niveau d'énergie et une position
spatiale dans l'espace. L'unité d'identification 220 délivre, sur une sortie, la bande
de fréquence, le niveau d'énergie et la position spatiale dans l'espace de chaque
source SR identifiée. En particulier, l'unité d'identification 220 peut être configurée
pour identifier seulement les sources SR audibles.
[0059] Le dispositif 200 comporte une unité de détermination 230 de la résolution spatiale
RS, couplée à la sortie de l'unité d'identification 220, correspondant à la variation
de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible
de percevoir. L'unité de détermination 230, à l'aide par exemple d'un modèle psycho-acoustique
240, fournit sur une sortie la résolution spatiale RS pour chaque source SR identifiée,
en fonction :
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite
source ; et,
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale d'au
moins un sous-ensemble des autres sources identifiées.
[0060] Le dispositif 200 comporte une unité de génération 250, couplée à la sortie de l'unité
d'identification 220, adaptée pour former le flux compressé FC à partir des informations
nécessaires pour restituer chaque source SR identifiée avec au moins la résolution
spatiale RS correspondante.
[0061] La figure 4 montre, sur un schéma de principe, un dispositif 300 de compression de
flux audio multicanal, selon un mode de réalisation. Comme représenté sur la figure
4, le dispositif 300 comprend une entrée 310 pour recevoir le flux F audio multicanal
décrivant la scène sonore SCE produite par une pluralité de sources SR dans un espace.
Le dispositif 300 délivre sur une sortie 390 le flux FC compressé.
[0062] Le dispositif 300 peut comprendre une unité de conversion 320 adaptée pour transposer
des informations comprises dans les signaux S du flux F audio représentant la scène
sonore SCE dans une base d'harmoniques sphériques, lorsque le flux F comprend des
signaux S destinés à alimenter directement des haut-parleurs, comme par exemple des
signaux S de type 5.1, 6.1, 7.1, 10.2, 22.2. L'unité de conversion 320 délivre en
sortie des signaux S
HOA décrits dans une base d'harmoniques sphériques.
[0063] Le dispositif 300 comporte une unité d'identification 330 des sources SR couplée
à la sortie de l'unité de conversion 320 pour recevoir les signaux S
HOA. L'unité d'identification 330 est adaptée pour identifier les sources SR à partir
du flux F, et pour déterminer pour chacune des sources SR identifiées une bande de
fréquence, un niveau d'énergie et une position spatiale dans l'espace. Pour cela,
l'unité d'identification 330 est configurée pour calculer une projection spatiale
des niveaux d'énergie des sources sur une sphère et pour rechercher les directions
de la projection spatiale dont le niveau d'énergie est non nul. L'unité d'identification
330 délivre, sur une sortie, la bande de fréquence, le niveau d'énergie et la position
spatiale dans l'espace de chaque source SR identifiée. En particulier, l'unité d'identification
330 peut être configurée pour identifier seulement les sources SR audibles.
[0064] Le dispositif 300 comporte une unité de détermination 340 de la résolution spatiale
RS, couplée à la sortie de l'unité d'identification 330, correspondant à la variation
de position de ladite source dans l'espace la plus faible qu'un auditeur est susceptible
de percevoir. L'unité de détermination 340, à l'aide par exemple d'un modèle psycho-acoustique
350, délivre sur une sortie la résolution spatiale RS pour chaque source SR identifiée,
en fonction :
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite
source ; et,
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale d'au
moins un sous-ensemble des autres sources identifiées.
[0065] Le dispositif 300 comporte une unité de génération 360, couplée à la sortie de l'unité
d'identification 340, adaptée pour former le flux compressé FC à partir des informations
nécessaires pour restituer chaque source SR identifiée avec au moins la résolution
spatiale RS correspondante. L'unité de génération 360 est notamment adaptée pour produire
le flux compressé F
c en subdivisant l'espace en sous-espaces, et en tronquant, pour chacun des sous-espaces,
un ordre de représentation des signaux dans la base des harmoniques sphériques, jusqu'à
obtenir une résolution spatiale sensiblement égale à la valeur maximale des résolutions
spatiales associées aux sources présentes dans le sous-espace considéré. La subdivision
de l'espace en sous-espaces peut en outre être dynamique au cours du temps.
[0066] La figure 5 représente un dispositif de traitement 400 pour mettre en oeuvre le procédé
de compression selon l'invention.
[0067] Le dispositif 400 comprend une interface 420 couplée à une entrée 410 pour recevoir
le flux F et une sortie F pour délivrer le flux compressé F
c. L'interface 420 est par exemple une interface pour accéder à un réseau de communication,
à un dispositif de stockage, et/ou encore à un lecteur de support.
[0068] Le dispositif 400 comprend également un processeur 440 couplé à une mémoire 450.
Le processeur 440 est configuré pour communiquer avec l'interface 420. En particulier,
le processeur est adapté pour exécuter des programmes d'ordinateur, compris dans la
mémoire 450, comportant respectivement des instructions adaptées à la mise en oeuvre
des étapes des procédés de compression qui viennent d'être décrits. La mémoire 450
peut être une combinaison d'éléments choisie parmi la liste suivante : une RAM, une
ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen
d'enregistrement magnétique, par exemple une disquette ou un disque dur, un support
transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un
câble électrique ou optique, par radio ou par d'autres moyens. Le programme d'ordinateur
peut être en particulier téléchargé sur un réseau de type Internet. Alternativement,
la mémoire 450 peut être un circuit intégré dans lequel le programme est incorporé,
le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution des procédés
en question.
1. Procédé de compression d'un flux audio comprenant une pluralité de signaux, ledit
flux audio décrivant une scène sonore produite par une pluralité de sources dans un
espace,
caractérisé en ce qu'il comporte les étapes suivantes :
• à partir du flux audio, identification (10; 120, 130, 135) des sources ;
• détermination pour chacune des sources identifiées d'une bande de fréquences, d'un
niveau d'énergie et d'une position spatiale dans l'espace;
• détermination (20 ; 140), pour chaque source identifiée, d'une résolution spatiale
correspondant à une variation de position de ladite source dans l'espace la plus faible
qu'un auditeur est susceptible de percevoir, en fonction :
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite
source ; et,
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres
sources identifiées ;
• génération (30 ; 150) d'un flux compressé comportant les informations nécessaires
pour restituer chaque source identifiée avec au moins la résolution spatiale correspondante.
2. Procédé selon la revendication 1, dans lequel l'étape d'identification des sources
comporte une étape d'identification seulement des sources audibles.
3. Procédé selon la revendication 1 ou 2, dans lequel les signaux du flux audio comprennent
des informations représentant la scène sonore dans une base d'harmoniques sphériques.
4. Procédé selon la revendication 1 ou 2, caractérisé en ce qu'il comporte une étape de transposition (100) des informations comprises dans les signaux
du flux audio représentant la scène sonore dans une base d'harmoniques sphériques.
5. Procédé selon l'une quelconque des revendications 3 à 4, dans lequel l'étape de génération
(150) du flux compressé est effectué en subdivisant l'espace en sous-espaces, et en
tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux dans
la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement
égale à la valeur maximale des résolutions spatiales associées aux sources présentes
dans le sous-espace considéré.
6. Procédé selon la revendication 5, dans lequel la subdivision de l'espace en sous-espaces
est dynamique au cours du temps.
7. Programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé
selon l'une quelconque des revendications 1 à 6 lorsque ce programme est exécuté par
un processeur.
8. Support d'informations lisible par un ordinateur, et comportant des instructions d'un
programme d'ordinateur selon la revendication 7.
9. Dispositif (200 ; 300 ; 400) de compression de flux audio multicanal, comprenant une
entrée (210 ; 310 ; 410) pour recevoir un flux audio multicanal décrivant une scène
sonore produite par une pluralité de sources dans un espace, et une sortie (260 ;
390 ; 430) pour délivrer un flux compressé,
caractérisé en ce qu'il comporte :
• une unité d'identification (220 ; 330 ; 440, 450) des sources, couplée à l'entrée
(210 ; 310 ; 410), adaptée pour identifier les sources, à partir du flux, et pour
déterminer pour chacune des sources identifiées une bande de fréquences, un niveau
d'énergie et une position spatiale dans l'espace ;
• une unité de détermination (230 ; 340 ; 440, 450) de résolution spatiale, couplée
à l'unité d'identification (220, 330 ; 440, 450), adaptée pour déterminer, pour chaque
source identifiée, une résolution spatiale correspondant à une variation de position
de ladite source dans l'espace la plus faible qu'un auditeur est susceptible de percevoir,
en fonction
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale de ladite
source ; et,
○ de la bande de fréquences, du niveau d'énergie, et de la position spatiale des autres
sources identifiées ;
• une unité de génération (250 ; 360 ; 440, 450) du flux compressé, couplée à l'unité
de détermination (230 ; 340 ; 440, 450) de résolution spatiale, adaptée pour former
le flux compressé à partir des informations nécessaires pour restituer chaque source
identifiée avec au moins la résolution spatiale correspondante, et délivrer le flux
compressé sur la sortie (260 ; 390 ; 440, 450).
10. Dispositif selon la revendication 9, dans lequel l'unité d'identification (220 ; 330
; 440, 450) est configurée pour identifier seulement les sources audibles.
11. Dispositif selon l'une quelconque des revendications 9 à 10, dans lequel l'unité de
génération (360) est adaptée pour produire le flux compressé à partir des signaux
lorsque ces derniers comportent des informations représentant la scène sonore dans
une base d'harmoniques sphériques en:
• subdivisant l'espace en sous-espaces, et
• tronquant, pour chacun des sous-espaces, un ordre de représentation des signaux
dans la base des harmoniques sphériques, jusqu'à obtenir une résolution spatiale sensiblement
égale à la valeur maximale des résolutions spatiales associées aux sources présentes
dans le sous-espace considéré.
12. Dispositif selon la revendication 11, dans lequel l'unité de génération (360) est
configurée pour adapter la subdivision de l'espace en sous-espaces au cours du temps.
13. Dispositif selon l'une quelconque des revendications 11 à 12, comprenant en outre
une unité de conversion (320) adaptée pour transposer des informations comprises dans
les signaux du flux audio dans une base d'harmoniques sphériques.
1. Verfahren zur Komprimierung eines Audiostroms, der mehrere Signale aufweist, wobei
der Audiostrom eine Tonszene beschreibt, die durch mehrere Quellen in einem Raum erzeugt
wird,
dadurch gekennzeichnet, dass es die folgenden Schritte aufweist:
• Identifizierung (10; 120, 130, 135) der Quellen ausgehend von dem Audiostrom;
• Bestimmung eines Frequenzbandes, eines Energiepegels und einer räumlichen Position
im Raum für jede der identifizierten Quellen;
• Bestimmung (20; 140) einer räumlichen Auflösung, die einer Positionsänderung der
Quelle im Raum entspricht, die die kleinste ist, die ein Hörer wahrnehmen kann, für
jede identifizierte Quelle, in Abhängigkeit von:
○ dem Frequenzband, dem Energiepegel und der räumlichen Position der Quelle; und
○ dem Frequenzband, dem Energiepegel und der räumlichen Position der anderen identifizierten
Quellen;
• Erzeugung (30; 150) eines komprimierten Stroms, der die Informationen aufweist,
die erforderlich sind, um jede identifizierte Quelle mit mindestens der entsprechenden
räumlichen Auflösung wiederzugeben.
2. Verfahren nach Anspruch 1, wobei der Schritt der Identifizierung der Quellen einen
Schritt der Identifizierung von lediglich den hörbaren Quellen aufweist.
3. Verfahren nach Anspruch 1 oder 2, wobei die Signale des Audiostroms Informationen
aufweisen, die die Tonszene in einer Kugelfunktionsbasis darstellen.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass es einen Schritt der Transposition (100) der Informationen, die in den Signalen des
Audiostroms enthalten sind, der die Tonszene darstellt, in eine Kugelfunktionsbasis
aufweist.
5. Verfahren nach einem der Ansprüche 3 bis 4, wobei der Schritt (150) der Erzeugung
des komprimierten Stroms durch Unterteilen des Raums in Unterräume und durch Abschneiden
einer Darstellungsordnung der Signale in der Kugelfunktionsbasis für jeden der Unterräume
durchgeführt wird, bis eine räumliche Auflösung erhalten wird, die im Wesentlichen
gleich dem Höchstwert der räumlichen Auflösungen ist, die den Quellen zugehörig sind,
die in dem betrachteten Unterraum vorhanden sind.
6. Verfahren nach Anspruch 5, wobei die Unterteilung des Raums in Unterräume im Laufe
der Zeit dynamisch ist.
7. Computerprogramm, das Befehle für den Einsatz des Verfahrens nach einem der Ansprüche
1 bis 6 aufweist, wenn dieses Programm durch einen Prozessor ausgeführt wird.
8. Maschinenlesbarer Datenträger, der Befehle eines Computerprogramms nach Anspruch 7
aufweist.
9. Mehrkanal-Audiostromkomprimierungsvorrichtung (200; 300; 400), die einen Eingang (210;
310; 410) zum Empfang eines Mehrkanal-Audiostroms, der eine Tonszene beschreibt, die
durch mehrere Quellen in einem Raum erzeugt wird, und einen Ausgang (260; 390; 430)
zum Liefern eines komprimierten Stroms aufweist,
dadurch gekennzeichnet, dass sie Folgendes aufweist:
• eine Einheit (220; 330; 440, 450) zur Identifizierung der Quellen, die an den Eingang
(210; 310; 410) gekoppelt ist und angepasst ist, um die Quellen ausgehend von dem
Strom zu identifizieren und für jede der identifizierten Quellen ein Frequenzband,
einen Energiepegel und eine räumliche Position im Raum zu bestimmen;
• eine Einheit (230; 340; 440, 450) zur Bestimmung der räumlichen Auflösung, die an
die Identifizierungseinheit (220; 330; 440, 450) gekoppelt und angepasst ist, um für
jede identifizierte Quelle eine räumliche Auflösung, die einer Positionsänderung der
Quelle im Raum entspricht, die die kleinste ist, die ein Hörer wahrnehmen kann, in
Abhängigkeit von Folgendem zu bestimmen:
○ dem Frequenzband, dem Energiepegel und der räumlichen Position der Quelle; und
○ dem Frequenzband, dem Energiepegel und der räumlichen Position der anderen identifizierten
Quellen;
• eine Einheit (250; 360; 440, 450) zur Erzeugung des komprimierten Stroms, die an
die Einheit (230; 340; 440, 450) zur Bestimmung der räumlichen Auflösung gekoppelt
und angepasst ist, um den komprimierten Strom ausgehend von den Informationen zu bilden,
die erforderlich sind, um jede identifizierte Quelle mit mindestens der entsprechenden
räumlichen Auflösung wiederzugeben, und den komprimierten Strom am Ausgang (260; 390;
440, 450) auszugeben.
10. Vorrichtung nach Anspruch 9, wobei die Identifikationseinheit (220; 330; 440, 450)
konfiguriert ist, um nur die hörbaren Quellen zu identifizieren.
11. Vorrichtung nach einem der Ansprüche 9 bis 10, wobei die Erzeugungseinheit (360) angepasst
ist, um den komprimierten Strom ausgehend von den Signalen zu erzeugen, wenn diese
Informationen aufweisen, die die Tonszene in einer Kugelfunktionsbasis darstellen,
durch:
• Unterteilen des Raums in Unterräume, und
• für jeden der Unterräume, Abschneiden einer Darstellungsordnung der Signale in der
Kugelfunktionsbasis, bis eine räumliche Auflösung erhalten wird, die im Wesentlichen
gleich dem Höchstwert der räumlichen Auflösungen ist, die den Quellen zugehörig sind,
die in dem betrachteten Unterraum vorhanden sind.
12. Vorrichtung nach Anspruch 11, wobei die Erzeugungseinheit (360) konfiguriert ist,
um die Unterteilung des Raums in Unterräume im Laufe der Zeit anzupassen.
13. Vorrichtung nach einem der Ansprüche 11 bis 12, die ferner eine Konvertierungseinheit
(320) aufweist, die angepasst ist, um Informationen, die in den Signalen des Audiostroms
enthalten sind, in eine Kugelfunktionsbasis zu transponieren.
1. Method for compression of an audio stream comprising a plurality of signals, said
audio stream describing a sound scene produced by a plurality of sources in a space,
characterized in that it includes the following steps:
• from the audio stream, identification (10; 120, 130, 135) of the sources;
• determination of a frequency band, of an energy level and of a spatial position
in the space for each of the identified sources;
• determination (20;140), for each identified source, of a spatial resolution corresponding
to a smallest variation in position of said source in the space that a listener is
able to perceive, as a function:
○ of the frequency band, of the energy level and of the spatial position of said source;
and
○ of the frequency band, of the energy level and of the spatial position of the other
identified sources;
• generation (30;150) of a compressed stream including the necessary information to
restore each identified source with at least the corresponding spatial resolution.
2. Method according to Claim 1, in which the step of identification of the sources includes
a step of identification of audible sources only.
3. Method according to Claim 1 or 2, in which the signals of the audio stream comprise
information representing the sound scene in a basis of spherical harmonics.
4. Method according to Claim 1 or 2, characterized in that it includes a step of transposition (100) of the information comprised in the signals
of the audio stream representing the sound scene in a basis of spherical harmonics.
5. Method according to any one of Claims 3 to 4, in which the step of generation (150)
of the compressed stream is carried out by sub-dividing the space into sub-spaces,
and by truncating, for each of the sub-spaces, an order of representation of the signals
in the basis of spherical harmonics, until the obtention of a spatial resolution substantially
equal to the maximum value of the spatial resolutions associated with the sources
present in the sub-space under consideration.
6. Method according to Claim 5, in which the subdivision of the space into sub-spaces
is dynamic over time.
7. Computer program including instructions for the implementation of the method according
to any one of Claims 1 to 6 when this program is executed by a processor.
8. Information medium readable by a computer, and including instructions of a computer
program according to Claim 7.
9. Device (200; 300; 400) for compression of multi-channel audio streams, comprising
an input (210;310;410) for receiving a multi-channel audio stream describing a sound
scene produced by a plurality of sources in a space, and an output (260;390;430) for
delivering a compressed stream,
characterized in that it includes:
• a sources identification unit (220;330;440,450), coupled to the input (210;310;410),
adapted for identifying the sources, from the stream, and for determining a frequency
band, an energy level and a spatial position in the space for each of the identified
sources;
• a spatial resolution determination unit (230; 340; 440,450), coupled to the identification
unit (220;330;440,450) adapted for determining, for each identified source, a spatial
resolution corresponding to a smallest variation in position of said source in the
space that a listener is able to perceive, as a function
○ of the frequency band, of the energy level and of the spatial position of said source;
and
○ of the frequency band, of the energy level and of the spatial position of the other
identified sources;
• a unit for generation (250;360;440,450) of the compressed stream, coupled to the
spatial resolution determination unit (230; 340; 440,450), adapted for forming the
compressed stream from the necessary information for restoring each identified source
with at least the corresponding spatial resolution, and delivering the compressed
stream on the output (260;390;440,450).
10. Device according to Claim 9, in which the identification unit (220;330;440,450) is
configured to identify audible sources only.
11. Device according to any one of Claims 9 to 10, in which the generation unit (360)
is adapted for producing the compressed stream from the signals when the latter include
information representing the sound scene in a basis of spherical harmonics by:
• sub-dividing the space into sub-spaces, and
• truncating, for each of the sub-spaces, an order of representation of the signals
in the basis of spherical harmonics, until the obtention of a spatial resolution substantially
equal to the maximum value of the spatial resolutions associated with the sources
present in the sub-space under consideration.
12. Device according to Claim 11, in which the generation unit (360) is configured to
adapt the subdivision of the space into sub-spaces over time.
13. Device according to any one of Claims 11 to 12, furthermore comprising a conversion
unit (320) adapted for transposing information comprised in the signals of the audio
stream in a basis of spherical harmonics.