1. Domaine de l'invention
[0001] Le domaine de l'invention est celui de la compression et de la transmission des signaux
audionumériques et plus précisément du codage et du décodage de signaux audionumériques.
[0002] L'invention s'applique plus précisément au codage et au décodage de signaux audionumériques
de façon échelonnables (ou « scalables.»), pouvant être mis sous une forme de train
binaire présentant une structure hiérarchique en couches, ou en niveaux.
[0003] L'invention propose notamment la mise en forme d'un train binaire, formé de trames,
ou unités d'accès, appartenant aux différentes couches, dans le cadre d'un système
de codage/décodage de signaux audionumériques.
2. Solutions de l'art antérieur
[0004] Les systèmes de codage/décodage hiérarchiques permettent de hiérarchiser l'information
à transmettre ou à décoder d'un signal numérique sous la forme d'un train binaire.
Ainsi, en fonction de la bande passante instantanée du canal de transmission ou de
la capacité de traitement du terminal de lecture du train binaire, tout le train ou
seulement une partie du train est transmise ou décodée tout en assurant que, dans
tous les cas, l'information essentielle est transmise et décodée.
[0005] Ces systèmes hiérarchiques permettent également d'assurer une protection canal différenciée
des données conduisant à une transmission plus robuste.
[0006] Les techniques actuelles de codage audio hiérarchique fonctionnent en mode trame
à trame et les trains binaires générés comportent des unités d'accès décrivant des
portions de signal tel qu'indiqué dans le document de référence concernant la norme
« MPEG-4 audio » référencé ISO IEC SC29 WG11 International standard 14496-3 :2001.
[0007] La figure 1 présente un schéma d'un train binaire 10 mis en forme à partir de trames
appartenant à trois niveaux 111, 112, 113 d'un codage hiérarchique classique. Les
trames sont donc organisées en une couche de base 111 et deux ou _ plusieurs couches
de rehaussement ou d'enrichissement 112 et 113 comprenant des trames 101 à 109 de
même durée.
[0008] Pour la construction d'un tel train binaire 10, une seule stratégie est classiquement
envisagée. Tel qu'illustrée par la figure 1, les trames du train binaire codé 10 sont
lues selon l'axe temporel t, puis selon du niveau le plus bas vers le niveau de rehaussement
le plus haut (selon l'axe Q), c'est-à-dire de la trame 101 à la trame 109.
[0009] Les ordres de priorité des trames sont implicites.
[0010] Les unités sont assorties d'une estampille temporelle "cts" (pour « Composition Time
Stamp »). Les deux estampilles correspondent aux temps d'horloge pour lesquels les
paquets doivent être restitués après décodage par le terminal lecteur:
[0011] Chaque unité de même cts peut être tronquée (typiquement par un dispositif d'émission
ou de routage), la qualité reconstituée au décodeur sera alors proportionnelle au
nombre de couches reçues.
[0012] Cette technique de codage / décodage hiérarchique classique ne considère que la transmission
d'entités dont la priorité d'émission impose une hiérarchie unique : soit les unités
sont de durées égales, soit le niveau de hiérarchie de base dure moins longtemps que
les autres niveaux (exemple enrichissement d'une couche CELP par une couche AAC. scalable
tel qu'indiqué dans le document de référence concernant la norme « MPEG-4 audio »
précité).
[0013] La demande de brevet
EP 1 533 789 A1 décrit un procédé de codage et décodage audionumérique utilisant des niveaux multiples
pour le rehaussement d'une couche de base, ces niveaux ayant une longueur de trame
inférieure par rapport à celle de la couche de base. L'agencement des trames est fixe,
et l'ordre des séquences est prédéfini afin d'être utilisé de manière identique par
les étapes de codage et décodage.
3. Objectifs de l'invention
[0014] L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
[0015] Plus précisément, un objectif de l'invention est de fournir une technique de codage
d'un signal audio différente, et plus efficace, que les techniques connues. Un autre
objectif de l'invention, dans au moins un de ses modes de réalisation, est de fournir
une telle technique, qui permette de définir plusieurs stratégie de mise en forme
du train binaire.
4. Exposé de l'invention
[0016] Au moins certains de ces objectifs, ainsi que d'autres qui apparaîtront par la suite,
sont atteints à l'aide d'un procédé de codage hiérarchique d'un signal audio source
sous la forme d'un flux de données comprenant un niveau de base et au moins deux niveaux
de rehaussement hiérarchiques, chacun desdits niveaux étant organisé en trames successives.
[0017] Selon l'invention, un tel procédé est tel qu'au moins une trame d'au moins un niveau
de rehaussement est d'une durée inférieure à la durée d'au moins une trame dudit niveau
de base, et le procédé comprend une étape d'insertion dans ledit flux d'au moins une
information représentative d'un ordre utilisé pour un ensemble de trames correspondant
à la durée d'au moins une trame dudit niveau de base.
[0018] Le principe général de l'invention consiste à coder de manière hiérarchique les composantes
sinusoïdales d'un signal audio sous la forme de trames de base dont au moins certaines
présentent une durée supérieure à au moins certaines trames de rehaussement codant
les composantes complémentaires du signal.
[0019] Ainsi, la technique de codage selon l'invention permet d'obtenir un taux de compression
important et particulièrement pour le niveau de base, ce qui permet de transmettre
le signal codé avec un débit réduit par rapport aux techniques classiques de codage.
[0020] L'information représentative d'un ordre utilisé est destinée au décodeur pour lui
permettre d'adopter la technique de démultiplexage du flux binaire adaptée au multiplexage
adopté.
[0021] Par ailleurs, cette technique de codage conduit à des grains plus petits du train
binaire codé résultant du codage du signal audio.
[0022] Avantageusement, la durée d'une trame de niveau de base est un multiple de la durée
d'une trame d'au moins un desdits niveaux de rehaussement.
[0023] Ainsi, les trames du niveau de base peuvent toutes avoir la même durée ou des durées
différentes. De même les trames d'un même niveau de rehaussement peuvent toutes avoir
la même durée ou des durées différentes. Ensuite les trames de différents niveaux
de rehaussement peuvent toutes avoir la même durée ou des durée différentes.
[0024] Préférentiellement, ledit procédé de codage comprend :
- une étape de décomposition sinusoïdale dudit signal audio source, délivrant des composantes
sinusoïdales formant ledit niveau de base ;
- une étape de codage d'un signal résiduel, délivrant des composantes complémentaires
formant au moins un niveau de rehaussement.
[0025] Par exemple, le signal résiduel peut être obtenu à partir de la différence entre
le signal audio source et un signal reconstruit à l'aide des composantes sinusoïdales.
[0026] Selon une caractéristique avantageuse de l'invention, ladite étape de codage d'un
signal résiduel met en oeuvre un banc de filtres d'analyse.
[0027] Ainsi, le banc de filtres d'analyse fournit une version quantifiée de chacune des
trames des niveaux de rehaussement.
[0028] Avantageusement le procédé de codage comprend, pour le codage d'au moins un desdits
niveaux de rehaussement, au moins une des étapes suivantes :
- codage d'une enveloppe haute fréquence du spectre dudit signal audio source ;
- codage d'au moins un niveau d'énergie de bruit sur au moins une partie du spectre
dudit signal audio source ;
- codage de données de reconstruction d'au moins une voie complémentaire dudit signal
audio source à partir d'un signal mono ;
- transmission de paramètres associés à une étape de duplication du spectre dudit signal
audio source.
[0029] L'enveloppe haute fréquence du spectre du signal audio source ainsi que les niveaux
d'énergie de bruit sur au moins une partie du spectre de ce signal sont des informations
d'extension de bande qui permettent d'enrichir le spectre du signal décodé notamment
lorsque les hautes fréquences sont manquantes.
[0030] Selon un premier mode de réalisation avantageux, le procédé selon l'invention comprend
une étape de construction du flux, ordonnançant les trames selon un ordre dit horizontal,
selon lequel on prend en compte une trame dudit niveau de base puis, pour chacun desdits
niveaux de rehaussement successivement, l'ensemble des trames dudit niveau de rehaussement
couvrant la durée de ladite trame du niveau de base.
[0031] Selon un deuxième mode de réalisation avantageux, le procédé selon l'invention comprend
une étape de construction dudit flux, ordonnançant lesdites trames selon un ordre
dit vertical, selon lequel on prend en compte une trame dudit niveau de base puis
la première trame de chacun desdits niveaux de rehaussement, puis les trames suivantes,
en partant d'un niveau inférieur vers un niveau supérieur en respectant un ordre chronologique,
pour l'ensemble des trames de l'ensemble des niveaux de rehaussement couvrant la durée
de ladite trame du niveau de base.
[0032] Ainsi, ce second mode de réalisation de l'ordonnancement des trames permet de transmettre
des unités d'accès de petite durée et offre ainsi la possibilité de vider la mémoire
plus rapidement.
[0033] Selon un troisième mode de réalisation avantageux, le procédé selon l'invention comprend
une étape de construction dudit flux, ordonnançant lesdites trames selon un ordre
dit combiné, selon lequel on prend en compte une trame dudit niveau de base puis,
pour les trames de l'ensemble des niveaux de rehaussement couvrant la durée de ladite
trame du niveau de base, un ordre de sélection prédéterminé.
[0034] Par exemple, ce troisième mode de réalisation de l'ordonnancement des trames peut
consister à prendre en compte le niveau de base puis plusieurs trames d'un niveau
de rehaussement couvrant la durée temporelle de la trame de rehaussement de niveau
inférieure (dans ce cas optionnellement les trames de rehaussement sont codées dans
le flux en codant toutes les trames de rehaussement associées à premier instant avant
de coder les trames associées à l'instant suivant jusqu'à couvrir la durée de la trame
de rehaussement du niveau inférieur) puis la deuxième trame du premier niveau de rehaussement
et toutes les trames de tous les niveaux de rehaussement associées à cette deuxième
trame de rehaussement et ainsi de suite jusqu'à la prise en compte de tous les niveaux
de rehaussement couvrant la durée du niveau de base.
[0035] Avantageusement, l'étape de construction d'un flux met en oeuvre au moins deux types
d'ordonnancement, selon au moins deux des ordres appartenant au groupe comprenant
les ordres horizontal, vertical et combiné, en fonction d'au moins un critère de sélection
prédéterminé.
[0036] Selon une caractéristique préférentielle de l'invention, ledit critère de sélection
prédéterminé est obtenu selon au moins une des techniques appartenant au groupe comprenant
:
- une analyse dudit signal audio source ;
- une analyse des capacités de traitement et/ou de stockage d'un récepteur ;
- une analyse d'un débit de transmission disponible ;
- une instruction de sélection émise par un terminal ;
- une analyse des capacités d'un réseau de transmission dudit flux.
[0037] L'invention concerne également un produit programme d'ordinateur téléchargeable depuis
un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou
exécutable par un microprocesseur, comprenant des instructions de code de programme
pour la mise en oeuvre du procédé de codage tel décrit précédemment.
[0038] L'invention concerne également un dispositif de codage hiérarchique d'un signal audio
source sous la forme d'un flux de données comprenant un niveau de base et au moins
deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux étant organisé
en trames successives.
[0039] Selon l'invention, le dispositif de codage comprend des moyens de codage desdites
trames, délivrant au moins une trame d'au moins un niveau de rehaussement qui est
d'une durée inférieure à la durée d'une trame dudit niveau de base, et selon lesquels
est insérée dans ledit flux au moins une information représentative d'un ordre utilisé
pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau
de base.
[0040] Un tel dispositif peut notamment mettre en oeuvre le procédé de codage tel que décrit
précédemment.
[0041] Ainsi, selon une caractéristique avantageuse de l'invention, le dispositif de codage
comprend notamment :
- des moyens de décomposition sinusoïdale dudit signal audio source, délivrant des composantes
sinusoïdales formant ledit niveau de base ; et
- des moyens de codage d'un signal résiduel, délivrant des composantes complémentaires
formant au moins un niveau de rehaussement.
[0042] L'invention concerne également un signal de données représentatif d'un signal audio
source et se présentant sous la forme d'un flux de données comprenant un niveau de
base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits niveaux
étant organisé en trames successives.
[0043] Selon l'invention, au moins une trame d'au moins un niveau de rehaussement est d'une
durée inférieure à la durée d'une trame dudit niveau de base, et ledit flux porte
au moins une information représentative d'un ordre utilisé pour l'ordonnancement desdites
trames, pour un ensemble de trames correspondant à la durée d'au moins une trame dudit
niveau de base.
[0044] Un tel signal de données peut notamment représenter un flux de données codé selon
le procédé de codage décrit ci-dessus. Ce signal pourra bien sûr comporter les différentes
caractéristiques relatives au procédé de codage selon l'invention précédemment décrit.
[0045] Ainsi, un tel signal de données peut être obtenu au moyen notamment :
- de moyens de décomposition sinusoïdale dudit signal audio source, délivrant des composantes
sinusoïdales formant ledit niveau de basé ; et
- de moyens de codage d'un signal résiduel, délivrant des composantes complémentaires
formant au moins un niveau de rehaussement.
L'invention concerne également un procédé de décodage d'un signal de données représentatif
d'un signal audio source et se présentant sous la forme d'un flux de données comprenant
un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits
niveaux étant organisé en trames successives, au moins une trame d'au moins un niveau
de rehaussement étant d'une durée inférieure à la durée d'une trame dudit niveau de
base, ledit flux portant au moins une information représentative d'un ordre utilisé
pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à
la durée d'au moins une trame dudit niveau de base.
[0046] Selon l'invention, le procédé de décodage comprend une étape de reconstruction dudit
signal audio source, en prenant en compte, pour une trame dudit niveau de base, au
moins deux trames d'au moins un desdits niveaux de rehaussement s'étendant chacune
sur une portion de la durée de ladite trame du niveau de base. Le procédé comprend
également une étape de lecture de l'information représentative d'un ordre utilisé
pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à
la durée d'au moins une trame dudit niveau de base, et une étape de traitement desdites
trames selon ledit ordre.
[0047] Ainsi, le terminal adapte son démultiplexage au multiplexage mis en oeuvre au codage.
[0048] Un tel procédé de décodage est notamment adapté pour décoder un flux de données codé
selon le procédé de codage décrit précédemment.
[0049] Ainsi, un tel procédé de décodage peut comprendre les étapes suivantes :
- réception d'un signal codé tel que décrit ci-dessus, et extraction d'une part d'un
niveau de base formée de composantes sinusoïdales et d'autre part d'un signal résiduel,
formé de composantes complémentaires formant au moins un niveau de rehaussement ;
- reconstruction d'un signal basique, à partir desdites composantes sinusoïdales formant
ledit niveau de base ;
- reconstruction d'un signal amélioré, à partir dudit signal basique et desdites composantes
complémentaires formant au moins un niveau de rehaussement.
[0050] Plus généralement, le procédé de décodage met en oeuvre des étapes de reconstruction
d'un signal correspondant au signal audio source, inverse des étapes mises en oeuvre
lors du codage.
[0051] L'invention concerne également un produit programme d'ordinateur téléchargeable depuis
un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou
exécutable par un microprocesseur, comprenant des instructions de code de programme
pour la mise en du procédé de décodage décrit précédemment.
[0052] L'invention concerne également un dispositif de décodage d'un signal de données représentatif
d'un signal audio source et se présentant sous la forme d'un flux de données comprenant
un niveau de base et au moins deux niveaux de rehaussement hiérarchiques, chacun desdits
niveaux étant organisé en trames successives,
au moins une trame d'au moins un niveau de rehaussement étant d'une durée inférieure
à la durée d'une trame dudit niveau de base, ledit flux portant au moins une information
représentative d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble
de trames correspondant à la durée d'au moins une trame dudit niveau de base.
[0053] Selon l'invention, le dispositif de décodage comprend des moyens de reconstruction
dudit signal audio source, en prenant en compte, pour une trame dudit niveau de base,
au moins deux trames d'au moins un desdits niveaux de rehaussement s'étendant chacune
sur une portion de la durée de ladite trame du niveau de base. Le dispositif comprend
également des moyens de lecture de l'information représentative d'un ordre utilisé
pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant à
la durée d'au moins une trame dudit niveau de base, et des moyens de traitement desdites
trames selon ledit ordre.
[0054] Un tel dispositif de décodage peut notamment mettre en oeuvre le procédé de décodage
tel que décrit précédemment. Il est par conséquent adapté à recevoir un flux de données
codé par le dispositif de codage décrit précédemment.
5. Liste des figures
[0055] D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement
à la lecture de la description suivante d'un mode de mise en oeuvre préférentiel,
donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés,
parmi lesquels :
- la figure 1 présente un schéma d'un train binaire mis en forme par un codage hiérarchique
classique ;
- la figure 2 présente un schéma de l'unité de traitement d'un dispositif de codage
selon un mode de mise en oeuvre préférentiel de l'invention ;
- la figure 3 présente un schéma d'un module d'analyse en sous-bandes selon le mode
de mise en oeuvre préférentiel de l'invention ;
- la figure 4 présente un schéma simplifié de l'unité de traitement d'un dispositif
de décodage selon le mode de mise en oeuvre préférentiel de l'invention ;
- la figure 5 est un schéma complet de l'unité de traitement du dispositif de décodage
de la figure 4 ;
- les figures 6A à 6D illustrent des premier (figure 6B), second (figure 6C) et troisième
(figure 6D) exemples, conformes à l'invention, de lecture d'un train binaire hiérarchique
présenté à la figure 6A ;
- les figures 7A et 7B sont des schémas de la structure générale simplifiée du dispositif
de codage (figure 7A) et de décodage (figure 7B) selon l'invention.
6. Description d'un mode de réalisation de l'invention
[0056] On décrit dans la suite des procédés de codage et décodage hiérarchique de signaux
audio numériques mis en oeuvre par des dispositifs de codage et décodage hiérarchique
selon un mode de mise en oeuvre préférentiel de l'invention. Ces procédés associent
des techniques d'analyse/synthèse sinusoïdale, des techniques de codage en sous-bandes,
ainsi que des techniques d'enrichissement de spectre et stéréophoniques.
6.1 codage
[0057] Dans la suite, on décrit dans un premier temps le procédé de codage hiérarchique
(mis en oeuvre par le dispositif de codage hiérarchique) selon l'invention, permettant
le codage d'un signal audio numérique initial sous la forme d'un train binaire hiérarchique
codé (ou signal audio numérique codé) sous la forme de différentes couches (ou niveaux).
[0058] Le procédé de codage décrit ci-après comprend un processus d'analyse qui permet l'estimation
et le codage des composantes sinusoïdales d'un signal, le codage d'un signal résiduel
en sous-bandes (ou couches ou niveaux), le codage d'informations liées aux techniques
d'extension, de bande et le codage des informations de conversion d'un signal monophonique
en un signal à plusieurs voies par exemple du « Parametric Stéréo » tel que défini
dans le document de référence concernant la norme « MPEG-4 audio » précité.
[0059] Selon un mode de réalisation de l'invention, le niveau de base est issu d'un codeur
sinusoïdal, les niveaux de rehaussement sont issus d'un codeur à extension de bande
(ex: SBR), d'un codeur sinusoïdal, d'un enrichissement stéréo paramétrique, d'un codage
par transformée du résidu après soustraction des sinusoïdes du signal.
[0060] On présente, en relation avec la figure 2, un schéma de l'unité de traitement 20
d'un dispositif de codage (tel qu'illustré ci-après en relation avec la figure 7A)
selon un mode de mise en oeuvre préférentiel de l'invention.
[0061] Le signal audio multi-canal (constitué de m voies) initial est injecté dans un module
d'obtention du signal mono 205 qui délivre d'une part un signal audio mono (pour monophonique)
x(t) 2051 (ou plus généralement n voies audio) et d'autre part des données de reconstruction
2052 permettant de reconstruire une ou plusieurs (m supérieur à n) voies, représentatifs
du signal audio initial.
[0062] Les données de reconstruction 2052 sont ensuite transmises au module de mise en forme
206 décrit ci-après.
[0063] Le signal audio mono x(t) 2051 est quant à lui injecté dans un module d'analyse sinusoïdale
201 dont le but est d'extraire des composantes sinusoïdales du signal mono. On rappelle
que la modélisation sinusoïdale se base sur le principe de décomposition d'un signal
sous une somme de sinusoïdes de fréquence, d'amplitude, et de phase variable dans
le temps.
[0064] Ainsi, le signal audio x(t) peut s'écrire sous la forme suivante :

où:
- r(t) représente le signal résiduel
- M correspond au nombre de partiels retenus par l'analyse
- Ai(t) et φi(t) représentent respectivement l'amplitude et la phase du partiel (ou composante
sinusoïdale du signal audio x(t)) d'indice i.
[0065] La phase φ
i(t) du partiel d'indice i dépend de la fréquence f
i du partiel et de sa phase initiale φ
0i(t) selon l'expression suivante :

[0066] Un partiel de plusieurs secondes peut être avantageusement modélisé par un petit
jeu de paramètres et pour des signaux particuliers, cette modélisation sinusoïdale
dite "long terme" devient plus efficace (en terme de débit) que la modélisation en
sous bandés (ou couches ou niveaux) dite "court terme" qui découpe le signal en trame
de longueur fixe de quelques dizaines de millisecondes.
[0067] Les partiels du signal audio x(t) sont transmises par le module d'analyse sinusoïdale
201 à un module de mise en forme 206 décrit ci-après.
[0068] Un module de synthèse sinusoïdale 203 permet, à l'aide d'un dispositif de soustraction
204, de retrancher au signal audio x(t) les composantes sinusoïdales du signal audio
x(t) afin d'obtenir le signal résiduel r(t).
[0069] Le signal résiduel r(t) est ensuite injecté dans un module d'analyse en sous-bandes
202 décrit ci-après en relation avec la figure 3.
[0070] On présente, en relation avec la figure 3, un schéma du module d'analyse en sous-bandes
202 selon le mode de mise en oeuvre préférentiel de l'invention. Ce module 202 comprend
un banc de filtres d'analyses (ABF) 2021.
[0071] Dans le cadre de ce mode de mise en oeuvre préférentiel de l'invention, le banc de
filtres d'analyse 2021 fournit une composante quantifiée de chacune des sous-bandes
(sous bande 0 référencée 20221, sous bande 1 référencée 20222, sous bande 2 référencée
20223, ... sous bande N-1 référencée 20224 où N est un entier) du signal résiduel
r(t) qui sont ensuite injectées dans un module d'analyse et codage 2023.
[0072] Le module d'analyse et codage 2023 délivre au module de mise en forme 206 décrit
ci-après, outre les composantes quantifiées de chacune des sous-bande du signal résiduel
r(t), des informations d'extension de bande (enveloppe haute fréquence 2024 et niveaux
de bruit 2025), ainsi que des informations de reconstruction des différentes voies
du signal audio initial (qui est par exemple un signal audio stéréo ou en 5.1) à partir
du signal monophonique (paramètres stéréo 2026).
[0073] Le module de mise en forme 206 construit ensuite un train binaire hiérarchique (ou
codé) 200 composé des trames des différentes couches (ou niveaux) suivantes :
- une couche de base 207 (autrement appelée niveau de base) dite "long terme" décrivant
les composantes sinusoïdales (ou partiels) du signal audio x(t) à transmettre. Cette
couche 207 modélise typiquement des unités longues du signal x(t) correspondant aux
partiels. Chaque partiel est décrit par un temps de départ, sa durée, et les paramètres
d'amplitude, de fréquence et de phase variables dans le temps. Selon ce mode de mise
en oeuvre préférentiel de l'invention, la taille de ces couches "long terme" décriant
les composantes sinusoïdales du signal est inférieure à 3kbit/s. Optionnellement,
une information d'enveloppe hautes-fréquences est également transmise dans cette couche
de base afin d'ajuster les amplitudes des sinus reconstruit lors de la mise en oeuvre
du procédé de décodage selon l'invention (décrit ci-après) par le module d'extension
sinusoïdale décrit ci-après.
- différentes couches de rehaussement 208 (autrement appelées niveaux de rehaussement)
dites "court terme" modélisant le signal résiduel en sous-bandes à différents degrés
de précision (par exemple, on a représenté, sur cette figure 2, le train binaire hiérarchique
200 avec deux niveaux de rehaussement 208, cependant tout autre nombre de niveaux
de rehaussement peut être envisagé dans le cadre de la présente invention). Selon
ce mode de mise en oeuvre préférentiel de l'invention, la taille de chacune des couches
de rehaussement 208 est comprise entre 4 et 16 kbit/s ;
- une couche d'extension de bande 209 dite "court terme" modélisant l'enveloppe hautes-fréquences
du spectre de signal audio x(t) à coder, ainsi que les niveaux d'énergie de bruit
en sous-bandes sur tout, ou une partie du spectre du signal x(t). Les enveloppes hautes
fréquence pour les sinusoïdes peuvent être transmises dans ce champ. Selon ce mode
de mise en oeuvre particulier de l'invention, la taille de cette couche 209 est de
l'ordre de quelques kbit/s ;
- une couche 210 dite "court terme" permettant de reconstruire les différents voies
du signal audio (stéréo voire 5.1) à partir du signal mono (paramètres basés par exemple
sur des différences temporelles et de niveau inter orales). Selon ce mode de mise
en oeuvre particulier de l'invention, la taille de cette couche est de l'ordre de
quelques kbit/s.
[0074] Le train binaire hiérarchique 200 peut également comprendre une information annexe
indiquant au dispositif de décodage selon l'invention qui met en oeuvre le procédé
de décodage selon l'invention (décrit ci-après) le mode de lecture du train binaire
hiérarchique 200.
[0075] Avantageusement, chacune des couches (ou niveaux) du train binaire hiérarchique 200
peut être également décomposée en différents niveaux d'enrichissement ou de rehaussement
sous formes de trames d'amélioration (ou de rehaussement) :
- les sinusoïdes peuvent être organisées par bandes de fréquences, chaque bande de fréquence
étant transmise dans différentes unités (ou trames) ;
- le signal résiduel peut être découpé en différentes bandes et enrichissement de précision
chacune de ces entités pouvant être associées à autant de différentes trames d'enrichissement
complémentaires ;
- les informations hautes fréquences pour l'enrichissement spectral peuvent elles-mêmes
être organisées en différentes bandes d'enrichissement, par exemple 3,4 kHz-7 kHz
puis 7 kHz -15 kHz afin d'obtenir progressivement une bande hi-fi.
- les informations stéréo peuvent également être organisées en plusieurs couches : au
départ une couche paramétrique est transmise puis progressivement c'est le signal
différence des voies gauches et droites qui est transmis afin de recréer la stéréo
de façon fidèle.
[0076] Avantageusement, tel que cela est illustré par la figure 2, dans le cadre de ce mode
de mise en oeuvre préférentiel de l'invention, les trames de la couche de base 207
(ou niveau de base) correspondant aux informations sinusoïdales décrivent des portions
du signal plus longues que les trames des couches (ou niveaux) de rehaussement 208,
les trames des couches de rehaussement étant de même longueur. Bien entendu, dans
des variantes de ce mode de mise en oeuvre, les trames des niveaux de rehaussement
peuvent présenter des longueurs différentes en fonction de leur position dans un même
niveau de rehaussement ou en fonction des niveaux de rehaussement auxquels elles appartiennent.
[0077] La transmission ou le stockage de ces informations sont réalisés suivant les options
suivantes (illustrées au moyen des figures 6A à 6D décrites plus en détail ci-après)
:
- Une première option de lecture en mode dit "vertical" (illustré ci-après par les figures
6A et 6C) qui consiste à transmettre le niveau de base puis, successivement les premières
trames de tous les niveaux de rehaussement, puis les autres trames des niveaux de
rehaussement supérieur en partant des niveaux inférieurs vers les niveaux supérieurs
et en respectant l'ordre chronologique ;
- Une seconde option de lecture en mode dit "horizontal" (illustré ci-après par les
figures 6A et 6B) qui consiste à transmettre le niveau de base suivi de toutes les
trames du premier niveau de rehaussement couvrant la durée du niveau de base, suivi
de toutes les trames du deuxième niveau de rehaussement couvrant la durée du niveau
de base et ainsi de suite jusqu'à la transmission de tous les niveaux de rehaussement
couvrant la durée du niveau de base ;
- Une troisième option de lecture en mode dit "combiné" (illustré ci-après par les figures
6A et 6D) qui consiste à transmettre le niveau de base puis plusieurs trames d'un
niveau de rehaussement couvrant la durée temporelle de la trame de rehaussement de
niveau inférieure (dans ce cas optionnellement les trames de rehaussement sont codées
dans le flux en codant toutes les trames de rehaussement associées à premier instant
avant de coder les trames associées à l'instant suivant jusqu'à couvrir la durée de
la trame de rehaussement du niveau inférieur) puis la deuxième trame du premier niveau
de rehaussement et toutes les trames de tous les niveaux de rehaussement associées
à cette deuxième trame de rehaussement et ainsi de suite jusqu'à la transmission de
tous les niveaux de rehaussement couvrant la durée du niveau de base.
[0078] L'ordre de transmission des trames de rehaussement est indiqué par le codeur dans
le flux suivant la forme d'une information d'initialisation pour le décodeur.
6.2 décodage
[0079] On décrit dans un second temps, le procédé de décodage hiérarchique (mis en oeuvre
par le dispositif de décodage hiérarchique) qui, à partir du train binaire codé (ou
hiérarchique) 200 reçu, permet de reconstruire un signal audio numérique synthétisé
approchant au mieux le signal audio numérique initial précédemment codé.
[0080] Le train binaire hiérarchique 200 obtenu au moyen du procédé de codage hiérarchique
précédemment décrit (mis en oeuvre par l'unité de traitement 20 du dispositif de codagedécrit
en relation avec la figure 2) est transmis via un canal de transmission puis reçu
par le dispositif de décodage mettant en oeuvre le procédé de décodage hiérarchique
selon l'invention ci-après décrit.
[0081] On présente, en relation avec la figure 4, un schéma simplifié de l'unité de traitement
50 d'un dispositif de décodage (tel qu'illustré ci-après en relation avec la figure
7B) selon un mode de mise en oeuvre préférentiel de l'invention.
[0082] A la réception du train binaire hiérarchique 200, l'unité de traitement 50 se charge
alors de démultiplexer les différentes couches du train binaire hiérarchique et de
décoder les informations utiles pour le module de synthèse sinusoïdale 51, pour le
module de décodage du signal résiduel en sous-bandes 52 et pour les modules d'extension
de bande 53 et pour la stéréo.
[0083] Les informations extraites de la couche de base (éléments sinusoïdaux) sont injectées
dans le module de synthèse sinusoïdale 51, qui à partir des informations reçues (fréquences;
phases et amplitudes de chacun des partiels ou d'un ensemble de partiels), synthétise
le signal correspondant à la somme des partiels transmis.
[0084] Les informations extraites des couches (ou niveaux) de rehaussement 208 modélisant
le signal résiduel (également appelées éléments résiduels) sont injectées dans le
module de décodage du signal résiduel en sous-bandes 52.
[0085] Les signaux en sortie des modules de synthèse sinusoïdale 51 et de décodage du signal
résiduel en sous-bandes 52 sont sommés par un dispositif d'addition 54, puis la somme
est appliquée en entrée du module d'extension de bande 53.
[0086] Les informations de la couche d'extension de bande 209 modélisant l'enveloppe hautes-fréquences
et les niveaux d'énergie de bruit en sous-bandes (appelés éléments extension de Bande)
sont injectées dans le module d'extension de bande 53 (autrement appelé module d'enrichissement
de spectre) qui permet, à partir des signaux reconstruits par les deux modules précédents,
de synthétiser le signal de sortie.
[0087] Pour des raisons de lisibilité des schémas, le module de conversion du signal mono
en signal stéréo (ou 5.1) n'est pas représenté sur cette figure 4.
[0088] On présente, en relation avec la figure 5, un schéma complet de l'unité de traitement
50 du dispositif de décodage selon le mode de mise en oeuvre préférentiel de l'invention.
[0089] On décrit ci-après, en relation avec l'unité de traitement 50 du dispositif de décodage
de cette figure 5, les étapes du procédé de décodage et de mise en forme du train
binaire selon le mode de mise en oeuvre préférentiel de l'invention.
[0090] A la réception du train binaire hiérarchique 200 (par exemple avec trois niveaux
de rehaussement 208) un module de démultiplexage 55 se charge de démultiplexer les
différentes couches (ou niveaux) du train binaire hiérarchique 200.
[0091] Les informations contenues dans le niveau de base 207 permettent au module de synthèse
sinusoïdale 51 de synthétiser les différents partiels contenus dans le signal audio
initial x(t) précédemment codé.
[0092] Dans un mode de réalisation préférentiel de ce mode de mise en oeuvre préférentiel,
les partiels ainsi synthétisés sont ensuite injectés dans un module d'extension sinusoïdale
510 dont le but est de synthétiser, à partir des partiels transmis, des partiels aux
multiples de la fréquence de chacun de ces partiels transmis. Cette opération correspond
en fait à une interpolation d'une série harmonique tronquée, conformément aux équations
(3) et (4) suivantes.
[0093] A partir d'un partiel transmis vérifiant l'équation suivante :

[0094] On synthétise la série harmonique vérifiant l'équation suivante :

où φ
n est soit égal à φ
0 soit égal à un nombre aléatoire.
[0095] Les phases et les fréquences des partiels synthétisés étant ainsi directement calculés
par le module de synthèse sinusoïdal 51, il reste à ajuster leurs amplitudes. L'information
d'enveloppe transmise dans le train binaire hiérarchique 200 dans le niveau d'extension
de bande 209 (modélisant l'enveloppe hautes-fréquences et les niveaux d'énergie de
bruit en sous-bandes) permet d'ajuster l'amplitude des sinus des partiels ainsi synthétisés.
[0096] Ainsi, dans le cadre du présent mode de mise en oeuvre préférentiel de l'invention,
cette information d'enveloppe hautes-fréquences est transmise dans la couche d'extension
de bande 209 (qui est une couche « court terme »). Dépendant dans une variante non
illustrée de ce mode de mise en oeuvre préférentiel, on transmet cette information
d'enveloppe dans la couche de base 207 "long terme" décrivant la partie sinusoïdale
du signal.
[0097] Dans le cadre du mode de réalisation préférentiel; le signal en sortie du module
d'extension sinusoïdal 510 est ensuite injecté dans un module d'analyse en sous-bandes
511.
[0098] Les informations contenues dans les différentes couches de rehaussement 208 décrivant
le signal résiduel r(t) en sous-bandes sont injectée dans le module de décodage résiduel
52.
[0099] On suppose, dans le cadre du présent mode de mise en oeuvre préférentiel, que la
capacité du canal de transmission est suffisante pour transmettre toutes les couches
de rehaussement 208 décrivant le signal résiduel r(t) (cas favorable).
[0100] Dans des variantes de ce mode de mise en oeuvre préférentiel, par exemple lorsque
la bande passante est limitée, les couches de rehaussement 208 ne peuvent pas être
toutes reçues par l'unité de traitement 50 (cas moyennement favorable), et parfois
même aucune des couches de rehaussement n'est reçue (cas défavorable).
[0101] Les sous-bandes issues des modules de décodage résiduel 52 et d'analyse en sous-bandes
511 sont ensuite sommées avant d'être injectée dans le module d'extension de bande
53.
[0102] Dans le cas moyennement favorable précité, les informations récupérées dans le train
binaire hiérarchique 200 ne permettent pas de synthétiser le signal audio x(t) en
pleine bande, ainsi, les sous bandes hautes-fréquences sont alors manquantes. Le rôle
du module d'extension de bande 53 est ici de synthétiser les sous-bandes hautes fréquences
à partir des sous-bandes basses fréquences, conformément à la technique décrite dans
le document de Martin Dietz, Lars Liljeryd, Kristofer Kjörling et Oliver Kunz qui
s'intitule " Spectral Band Réplication - A Novel Approach in Audio Coding ", 112nd
AES convention, Munich 2002.
[0103] En sortie du module d'extension de bande 53, du bruit est ajouté à chacune des sous-bandes
grâce au module génération de bruit 56. Les niveaux d'énergie de bruit à injecter
dans chacune des sous-bandes sont reçus dans le train binaire hiérarchique 200 dans
la couche d'extension de bande 209.
[0104] Les énergies des sous-bandes résultantes sont ensuite ajustées par un module d'ajustement
d'enveloppe 57. Les niveaux d'énergies de chacune des sous-bandes sont également reçus
dans le train binaire hiérarchique 200 dans la couche d'extension de bande 209.
[0105] Les sous-bandes résultantes sont ensuite injectées dans un banc de filtres de synthèse
appelé module de synthèse en sous-bandes 58.
[0106] Le signal en sortie de ce module de synthèse en sous-bandes 58 est ensuite sommé
à la partie sinusoïdale issue du module de synthèse sinusoïdale 51 et, optionnellement
du module d'extension sinusoïdal 510 (les moyens mettant en oeuvre cette dernière
étape ne sont pas représentés sur la figure 5).
[0107] On obtient ainsi un signal audio numérique synthétisé approchant au mieux le signal
audio initial x(t).
[0108] Selon les informations reçues par le dispositif de décodage via le train binaire
hiérarchique 200, le signal audio numérique synthétisé peut ainsi correspondre notamment
à :
- soit à la somme des sinus transmis et éventuellement des sinus interpolés et ajustés
par le module d'extension sinusoïdale 510, et du bruit si aucune des couches de rehaussement
208 (décrivant le signal résiduel en sous-bandes) ne sont reçues par le dispositif
de décodage ;
- soit à la somme des sinus, des sous-bandes basses fréquences transmises et des signaux
dupliqués en hautes fréquences par le module d'extension de bande 53 ;
- soit à la somme des sinus transmis, des sinus interpolés et ajustés par le module
d'extension sinusoïdale 510, des sous-bandes basses fréquences transmises, des sous-bandes
basses fréquences dupliquées en hautes fréquences par le module d'extension de bande
53, et à du bruit mis en forme sur toute la bande, et à la reconstruction des m voies
(par exemple 2 pour un système stéréo) à partir des n voies transmises (par exemple
1 voie mono).
[0109] On décrit ci-après, deux exemples de démultiplexage ou lecture selon l'invention
d'un train binaire hiérarchique.
[0110] On présente, en relation avec les figures 6A et 6B, un premier exemple, conforme
à l'invention, de lecture (figure 6B) du train binaire hiérarchique 200 issu de la
structure de la figure 6A. Ce premier exemple de lecture, dit "horizontal", est plus
coûteux en ressource mémoire, mais optimal du point de vue de la qualité si tous les
niveaux ne sont pas recus.
[0111] Le train binaire hiérarchique 200 comprend un niveau de base 207, et des premier,
deuxième et troisième niveaux de rehaussement 208 à 210. Une trame 00 ou 40 du niveau
de base 207 est suivie de :
- 4 trames 01, 11, 21, 31 ou 41, 51, 61, 71 du premier niveau de rehaussement 208 ;
puis de
- 4 trames 02, 12, 22, 32 ou 42, 52, 62, 72 du deuxième niveau de rehaussement 209 ;
puis de
- 4 trames 03, 13, 23, 33 ou 43, 53, 63, 73 du troisième niveau de rehaussement 210.
[0112] Ce premier exemple de lecture (figure 6B) consiste donc à lire le niveau de base
suivi de toutes les trames du premier niveau de rehaussement couvrant la durée du
niveau de base, suivi de toutes les trames du deuxième niveau de rehaussement couvrant
la durée du niveau de base et ainsi de suite jusqu'à la transmission de tous les niveaux
de rehaussement couvrant la durée du niveau de base.
[0113] Ainsi, une trame correspondant à un niveau de rehaussement n est lue après que le
niveau de rehaussement n-1 soit complètement lu pour la durée du niveau de base.
[0114] On obtient ainsi le train binaire hiérarchique démultiplexé 640.
[0115] Des champs cts (pour « composition time stamp »), qui délimitent des couches de niveau
système et permettent d'indiquer au dispositif de décodage l'instant de composition
des unités transmises, sont intégrés au train binaire 640.
[0116] On présente, en relation avec les figures 6A et 6C, un second exemple conforme à
l'invention de lecture (figure 6C) du train binaire hiérarchique 200 de la figure
6A. Ce second exemple, dit "vertical" offre la possibilité, de transmettre des unités
d'accès de petite durée et offre ainsi la possibilité de réaliser un décodage à faible
retard.
[0117] Ce second exemple de lecture (figure 6C) consiste à lire la première trame du niveau
de base puis les premières trames des premier, deuxième, troisième niveaux de rehaussement,
puis les deuxièmes trames des premier, deuxième, troisième niveaux de réhaussement
et ainsi de suite de manière à couvrir la durée du niveau de base. Ensuite, la lecture
de la seconde trame du niveau de base est mise en oeuvre et ainsi de suite.
[0118] On obtient ainsi le second train binaire hiérarchique démultiplexé 650.
[0119] Bien entendu, d'autres modes de lecture selon l'invention de trains binaires hiérarchisés
peuvent être obtenus par combinaison des exemples de lecture dit « vertical » et «
horizontal ».
[0120] L'ordre d'organisation des différentes couches du train binaire hiérarchique doit
être connu du décodeur. Pour ce faire, l'information (par exemple une information
d'initialisation générée par le dispositif de codage) est transmise dans un champ
syntaxique spécial qui est transmis dans le train binaire hiérarchique.
[0121] On présente, en annexe 1, un tableau illustrant une syntaxe de lecture de l'information
concernant le mode de démultiplexage ou de lecture (par exemple les premier et second
exemples de lecture précités) que doit adopter le dispositif de décodage.
[0122] Dans le cadre du présent mode de mise en oeuvre préférentiel de l'invention, ce mode
de lecture est indiqué dans un champ de 2 bits appelé « framingMode »..
- si le champ framingMode prend la valeur 0x00, alors le dispositif de décodage adopte
le premier exemple de lecture, dit "horizontal," tel que précédemment décrit en relation
avec la figure 6B (ce mode de lecture est implicite) ;
- si le champ framingMode prend la valeur 0x01, alors le dispositif de décodage adopte
le second exemple de lecture, dit "vertical" tel que précédemment décrit en relation
avec la figure 6C (ce mode de lecture est implicite) ;
- si le champ framingMode prend la valeur 0x10, alors le décodeur analyse un champ additionnel
(appelé « advancedFramingInformation ») qui précise le mode de lecture. Ce champ additionnel
qui permet des tramages spécifiques est présenté ci-dessous.
- si la champ framingMode prend la valeur 0x11, alors on est dans le cadre d'un mode
réservé.
[0123] On présente, en annexe 2, un tableau illustrant une syntaxe de lecture du tramage
dans le cas d'une mise en trames non implicite.
[0124] Le nombre de niveaux de rehaussement est lu au préalable. Ensuite pour chacun des
niveaux (sauf le dernier) est indiqué l'ordre de lecture du niveau suivant : par couche
de rehaussement (layerOrganization[layer]=0) ou par instant temporel jusqu'à ce que
soit complètement parcourue la durée du niveau de rehaussement précédent (layerOrganization[layer]=1).
[0125] La durée de chaque niveau de rehaussement est connue du décodeur à l'aide des informations
de configuration spécifiques aux différents champs (sinusConfig(), transformConfig(),
BandwidthExtensionConfig(), StereoExtension()).
[0126] Le procédé de codage de l'invention peut être mis en oeuvre dans de nombreux dispositifs,
tels que des serveurs de flux, des noeuds intermédiaires d'un réseau, des émetteurs,
des dispositifs de stockage de données,...
[0127] La structure générale simplifiée d'un tel dispositif de codage est illustrée schématiquement
par la figure 7A. Il comprend une mémoire M 1000, une unité de traitement 1010 (telle
que l'unité de traitement 20 décrit en relation avec la figure 2), équipée par exemple
d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 1020.
[0128] A l'initialisation, les instructions de code du programme d'ordinateur 1020 sont
par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur
de l'unité de traitement 1010. L'unité de traitement 1010 reçoit en entrée 1050 un
signal audio 1030. Le microprocesseur µP de l'unité de traitement 1010 met en oeuvre
le procédé décrit ci-dessus, selon les instructions du programme Pg 1020. L'unité
de traitement 1010 délivre en sortie 1060 un flux binaire hiérarchique 1040 (correspondant
au signal audio codé).
[0129] Le procédé de décodage de l'invention peut être mis en oeuvre dans de nombreux dispositifs,
tels que des serveurs de flux, des noeuds intermédiaires d'un réseau, des émetteurs,
des dispositifs de stockage de données,...
[0130] La structure générale simplifiée d'un tel dispositif de décodage est illustrée schématiquement
par la figure 7B. Il comprend une mémoire M 1100, une unité de traitement 1110 (telle
que l'unité de traitement 50 décrit en relation avec la figure 5), équipée par exemple
d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 1120.
[0131] A l'initialisation, les instructions de code du programme d'ordinateur 1120 sont
par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur
de l'unité de traitement 1110. L'unité de traitement 1110 reçoit en entrée 1150 un
train binaire hiérarchique 1130. Le microprocesseur µP de l'unité de traitement 1110
met en oeuvre le procédé décrit ci-dessus, selon les instructions du programme Pg
1120. L'unité de traitement 1110 délivre en sortie 1160 un signal audio décodé 1140.
ANNEXE 1
[0132]
Syntaxe |
No. of bits |
Mnemonic |
decoderSpecificConfiguration() |
{ |
|
|
|
|
|
|
FramingMode |
|
2 |
uimsbf |
|
if (framingMode == 0x10) |
|
|
|
|
|
advancedFramingInformation(); |
|
|
|
|
|
|
|
|
|
sinusConfig() |
// elements pour initialisation |
|
|
|
transformConfig() |
// elements pour initialisation |
|
|
|
BandwidthExtensionConfig() |
// elements pour initialisation |
|
|
|
StereoExtension() |
// éléments pour initialisation |
|
|
} |
|
|
|
|
|
ANNEXE 2
[0133]
Syntaxe |
No. of bits |
Mnemonic |
advancedFramingInformation() |
{ |
|
nELayers |
4 |
uimsbf |
|
for(layer =0; layer <nELayers-1 layer++) |
|
|
|
|
layerOrganization[layer] |
1 |
uimsbf |
|
|
|
|
|
} |
1. Procédé de codage hiérarchique d'un signal audio source sous la forme d'un flux de
données (200) comprenant un niveau de base, (207) et au moins deux niveaux de rehaussement
hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames
successives,
ledit flux ayant au moins une trame d'au moins un niveau de rehaussement (208, 209,
210, 211) d'une durée inférieure à la durée d'au moins une trame dudit niveau de base
(207), et caractérisé
en ce qu'il comprend une étape d'insertion dans ledit flux d'au moins une information représentative
d'un ordre utilisé pour un ensemble de trames correspondant à la durée d'au moins
une trame dudit niveau de base (207).
2. Procédé de codage selon la revendication 1, caractérisé en ce que la durée d'une trame de niveau de base (207) est un multiple de la durée d'une trame
d'au moins un desdits niveaux de rehaussement (208, 209, 210, 211).
3. Procédé de codage selon l'une quelconque des revendications 1 et 2,
caractérisé en ce que ledit procédé de codage comprend :
- une étape de décomposition sinusoïdale dudit signal audio source, délivrant des
composantes sinusoïdales formant ledit niveau de base (207) ;
- une étape de codage d'un signal résiduel, délivrant des composantes complémentaires
formant au moins un niveau de rehaussement (208, 209, 210, 211).
4. Procédé de codage selon la revendication 3, caractérisé en ce que ladite étape de codage d'un signal résiduel met en oeuvre un banc de filtres d'analyse
(2021).
5. Procédé de codage selon l'une quelconque des revendications 1 à 4,
caractérisé en ce qu'il comprend, pour le codage d'au moins un desdits niveaux de rehaussement (208, 209,
210, 211), au moins une des étapes suivantes :
- codage d'une enveloppe haute fréquence du spectre dudit signal audio source ;
- codage d'au moins un niveau d'énergie de bruit sur au moins une partie du spectre
dudit signal audio source ;
- codage de données de reconstruction d'au moins une voie complémentaire dudit signal
audio source à partir d'un signal mono ;
- transmission de paramètres associés à une étape de duplication du spectre dudit
signal audio source.
6. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames
selon un ordre dit horizontal, selon lequel on prend en compte une trame dudit niveau
de base (207) puis, pour chacun desdits niveaux de rehaussement (208, 209, 210, 211)
successivement, l'ensemble des trames dudit niveau de rehaussement couvrant la durée
de ladite trame du niveau de base.
7. Procédé de codage selon l'une quelconque des revendications 1 à 5; caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames
selon un ordre dit vertical, selon lequel on prend en compte une trame dudit niveau
de base (207) puis la première trame de chacun desdits niveaux de rehaussement (208,
209, 210, 211), puis les trames suivantes, en partant d'un niveau inférieur vers un
niveau supérieur en respectant un ordre chronologique, pour l'ensemble des trames
de l'ensemble des niveaux de rehaussement couvrant la durée de ladite trame du niveau
de base.
8. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend une étape de construction dudit flux (200), ordonnançant lesdites trames
selon un ordre dit combiné, selon lequel on prend en compte une trame dudit niveau
de base (207) puis, pour les trames de l'ensemble des niveaux de rehaussement (208,
209, 210, 211) couvrant la durée de ladite trame du niveau de base, un ordre de sélection
prédéterminé.
9. Procédé de codage selon l'une quelconque des revendications 6 à 8, caractérisé en ce que ladite étape de construction d'un flux met en oeuvre au moins deux types d'ordonnancement,
selon au moins deux des ordres appartenant au groupe comprenant les ordres horizontal,
vertical et combiné, en fonction d'au moins un critère de sélection prédéterminé.
10. Procédé de codage selon la revendication 9,
caractérisé en ce que ledit critère de sélection prédéterminé est obtenu selon au moins une des techniques
appartenant au groupe comprenant :
- une analyse dudit signal audio source ;
- une analyse des capacités de traitement et/ou de stockage d'un récepteur ;
- une analyse d'un débit de transmission disponible ;
- une instruction de sélection émise par un terminal ;
- une analyse des capacités d'un réseau de transmission dudit flux.
11. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou
stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur,
caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en oeuvre d'au moins
une des revendications 1 à 10.
12. Dispositif de codage hiérarchique d'un signal audio source sous la forme d'un flux
de données (200) comprenant un niveau de base (207) et au moins deux niveaux de rehaussement
hiérarchiques (208, 209, 210, 211), chacun desdits niveaux étant organisé en trames
successives,
comprenant des moyens de codage (20) desdites trames, selon lesquels au moins une
trame d'au moins un niveau de rehaussement (208, 209, 210, 211) est d'une durée inférieure
à la durée d'une trame dudit niveau de base (207), étant caractérisé par lesdits moyens de codage étant adaptés pour insérer dans ledit flux au moins une
information représentative d'un ordre utilisé pour un ensemble de trames correspondant
à la durée d'au moins une trame dudit niveau de base (207).
13. Signal de données représentatif d'un signal audio source et se présentant sous la
forme d'un flux de données (200) comprenant un niveau de base (207) et au moins deux
niveaux de rehaussement hiérarchiques (208, 209, 210, 211), chacun desdits niveaux
étant organisé en trames successives,
comprenant au moins une trame d'au moins un niveau de rehaussement (208, 209, 210,
211) d'une durée inférieure à la durée d'une trame dudit niveau de base (207), et
caractérisé
en ce que ledit flux porte au moins une information représentative d'un ordre utilisé pour
l'ordonnancement desdites trames, pour un ensemble de trames correspondant à la durée
d'au moins une trame dudit niveau de base (207).
14. Procédé de décodage d'un signal de données représentatif d'un signal audio source
et se présentant sous la forme d'un flux (200) de données comprenant un niveau de
base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210,
211), chacun desdits niveaux étant organisé en trames successives, au moins une trame
d'au moins un niveau de rehaussement (208, 209, 210, 211) étant d'une durée inférieure
à la durée d'une trame dudit niveau de base (207), ledit flux portant au moins une
information représentative d'un ordre utilise pour l'ordonnancement desdites trames,
pour un ensemble de trames correspondant à la durée d'au moins une trame dudit niveau
de base (207),
comprenant une étape de reconstruction dudit signal audio source, en prenant en compte,
pour une trame dudit niveau de base (207), au moins deux trames d'au moins un desdits
niveaux de rehaussement (208, 209, 210, 211) s'étendant chacune sur une portion de
la durée de ladite trame du niveau de base (207), et caractérisé
en ce qu'il comprend également une étape de lecture de l'information représentative d'un ordre
utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant
à la durée d'au moins une trame dudit niveau de base, et une étape de traitement desdites
trames selon ledit ordre.
15. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou
stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur,
caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en oeuvre de la revendication
14.
16. Dispositif de décodage d'un signal de données représentatif d'un signal audio source
et se présentant sous la forme d'un flux de données (200) comprenant un niveau de
base (207) et au moins deux niveaux de rehaussement hiérarchiques (208, 209, 210,
211), chacun desdits niveaux étant organisé en trames successives, au moins une trame
d'au moins un niveau de rehaussement étant d'une durée inférieure à la durée d'une
trame dudit niveau de base, ledit flux portant au moins une information représentative
d'un ordre utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames
correspondant à la durée d'au moins une trame dudit niveau de base (207),
comprenant des moyens de reconstruction (50) dudit signal audio source, en prenant
en compte, pour une trame dudit niveau de base (207), au moins deux trames d'au moins
un desdits niveaux de rehaussement (208, 209, 210, 211) s'étendant chacune sur une
portion de la durée de ladite trame du niveau de base, et caractérisé
en ce qu'il comprend également des moyens de lecture de l'information représentative d'un ordre
utilisé pour l'ordonnancement desdites trames, pour un ensemble de trames correspondant
à la durée d'au moins une trame dudit niveau de base, et des moyens de traitement
desdites trames selon ledit ordre.
1. Method of hierarchically coding a source audio signal in the form of a data stream
(200) comprising a base level (207) and at least two hierarchical enhancement levels
(208, 209, 210, 211), each of said levels being organized in successive frames,
said stream having at least one frame of at least one enhancement level (208, 209,
210, 211) with a duration less than the duration of at least one frame of said base
level (207),
characterized in that it comprises a step for inserting into said stream at least one indication representative
of an order used for a set of frames corresponding to the duration of at least one
frame of said base level (207).
2. Coding method according to Claim 1, characterized in that the duration of a base level (207) frame is a multiple of the duration of a frame
of at least one of said enhancement levels (208, 209, 210, 211).
3. Coding method according to either of Claims 1 and 2,
characterized in that said coding method comprises:
- a step for sinusoidally breaking down said source audio signal, delivering sinusoidal
components forming said base level (207);
- a step for coding a residual signal, delivering complementary components forming
at least one enhancement level (208, 209, 210, 211).
4. Coding method according to Claim 3, characterized in that said step for coding a residual signal uses a bank of analysis filters (2021).
5. Coding method according to any one of Claims 1 to 4,
characterized in that it comprises, for the coding of at least one of said enhancement levels (208, 209,
210, 211), at least one of the following steps:
- coding of a high-frequency envelope of the spectrum of said source audio signal;
- coding of at least one noise energy level over at least a part of the spectrum of
said source audio signal;
- coding of data for reconstructing at least one complementary channel of said source
audio signal from a mono signal;
- transmission of parameters associated with a step for duplicating the spectrum of
said source audio signal.
6. Coding method according to any one of Claims 1 to 5, characterized in that it comprises a step for construction of said stream (200), sequencing said frames
in a so-called horizontal order, according to which a frame of said base level (207)
then, for each of said enhancement levels (208, 209, 210, 211) in succession, all
of the frames of said enhancement level covering the duration of said frame of the
base level are taken into account.
7. Coding method according to any one of Claims 1 to 5, characterized in that it comprises a step for construction of said stream (200), sequencing said frames
in a so-called vertical order, according to which a frame of said base level (207)
then the first frame of each of said enhancement levels (208, 209, 210, 211), then
the subsequent frames, starting from a lower level to an enhancement level working
in a chronological order, for all the frames of all the enhancement levels covering
the duration of said frame of the base level are taken into account.
8. Coding method according to any one of Claims 1 to 5, characterized in that it comprises a step for construction of said stream (200), sequencing said frames
in a so-called combined order, according to which a frame of said base level (207)
then, for the frames of all the enhancement levels (208, 209, 210, 211) covering the
duration of said frame of the base level, a predetermined selection order are taken
into account.
9. Coding method according to any one of Claims 6 to 8, characterized in that said step for construction of a stream implements at least two types of sequencing,
according to at least two of the orders belonging to the group comprising the horizontal,
vertical and combined orders, according to at least one predetermined selection criterion.
10. Coding method according to Claim 9,
characterized in that said predetermined selection criterion is obtained according to at least one of the
techniques belonging to the group comprising:
- an analysis of said source audio signal;
- an analysis of the processing and/or storage capacities of a receiver;
- an analysis of an available transmission bit rate;
- a selection instruction sent by a terminal;
- an analysis of the capacities of a network transmitting said stream.
11. Computer program product that can be downloaded from a communication network and/or
stored on a medium
that can be read by computer and/or executed by a microprocessor, characterized in that it comprises program code instructions for implementing at least one of Claims 1
to 10.
12. Device for hierarchically coding a source audio signal in the form of a data stream
(200) comprising a base level (207) and at least two hierarchical enhancement levels
(208, 209, 210, 211), each of said levels being organized in successive frames,
comprising means (20) of coding said frames, according to which at least one frame
of at least one enhancement level (208, 209, 210, 211) has a duration less than the
duration of a frame of said base level (207),
being characterized by said coding means being suitable for inserting into said stream at least one indication
representative of an order used for a set of frames corresponding to the duration
of at least one frame of said base level (207).
13. Data signal representative of a source audio signal and taking the form of a data
stream (200) comprising a base level (207) and at least two hierarchical enhancement
levels (208, 209, 210, 211), each of said levels being organized in successive frames,
comprising at least one frame of at least one enhancement level (208, 209, 210, 211)
with a duration less than the duration of a frame of said base level (207), and characterized
in that said stream carries at least one indication representative of an order used for the
sequencing of said frames, for a set of frames corresponding to the duration of at
least one frame of said base level (207).
14. Method of decoding a data signal representative of a source audio signal and taking
the form of a stream (200) of data comprising a base level (207) and at least two
hierarchical enhancement levels (208, 209, 210, 211), each of said levels being organized
in successive frames, at least one frame of at least one enhancement level (208, 209,
210, 211) having a duration less than the duration of a frame of said base level (207),
said stream carrying at least one indication representative of an order used for sequencing
said frames, for a set of frames corresponding to the duration of at least one frame
of said base level (207),
comprising a step for reconstruction of said source audio signal, taking into account,
for a frame of said base level (207), at least two frames of at least one of said
enhancement levels (208, 209, 210, 211) each being extended over a portion of the
duration of said frame of the base level (207), and characterized
in that it also comprises a step for reading the indication representative of an order used
for the sequencing of said frames, for a set of frames corresponding to the duration
of at least one frame of said base level, and a step for processing said frames in
said order.
15. Computer program product that can be downloaded from a communication network and/or
stored on a medium that can be read by computer and/or executed by a microprocessor,
characterized in that it comprises program code instructions for implementing Claim 14.
16. Device for decoding a data signal representative of a source audio signal and taking
the form of a data stream (200) comprising a base level (207) and at least two hierarchical
enhancement levels (208, 209, 210, 211), each of said levels being organized in successive
frames, at least one frame of at least one enhancement level having a duration less
than the duration of a frame of said base level, said stream carrying at least one
indication representative of an order used for the sequencing of said frames, for
a set of frames corresponding to the duration of at least one frame of said base level
(207),
comprising means (50) of reconstructing said source audio signal, by taking into account,
for a frame of said base level (207), at least two frames of at least one of said
enhancement levels (208, 209, 210, 211), each being extended over a portion of the
duration of said frame of the base level, and characterized
in that it also comprises means of reading the indication representative of an order used
for the sequencing of said frames, for a set of frames corresponding to the duration
of at least one frame of said base level, and means of processing said frames in said
order.
1. Verfahren zur hierarchischen Codierung eines Quellen-Audiosignals in Form eines Datenstroms
(200), der eine Basisebene (207) und mindestens zwei hierarchische Anreicherungsebenen
(208, 209, 210, 211) enthält, wobei jede der Ebenen in aufeinanderfolgenden Rahmen
organisiert ist,
wobei der Strom mindestens einen Rahmen mindestens einer Anreicherungsebene (208,
209, 210, 211) von geringerer Dauer als die Dauer mindestens eines Rahmens der Basisebene
(207) hat,
dadurch gekennzeichnet, dass das Verfahren einen Schritt der Einfügung in den Strom mindestens einer Information
enthält, die für eine Ordnung repräsentativ ist, welche für eine Einheit von Rahmen
entsprechend der Dauer mindestens eines Rahmens der Basisebene (207) verwendet wird.
2. Codierverfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Dauer eines Basisebene-Rahmens (207) ein Vielfaches der Dauer eines Rahmens mindestens
einer der Anreicherungsebenen (208, 209, 210, 211) ist.
3. Codierverfahren nach einem der Ansprüche 1 und 2,
dadurch gekennzeichnet, dass das Codierverfahren enthält:
- einen Schritt der sinusförmigen Zerlegung des Quellen-Audiosignals, der sinusförmige
Komponenten liefert, welche die Basisebene (207) bilden;
- einen Schritt der Codierung eines Restsignals, der komplementäre Komponenten liefert,
die mindestens eine Anreicherungsebene (208, 209, 210, 211) bilden.
4. Codierverfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Schritt der Codierung eines Restsignals eine Analysefilterbank (2021) anwendet.
5. Codierverfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet, dass es für die Codierung mindestens einer der Anreicherungsebenen (208, 209, 210, 211)
mindestens einen der folgenden Schritte enthält:
- Codierung einer Hochfrequenz-Hüllkurve des Spektrums des Quellen-Audiosignals;
- Codierung mindestens eines Rauschenergiepegels über mindestens einen Teil des Spektrums
des Quellen-Audiosignals;
- Codierung von Rekonstruktionsdaten mindestens eines komplementären Kanals des Quellen-Audiosignals
ausgehend von einem Mono-Signal;
- Übertragung von Parametern, die einem Schritt der Duplizierung des Spektrums des
Quellen-Audiosignals zugeordnet sind.
6. Codierverfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass es einen Schritt der Konstruktion des Stroms (200) enthält, der die Rahmen gemäß
einer sogenannten horizontalen Ordnung anordnet, gemäß der ein Rahmen der Basisebene
(207) und dann für jede der Anreicherungsebenen (208, 209, 210, 211) nacheinander
die Einheit der Rahmen der Anreicherungsebene berücksichtigt wird, die die Dauer des
Rahmens der Basisebene abdeckt.
7. Codierverfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass es einen Schritt der Konstruktion des Stroms (200) enthält, der die Rahmen gemäß
einer vertikal genannten Ordnung anordnet, gemäß der ein Rahmen der Basisebene (207),
dann der erste Rahmen jeder der Anreicherungsebenen (208, 209, 210, 211), dann die
folgenden Rahmen ausgehend von einer unteren Ebene zu einer oberen Ebene unter Beachtung
einer chronologischen Ordnung für die Einheit der Rahmen der Einheit von Anreicherungsebenen
berücksichtigt werden, die die Dauer des Rahmens der Basisebene abdeckt.
8. Codierverfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass es einen Schritt der Konstruktion des Stroms (200) enthält, der die Rahmen gemäß
einer so genannten kombinierten Ordnung anordnet, gemäß der ein Rahmen der Basisebene
(207) und dann, für die Rahmen der Einheit von Anreicherungsebenen (208, 209, 210,
211), die die Dauer des Rahmens der Basisebene abdeckt, eine vorbestimmte Auswahlordnung
berücksichtigt wird.
9. Codierverfahren nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, dass der Schritt der Konstruktion eines Stroms mindestens zwei Typen von Anordnungen gemäß
mindestens zwei der Ordnungen anwendet, die zu der Gruppe gehören, die die horizontale,
vertikale und kombinierte Ordnung enthält, in Abhängigkeit von mindestens einem vorbestimmten
Wahlkriterium.
10. Codierverfahren nach Anspruch 9,
dadurch gekennzeichnet, dass das vorbestimmte Auswahlkriterium gemäß mindestens einer der Techniken erhalten wird,
die zu der Gruppe gehören, die enthält:
- eine Analyse des Quellen-Audiosignals;
- eine Analyse der Verarbeitungs- und/oder Speicherkapazitäten eines Empfängers;
- eine Analyse einer verfügbaren Übertragungsbitrate;
- eine von einem Endgerät ausgegebene Auswahlanweisung;
- eine Analyse der Kapazitäten eines Übertragungsnetzes des Stroms.
11. Computerprogrammprodukt, das von einem Kommunikationsnetz heruntergeladen werden kann
und/oder auf einem computerlesbaren Träger gespeichert ist und/oder von einem Mikroprozessor
ausführbar ist, dadurch gekennzeichnet, dass es Programmcodeanweisungen für die Durchführung mindestens eines der Ansprüche 1
bis 10 enthält.
12. Vorrichtung zur hierarchischen Codierung eines Quellen-Audiosignals in Form eines
Datenstroms (200), der eine Basisebene (207) und mindestens zwei hierarchischen Anreicherungsebenen
(208, 209, 210, 211) enthält, wobei jede der Ebenen in aufeinanderfolgenden Rahmen
organisiert ist,
mit Einrichtungen (20) zum Codieren der Rahmen, gemäß denen mindestens ein Rahmen
mindestens einer Anreicherungsebene (208, 209, 210, 211) von geringerer Dauer als
die Dauer eines Rahmens der Basisebene (207) ist,
dadurch gekennzeichnet, dass die Codiereinrichtungen geeignet sind, um in den Strom mindestens eine Information
einzufügen, die für eine für eine Einheit von Rahmen entsprechend der Dauer mindestens
eines Rahmens der Basisebene (207) verwendete Ordnung repräsentativ ist.
13. Datensignal, das für ein Quellen-Audiosignal repräsentativ ist und in Form eines Datenstroms
(200) vorliegt, der eine Basisebene (207) und mindestens zwei hierarchischen Anreicherungsebenen
(208, 209, 210, 211) enthält, wobei jede der Ebenen in aufeinanderfolgenden Rahmen
organisiert ist,
mit mindestens einem Rahmen mindestens einer Anreicherungsebene (208, 209, 210, 211)
von geringerer Dauer als die Dauer eines Rahmens der Basisebene (207), und
dadurch gekennzeichnet, dass der Strom für eine Einheit von Rahmen entsprechend der Dauer mindestens eines Rahmens
der Basisebene (207) mindestens eine für eine für die Anordnung der Rahmen verwendete
Ordnung repräsentative Information trägt.
14. Verfahren zum Decodieren eines Datensignals, das für ein Quellen-Audiosignal repräsentativ
ist und in Form eines Datenstroms (200) vorliegt, der eine Basisebene (207) und mindestens
zwei hierarchische Anreicherungsebenen (208, 209, 210, 211) enthält, wobei jede der
Ebenen in aufeinanderfolgenden Rahmen organisiert ist, wobei mindestens ein Rahmen
mindestens einer Anreicherungsebene (208, 209, 210, 211) von geringerer Dauer als
die Dauer eines Rahmens der Basisebene (207) ist, wobei der Strom für eine Einheit
von Rahmen entsprechend der Dauer mindestens eines Rahmens der Basisebene (207) mindestens
eine für eine für die Anordnung der Rahmen verwendete Ordnung repräsentative Information
trägt,
mit einem Schritt der Rekonstruktion des Quellen-Audiosignals, indem für einen Rahmen
der Basisebene (207) mindestens zwei Rahmen mindestens einer der Anreicherungsebenen
(208, 209, 210, 211) berücksichtigt werden, die sich je über einen Abschnitt der Dauer
des Rahmens der Basisebene (207) erstrecken, und
dadurch gekennzeichnet, dass es für eine Einheit von Rahmen, die der Dauer mindestens eines Rahmens des Basisebene
entspricht, ebenfalls einen Schritt des Lesens der für eine für die Anordnung der
Rahmen verwendete Ordnung repräsentativen Information und einen Schritt der Verarbeitung
der Rahmen gemäß der Ordnung enthält.
15. Computerprogrammprodukt, das von einem Kommunikationsnetz heruntergeladen werden kann
und/oder auf einem computerlesbaren Träger gespeichert ist und/oder von einem Mikroprozessor
ausführbar ist, dadurch gekennzeichnet, dass es Programmcodeanweisungen zur Durchführung des Anspruchs 14 enthält.
16. Vorrichtung zum Decodieren eines Datensignals, das für ein Quellen-Audiosignal repräsentativ
ist und in Form eines Datenstroms (200) vorliegt, der eine Basisebene (207) und mindestens
zwei hierarchische Anreicherungsebenen (208, 209, 210, 211) enthält, wobei jede der
Ebenen in aufeinanderfolgenden Rahmen organisiert ist, wobei mindestens ein Rahmen
mindestens einer Anreicherungsebene von geringerer Dauer als die Dauer eines Rahmens
der Basisebene ist, wobei der Strom, für eine Einheit von Rahmen entsprechend der
Dauer mindestens eines Rahmens der Basisebene (207), mindestens eine für eine für
die Anordnung der Rahmen verwendete Ordnung repräsentative Information trägt,
mit Einrichtungen zur Rekonstruktion (50) des Quellen-Audiosignals, indem für einen
Rahmen der Basisebene (207) mindestens zwei Rahmen mindestens einer der Anreicherungsebenen
(208, 209, 210, 211) berücksichtigt werden, die sich je über einen Abschnitt der Dauer
des Rahmens der Basisebene erstrecken, und
dadurch gekennzeichnet, dass sie ebenfalls, für eine Einheit von Rahmen entsprechend der Dauer mindestens eines
Rahmens der Basisebene, Einrichtungen zum Lesen der für eine für die Anordnung der
Rahmen verwendete Ordnung repräsentativen Information und Einrichtungen zur Verarbeitung
der Rahmen gemäß der Ordnung enthält.