[0001] La présente invention a pour objet un procédé d'évaluation d'un signal audio numérique,
notamment un signal transmis numériquement et/ou un signal numérique auquel a été
appliqué un codage numérique, en particulier avec réduction de débit et/ou un décodage.
Un signal transmis numériquement peut être un signal audio autonome (radiodiffusion)
ou bien d'un signal audio qui accompagne un programme tel qu'un programme audiovisuel.
[0002] Le domaine des radiocommunications numériques et de la radiodiffusion est en pleine
expansion, notamment avec l'apparition de la télévision numérique et des radiotéléphones.
De nouveaux instruments doivent ainsi être développés pour mesurer la qualité de tous
les systèmes nécessaires à la mise en oeuvre de cette technologie, et ainsi pouvoir
assurer une qualité de service.
[0003] C'est dans ce but que sont utilisés les tests subjectifs. Ces tests permettent de
juger la qualité de signaux sonores en les faisant écouter par des auditeurs, experts
ou novices. Cette méthode est longue et coûteuse car les conditions à respecter lors
de ces tests sont nombreuses et strictes (choix des panélistes, conditions d'écoute,
séquences, chronologie des tests, etc...). Elle permet néanmoins de constituer des
bases de données de signaux de référence avec les notes qui leur ont été attribuées.
Ce sont ces tests qui permettent d'obtenir les notes "MOS" (Mean Opinion Score), notes
qui sont reconnues comme étant la référence en matière d'estimation de la qualité.
[0004] Pour essayer de réduire au minimum le nombre de ces essais subjectifs, de nombreuses
études ont été réalisées sur le système d'audition humain. A partir de là, des modélisations
de l'oreille et des phénomènes psychoacoustiques ont été développées, ce qui a permis
d'analyser puis estimer la qualité des signaux sonores par des méthodes objectives.
La qualité mesurée étant celle perçue par l'oreille humaine, elle est nommée qualité
perceptuelle objective.
[0005] Il est possible de différencier trois classes de méthodes de qualification objective
: La première ("référence complète") compare directement le signal original au signal
dégradé (après codage, diffusion, multiplexage,...), la seconde compare uniquement
des paramètres extraits des deux signaux (nommés référence réduite). Dans la troisième,
les défauts générés par la chaîne de diffusion sont détectés à l'aide de leurs principales
caractéristiques connues. Cette dernière classe permet de s'affranchir des contraintes
liées à l'utilisation du signal de référence. En effet, dans tous les autres cas,
la référence doit être transmise au lieu de comparaison puis parfaitement synchronisée
avec le signal dégradé. Cela rend le système complexe et plus coûteux.
[0006] Les dégradations dues aux erreurs de transmission diminuent de manière importante
la qualité du signal. Elles apparaissent lors de la diffusion, d'un flux numérique
MPEG par exemple ou lors de la diffusion, notamment de radio, sur Internet.
[0007] Dans un tel contexte, il est souhaitable de disposer d'un procédé qui permette de
mesurer objectivement la qualité d'un signal audio après diffusion, sans utiliser
de signal de référence et/ou en utilisant une référence réduite. En effet, seules
ces techniques sont adaptées à la surveillance d'un réseau de diffusion par exemple
où plusieurs points de mesure distants les uns des autres peuvent être nécessaires.
Il est également intéressant de profiter de la simplicité relative d'un tel procédé
pour mesurer la qualité d'un signal audio numérique transmis ou non, qui a été soumis
à un codage numérique, notamment à réduction de débit, et/ou à un décodage.
[0008] Le nombre de méthodes de qualitométrie audio développées est très variable selon
la classe considérée. En effet, un grand nombre de méthodes avec référence complète
ont été développées. Quelques méthodes seulement ont été mises au point sans référence
ou avec référence réduite.
[0010] Ces modèles d'audition sont établis à partir d'expériences de masquage, afin d'obtenir
une représentation qui soit la plus fidèle possible, et doivent permettre de prévoir
si les détériorations seront audibles ou non. Toutes les dégradations sur un signal
ne sont pas audibles ni gênantes. Ces modèles perceptuels avec référence se basent
sur le schéma de la Figure 1. De nombreuses méthodes, plus ou moins complètes et élaborées,
reposent sur ce principe. Récemment, l'algorithme PEAQ, (Method for objective measurements
of PErceived Audio Quality) a été normalisé par l'ITU-R (Norme ITU-R BS.1387). Cet
algorithme se base sur les principes classiques en y associant un modèle de prédiction
de la qualité utilisant un réseau de neurones.
[0011] L'intérêt majeur de ces techniques est de pouvoir détecter de très faibles dégradations
mais, il faut bien avoir à l'esprit qu'elles sont destinées à étudier l'influence
d'un codage. Les mesures obtenues sont relatives : seule la différence est prise en
compte dans ce type de mesures. Dans le cas d'un codeur de très bonne qualité, un
signal comportant des dégradations importantes sera codé puis décodé de façon presque
transparente, et donc, la note attribuée sera très haute. De plus, pour un signal
qui aurait été modifié (égalisé, coloré, ...) entre le calcul de la référence et la
comparaison, la note pourra être faible même si les deux signaux sont de très bonne
qualité perceptuelle.
[0012] En ce qui concerne les méthodes sans référence, celles-ci restent très peu nombreuses.
La mesure OBQ (Output-Based Objective Speech Quality) est la plus aboutie des techniques
sans référence. Cette méthode d'estimation de la qualité, d'un signal de parole uniquement,
sans signal de référence, se base sur le calcul de paramètres perceptuels représentant
le contenu du signal, rassemblés en un vecteur. Ces vecteurs, calculés sur des signaux
non dégradés, vont constituer une base de référence. La qualité sera estimée en comparant
les mêmes paramètres, extraits des signaux dégradés, aux vecteurs de la base de référence.
La principale méthode utilisant les réseaux de neurones est la mesure OSSQAR (Objective
Scaling of Sound Quality And Reproduction). Le principe général de cette méthode est
d'utiliser un modèle d'audition conjointement à un réseau de neurones. Le réseau est
entraîné à prédire la qualité subjective d'un signal à partir de sa représentation
perceptuelle calculée par le modèle d'audition, pour simuler les phénomènes de la
psychoacoustique. Il est à noter que les résultats obtenus par ces méthodes, sont
bien meilleurs quand les signaux font partie de la base d'apprentissage ou tout du
moins quand ils ont des caractéristiques proches.
[0013] De telles méthodes ne sont donc pas adaptées à l'évaluation de la qualité de signaux
quelconques, par exemple les signaux audio d'une émission de radio ou de TV.
[0014] Comme indiqué ci-dessus, la plupart des algorithmes de mesures perceptuelles objectives
avec référence complète fonctionnent suivant un principe identique : il s'agit de
comparer le signal sonore dégradé au signal original (signal avant transmission et/ou
codage et/ou décodage, appelé signal de référence). Ces algorithmes nécessitent donc
d'avoir un signal de référence, qui soit de plus synchronisé très précisément avec
le signal à tester. Ces conditions peuvent seulement être remplies en simulation ou
lors de tests de codeurs et autres systèmes "compacts" ou non répartis géopraphiquement
; par contre, cela est très différent lors de la réception d'un signal diffusé à partir
d'antennes d'émission A
1 et de réception A
2 (Figure 2).
[0015] Le signal de référence doit être disponible aux différents points de comparaison.
Aussi, pour pouvoir utiliser une méthode avec référence complète, la seule possibilité
est de transmettre la référence, sans erreur, jusqu'aux points de comparaison, puis
de la synchroniser parfaitement. Pour des raisons d'encombrement du spectre et donc
de coût, ces techniques avec référence complète ne sont pas applicables en pratique,
car elles nécessiteraient l'utilisation d'une deuxième voie de transmission transparente.
[0016] Les méthodes sans référence proposées permettent d'obtenir de bons résultats mais
seulement dans le cas de signaux aux caractéristiques connues et modélisées lors de
la phase d'apprentissage. Les méthodes sans référence fonctionnent donc mal sur un
signal quelconque.
[0017] Il a été suggéré d'utiliser une référence dite "réduite" dans laquelle le signal
audio de référence est caractérisé par un ou plusieurs nombres. Un tel procédé a été
décrit dans la Demande de Brevet français
FR 2 769 777 déposée le 13 Octobre 1997. Cependant, ce procédé ne permet pas de traiter tous les échantillons, en raison
notamment du fait que le débit du signal de référence proposé est trop important (au
moins 36 kbits/s pour des fenêtres de 1024 échantillons de signal) pour satisfaire
aux conditions pratiques d'implantation et de réalisation dans un réseau de télédiffusion.
[0019] La présente invention propose un procédé selon lequel les indicateurs sont plus simples
et peuvent être calculés en temps réel et en temps continu, et demandent un débit
binaire nettement moins élevé. Les dégradations pouvant ne modifier que quelques échantillons,
tout en dégradant la qualité de manière importante, le procédé proposé permet que
tout le flux audio soit analysé.
[0020] Le procédé selon l'invention permet une estimation fiable de la qualité d'un signal
audio ayant transité par une transmission ou un codage de type numérique. En effet,
les perturbations que subissent les canaux de transmission peuvent induire l'apparition
d'erreurs sur les données transmises ; ces erreurs se traduisent par des dégradations
au niveau du signal audio final.
[0021] L'approche technologique proposée consiste à effectuer une mesure sur le signal audio,
à l'entrée et une autre à la sortie la chaîne ou tout autre système à étudier. Une
comparaison entre ces mesures permet de s'assurer de la "transparence" du canal de
transmission et d'évaluer l'importance des dégradations introduites.
[0022] Utilisée conjointement ou non avec des méthodes sans référence, détectant les dégradations
en se basant sur la signature des caractéristiques des défauts les plus importants
à rechercher, l'approche proposée permet une estimation fiable des dégradations introduites.
Elle permet en outre de palier à un manque de signal de référence. Cette méthode permet
de réduire le débit de référence nécessaire pour l'estimation de la qualité dans le
cas des mesures avec référence réduite, et le nombre de paramètres à utiliser dans
le cas des mesures sans référence.
[0023] L'invention concerne ainsi un procédé d'évaluation d'un signal audio numérique selon
la revendication 1,
[0024] Le signal audio numérique à évaluer peut être un signal qui a été transmis numériquement
et/ou qui a été soumis à un codage numérique, notamment à réduction de débit, à partir
d'un signal numérique de référence.
[0025] Le vecteur indicateur de qualité peut être constitué par ladite valeur minimale,
ou bien encore par une valeur binaire résultant de la comparaison de ladite valeur
minimale avec un seuil donné. Egalement, le procédé peut être caractérisé en ce qu'il
met en oeuvre le calcul d'une note de qualité en déterminant un intervalle de temps
cumulé pendant lequel ladite valeur minimale est inférieure à un seuil donné et/ou
en déterminant le nombre de fois par seconde où ladite valeur minimale est inférieure
à un seuil donné ou bien encore en ce que lesdites valeurs minimales sont générées
à la fois pour le signal audio de référence et pour le signal audio à évaluer et en
ce qu'un vecteur de qualité est généré par comparaison entre les valeurs minimales
correspondantes du signal audio de référence et du signal audio à évaluer, par exemple
en calculant la différence ou le rapport entre lesdites valeurs minimales.
[0026] D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture
de la description ci-après en liaison avec les dessins dans lesquels :
- la figure 1 est un organigramme illustrant une évaluation de qualité à référence complète.
- la figure 2 illustre une transmission audio avec perte de qualité,
- les figures 3 à 6 et 8 à 10 illustrent des procédés d'évaluation alternatifs qui ne
correspondent pas à la définition de l'invention selon la revendication 1. Le procédé
d'évaluation selon l'invention est décrit en relation avec la figure 7,
- et les figures 11 et 12 illustrent un système de qualitométrie audio mettant en oeuvre
la présente invention.
[0027] La gestion et la récupération des erreurs au décodage n'est pas normalisée. L'influence
de ces erreurs sur la qualité perçue dépend donc du décodeur utilisé.
[0028] L'audibilité de ces défauts est également liée au type d'élément affecté dans la
trame, par exemple MPEG, et à son contenu audio.
[0029] Dans le cas d'erreurs importantes dues à la transmission, la qualité du signal diminue
fortement. Ces dégradations apparaissent lors de la diffusion, d'un flux numérique
MPEG par exemple, et sont, la plupart du temps, de type impulsionnel. Elles peuvent
également apparaître lors de la diffusion d'un flux audio sur le réseau Internet,
ou lors d'un codage ou d'un décodage.
[0030] Pour ce type de défaut, la qualité peut être estimée de façon binaire : soit le signal
n'a pas été dégradé et la qualité dépendra du codage initial utilisé, soit des erreurs
ont été introduites et des dégradations importantes apparaissent.
[0031] L'estimation de la qualité peut alors se faire par des méthodes sans référence, en
comptabilisant les dégradations détectées sur des intervalles de temps réguliers de
l'ordre par exemple de la seconde. Des essais subjectifs ont en effet permis d'obtenir
une estimation fiable de la qualité perçue, à partir du nombre et de la longueur des
interruptions liées à des dégradations de type impulsionnel dans un signal.
[0032] Pour les mesures obtenues avec référence réduite, la méthode proposée permet de réduire
le débit nécessaire au transport de la référence. Cela autorise l'utilisation de voies
réservées au débit relativement limité. Ces mesures permettent de détecter des dégradations
autres que les celles dues aux erreurs de transmission.
[0033] Ainsi, la présente invention permet une réduction du débit dans le cas des mesures
avec référence réduite et, de par l'ajout de mesures simples sans référence, de conserver
des mesures sur les dégradations importantes dans le cas d'une perte de la référence
par exemple, en générant localement un vecteur qui caractérise simplement les dégradations,
et qui pourrait donc être facilement traité et transmis vers une installation de contrôle,
notamment centralisée.
[0034] Les mesures effectuées le long de la chaîne et en divers points du réseau, informent
le système de surveillance et de gestion de la diffusion en télévision numérique,
sur ses performances globales. Les mesures des dégradations du signal informent l'opérateur
de diffusion sur la qualité de service délivrée.
[0035] Le procédé se caractérise par deux modes de fonctionnement, complémentaires :
Avec référence réduite. L'approche technologique proposée consiste à effectuer une
mesure sur le signal audio, à l'entrée, et une autre à la sortie de la chaîne de transmission
ou tout autre système à étudier (codeur, décodeur, etc...). Une comparaison entre
ces mesures permet de s'assurer de la "transparence" de la chaîne ou du système et
d'évaluer l'importance des dégradations introduites. A la différence de la technique
antérieure :
- le procédé effectue une évaluation en temps réel et en temps continu.
- les mesures de référence à l'entrée de la chaîne représentent une quantité de données
très faible par rapport aux données du signal audio, d'où sa classification en « référence
réduite ».
- les données ou mesures de référence utilisées sont aussi bien une représentation réduite du contenu du signal, qu'une mesure de l'importance d'un type de dégradation.
[0036] L'invention permet de palier à un manque de signal de référence. Pour cela, le procédé
définit des mesures pour les défauts numériques caractéristiques à rechercher. A la
différence de la technique antérieure, l'approche proposée permet une estimation des
dégradations introduites sur un signal quelconque, et de manière fiable et cette approche
peut être mise en oeuvre aussi bien à l'échelle d'un réseau de transmission que localement
sur un équipement. En outre, la complexité de calcul selon le procédé est faible,
et l'indicateur obtenu représente une quantité de données faible par rapport au flux
numérique audio.
[0037] Enfin, le procédé peut être appliqué indifféremment à des signaux purement numériques
ou à des signaux ayant subi après transmission une conversion numérique vers analogique
puis analogique vers numérique.
[0038] Les trois premiers procédés décrits ci-après sont du type dit "avec référence réduite".
Ces procédés ne correspondent cependant pas à la définition de l'invention selon la
revendication 1.
[0039] Pour obtenir une plus grande précision de l'estimation de la qualité, certains des
paramètres développés utilisent des modélisations perceptuelles : Le principe des
mesures perceptuelles objectives se base sur la transformation de la représentation
physique (pression acoustique, niveau, temps et fréquence) en la représentation psychoacoustique
(force sonore, niveau de masquage, temps et bandes critiques ou barks) de deux signaux
(le signal de référence et le signal à évaluer) afin de les comparer. Cette transformation
s'opère grâce à une modélisation de l'appareil auditif humain (généralement, cette
modélisation consiste en une analyse spectrale dans le domaine des Barks suivie des
phénomènes d'étalement). Une distance peut alors être calculée entre les représentations
psychoacoustiques des deux signaux, distance que l'on peut lier à la qualité du signal
à évaluer (plus la distance est faible, plus le signal à évaluer est proche du signal
original et meilleure est sa qualité).
[0040] Le premier procédé met en oeuvre un paramètre dénommé "Écart de Comptes Perceptuels".
[0041] Le calcul de ce paramètre se décompose en plusieurs étapes, nécessaires pour tenir
compte de la psychoacoustique. Celles-ci sont appliquées sur le signal de référence
et sur le signal dégradé. Ces étapes sont les suivantes :
Fenêtrage du signal temporel en blocs puis, pour chacun des blocs, calcul de l'excitation
induite par le signal en utilisant un modèle d'audition. Cette représentation des
signaux tient compte des phénomènes de la psychoacoustique, et fournit un histogramme
dont les comptes sont les valeurs des composantes basilaires. Cela permet de ne prendre
en considération que les composantes audibles du signal et donc de se limiter à l'information
utile. Pour obtenir cette excitation, les modélisations classiques peuvent être utilisées
: atténuation de l'oreille externe et moyenne, intégration selon les bandes critiques
et masquages fréquentiels. Les fenêtres temporelles choisies sont d'environ 42 ms
(2048 points à 48 kHz) avec un recouvrement de 50%. Cela permet d'obtenir une résolution
temporelle de l'ordre de 21 ms.
[0042] Plusieurs étapes sont nécessaires pour cette modélisation. Pour la première étape,
le filtre d'atténuation de l'oreille externe et moyenne est appliqué à la densité
spectrale de puissance, obtenue à partir du spectre du signal. Ce filtre prend également
en compte le seuil absolu d'audition. La notion de bandes critiques est modélisée
par une transformation de l'échelle fréquentielle en une échelle basilaire. L'étape
suivante correspond au calcul des excitations individuelles pour tenir compte des
phénomènes de masquage, grâce à la fonction d'étalement fréquentiel dans l'échelle
basilaire et à une addition non linéaire. La dernière étape permet d'obtenir la sonie
compressée, par une fonction puissance, pour modéliser la sensibilité non linéaire
en fréquence de l'oreille, par un histogramme comportant les 109 composantes basilaires.
[0043] Les comptes de l'histogramme obtenu sont ensuite rassemblés en trois classes. Cette
vectorisation permet d'obtenir une représentation visuelle de l'évolution de la structure
des signaux. Cela permet également d'obtenir une caractérisation simple et concise
du signal et donc de disposer d'un paramètre de référence particulièrement intéressant.
[0044] Plusieurs stratégies existent pour fixer les bornes de ces trois comptes : La plus
simple est de séparer l'histogramme en trois zones de tailles égales. Ainsi, les 109
composantes basilaires, (ou les 24 composantes qui constituent l'excitation et en
constituent une représentation simplifiée) représentent 24 Barks et peuvent être séparées
aux indices suivants :
[0045] La deuxième stratégie prend en compte les zones de mise à l'échelle ("scaling") de
Beerends. En effet une compensation du gain entre l'excitation du signal de référence
et celle du signal à tester est effectuée par l'oreille, les bornes fixées sont alors
les suivantes :
[0046] La trajectoire est ensuite représentée dans un triangle, nommé triangle des fréquences.
Pour chaque bloc on obtient trois comptes C
1, C
2 et C
3, donc deux coordonnées cartésiennes selon les formules suivantes :
avec C1 : somme des excitations basilaires pour les hautes fréquences (au-dessus de S2)
C2 : compte associé aux fréquences moyennes (composantes entre S1 et S2)
et N = C1 + C2 + C3 : Somme totale des valeurs des composantes.
[0047] Un point (X, Y) constituant un vecteur est donc obtenu pour chaque fenêtre temporelle
du signal, ce qui correspond à la transmission de deux valeurs par fenêtre de par
exemple 1024 bits, soit un débit de 3 kbits/s pour un signal audio échantillonné à
48 kHz. Pour une séquence complète, la représentation associée est ainsi une trajectoire
paramétrée par le temps, comme le montre la Figure 3.
[0048] On calcule ensuite de la distance (euclidienne) entre le signal de référence et le
signal dégradé. Dans le cas d'une estimation de la qualité en continu, la distance
entre les points permet d'estimer l'importance des dégradations introduites entre
le signal de référence et le signal dégradé. Cette distance peut être considérée comme
une distance perceptuelle du fait de l'utilisation des modèles de la psychoacoustique.
[0049] Pour estimer une note de qualité pour un signal de plusieurs secondes, il est possible
de calculer une mesure globale de la différence entre les deux signaux. Pour cela
plusieurs métriques sont utilisables. Celles-ci peuvent être de type diffus (moyenne
des distances entre les sommets, aire interceptée, ...), locale (maximum, minimum
des distances entre sommets, ...) et dépendre de la position dans le triangle.
[0050] Il est également possible de prendre en compte les différences à peine perceptibles
("Just Noticeable Difference"). Ces seuils permettent de déterminer l'audibilité des
différences qui sont apparues. Ils peuvent être modélisés par des zones de tolérance
fonction de la position dans le triangle pour tenir compte de la variabilité des phénomènes
de masquage.
[0051] Dans tous les cas, les deux trajectoires doivent être synchronisées au préalable.
[0052] Le principe du calcul de ce paramètre comparatif peut être ainsi résumé par le schéma
Figure 4.
[0053] Le principal avantage du paramètre provient du fait de la prise en compte des phénomènes
de la psycho-acoustique sans pour autant augmenter le débit nécessaire au transfert
de la référence. Celui-ci permet de réduire la référence à 2 valeurs pour 1024 échantillons
de signal (3 kbits/s).
[0054] Le deuxième procédé met en oeuvre une modélisation autorégressive du signal.
[0055] Le principe général de la prédiction linéaire est de modéliser le signal comme étant
une combinaison de ses valeurs passées. L'idée est de calculer les N coefficients
d'un filtre de prédiction par une modélisation autorégressive (tout pôle). Avec ce
filtre adaptatif, il est possible d'obtenir un signal prédit à partir du signal réel.
Les erreurs de prédiction ou résidus sont calculés par différence entre ces deux signaux.
La présence et la quantité de bruit dans un signal peuvent être déterminées par l'analyse
de ces résidus.
[0056] La comparaison des résidus obtenus sur le signal de référence et ceux calculés à
partir du signal dégradé, et donc des niveaux de bruit, permet d'estimer l'importance
des modifications et défauts insérés.
[0057] La référence à transmettre correspond au maximum des résidus sur une fenêtre temporelle
de taille donnée. Il n'est en effet pas intéressant de transmettre tous les résidus
si le débit de la référence veut être réduit.
[0058] Pour adapter les coefficients du filtre de prédiction, deux méthodes sont données
ci-après à titre d'exemple :
- L'algorithme de LEVINSON-DURBIN qui est décrit par exemple dans l'ouvrage de M. BELLANGER - Traitement numérique du signal - Théorie et pratique (MASSON éd. 1987)
p. 393 à 395. Pour l'utiliser, il faut disposer d'une estimation de l'autocorrélation du signal
sur un ensemble de N0 échantillons. Cette autocorrélation est utilisée pour résoudre le système d'équations
de Yule-Walker et ainsi obtenir les coefficients du filtre prédicteur. Seules les
N premières valeurs de la fonction d'autocorrélation peuvent être utilisées, où N
désigne l'ordre de l'algorithme, c'est-à-dire le nombre de coefficients du filtre.
Sur une fenêtre de 1024 échantillons, on garde le maximum de l'erreur de prédiction.
- L'algorithme du gradient qui est décrit par exemple dans l'ouvrage précité de M. BELLANGER
p. 371 et suivantes. Le principal inconvénient du paramètre précédent est la nécessité,
dans le cas d'une implantation sur DSP, de stocker les N0 échantillons pour estimer l'autocorrélation, avoir les coefficients du filtre puis
calculer les résidus. Ce second paramètre permet d'éviter cela en utilisant un autre
algorithme permettant de calculer les coefficients du filtre : l'algorithme du gradient.
Celui-ci utilise l'erreur commise pour mettre à jour les coefficients. Les coefficients
du filtre sont modifiés dans la direction du gradient de l'erreur quadratique instantanée,
avec le signal opposé.
[0059] Une fois les résidus obtenus par différence entre le signal prédit et le signal réel,
seul le maximum de leurs valeurs absolues, sur une fenêtre temporelle de taille donnée
T, est conservé. Le vecteur référence à transmettre peut ainsi être réduite à un seul
nombre.
[0060] Après transmission puis synchronisation, la comparaison consiste en un simple calcul
de distance entre les maxima de la référence et du signal dégradé par exemple par
différence.
[0061] La Figure 5 résume le principe de calcul de paramètre :
Le principal avantage des deux paramètres est le débit nécessaire au transfert de
la référence. Celui-ci permet de réduire la référence à 1 nombre réel pour 1024 échantillons
de signal.
[0062] Par contre, aucun modèle de la psychoacoustique n'est pris en compte.
[0063] Le troisième procédé met en oeuvre une modélisation autorégressive de l'excitation
basilaire.
[0064] Par rapport à la prédiction linéaire classique, cette méthode permet de prendre en
compte les phénomènes de la psychoacoustique, afin d'obtenir une évaluation de la
qualité perçue. Pour cela, le calcul du paramètre passe par une modélisation de divers
principes de l'audition. Une prédiction linéaire modélise le signal comme étant une
combinaison de ses valeurs passées. L'analyse des résidus (ou erreurs de prédiction)
permet de déterminer et d'estimer la présence de bruit dans un signal. L'inconvénient
majeur lors de l'utilisation de ces techniques est le fait qu'il n'y ait aucune prise
en compte des principes de la psychoacoustique. Ainsi, il n'est pas possible d'estimer
la quantité de bruit réellement perçue.
[0065] Le procédé reprend le principe général de la prédiction linéaire classique. Elle
y intègre en plus les phénomènes de la psychoacoustique pour l'adapter à la sensibilité
non linéaire en fréquence (sonie) et en intensité (tonie) de l'oreille humaine.
[0066] On modifie le spectre du signal, par l'intermédiaire d'un modèle d'audition, avant
de calculer les coefficients de la prédiction linéaire par une modélisation autorégressive
(tout pôle). Les coefficients ainsi obtenus permettent de modéliser le signal de façon
simple tout en tenant compte de la psychoacoustique. Ce sont ces coefficients de prédiction
qui seront transmis et serviront de référence lors de la comparaison avec le signal
dégradé.
[0067] La première partie du calcul de ce paramètre correspond à la modélisation des principes
de la psychoacoustique en utilisant les modèles d'auditions classiques. La deuxième
partie est le calcul des coefficients de prédiction linéaire. La dernière partie correspond
à la comparaison des coefficients de prédiction calculés pour le signal de référence
et ceux obtenus pour le signal dégradé. Les différentes étapes de cette méthode sont
donc les suivantes :
- Fenêtrage temporel du signal puis calcul d'une représentation interne du signal par
modélisation des phénomènes de la psychoacoustique. Cette étape correspond au calcul
de la sonie compressée, qui est en fait l'excitation induite par le signal au niveau
de l'oreille interne. Cette représentation des signaux tient compte des phénomènes
de la psychoacoustique, et est obtenue à partir du spectre du signal, en utilisant
les modélisations classiques : atténuation de l'oreille externe et moyenne, intégration
selon les bandes critiques et masquages fréquentiels. Cette étape du calcul est identique
au paramètre décrit précédemment ;
- Modélisation autorégressive de cette sonie compressée afin d'obtenir les coefficients
d'un filtre RIF de prédiction, tout comme dans une prédiction linéaire classique.
La méthode utilisée est celle de l'autocorrélation, par résolution des équations de
Yule-Walker. La première étape pour l'obtention des coefficients de prédiction est
donc le calcul de l'autocorrélation du signal.
[0068] En considérant la sonie compressée comme une puissance spectrale filtrée, il est
possible de calculer l'autocorrélation du signal perçu par transformation de Fourier
inverse.
[0069] Une des méthodes pour résoudre ce système d'équations de Yule-Walker et ainsi obtenir
les coefficients d'un filtre prédicteur est l'utilisation de l'algorithme de Levinson-Durbin.
[0070] Ce sont les coefficients de prédiction qui constituent le vecteur de référence à
transmettre jusqu'au point de comparaison. Les transformations utilisées lors du calcul
final sur le signal dégradé, sont les mêmes que pour la phase initiale sur le signal
de référence.
- Estimation des dégradations par le calcul d'une distance entre les vecteurs issus
de la référence et du signal dégradé. C'est une comparaison des vecteurs de coefficients
obtenus pour la référence et pour le signal audio transmis, qui permet d'estimer les
dégradations introduites lors de la transmission. Celle-ci doit se faire sur un nombre
adapté de coefficients. Plus le nombre est important, plus les calculs peuvent être
précis, mais plus le débit nécessaire à la transmission de la référence est élevé.
Plusieurs distances peuvent être utilisées pour comparer les vecteurs de coefficients.
L'importance relative des coefficients peut par exemple être prise en compte.
[0071] Le principe de la méthode se résume selon le schéma suivant (Figure 6).
[0072] La modélisation des phénomènes de la psychoacoustique permet d'obtenir 24 composantes
basilaires. L'ordre N du filtre de prédiction est de 32. A partir de celles-ci, 32
coefficients de l'autocorrélation sont estimés, ce qui donne 32 coefficients de prédiction
dont on ne conserve que 5 à 10 coefficients en tant que vecteur indicateur de qualité,
par exemple les 5 à 10 premiers coefficients.
[0073] Le principal avantage du paramètre provient de la prise en compte des phénomènes
de la psychoacoustique. Pour faire cela, il a été nécessaire d'augmenter le débit
nécessaire au transfert de la référence à 5 ou 10 valeurs pour 1024 échantillons de
signal (21 ms pour un signal audio échantillonné à 48 kHz), soit un débit de 7,5 à
15 kbits/s.
[0074] Les méthodes suivantes, dont seule la première correspond effectivement à la définition
de l'invention selon la revendication 1, peuvent être utilisées avec ou sans référence.
Cela permet de conserver des mesures de détection des dégradations les plus importantes,
même dans le cas ou aucun paramètre de référence n'est disponible au point de contrôle,
au moment où la comparaison devrait être effectuée.
[0075] La première de ces méthodes, conforme à la définition de l'invention selon la revendication
1, met en oeuvre une détection de plats dans l'activité du signal.
[0076] La notion d'activité, qui peut être approximée par une opération de dérivation dans
le signal audio, est utilisée pour repérer les ruptures et interruptions dans le signal
temporel.
[0077] Ces types de défauts sont caractéristiques d'erreurs de décodage après transmission
du flux numérique audio ou lors de la diffusion de séquences sonores sur Internet.
Cela se produit quand le débit du réseau devient insuffisant pour assurer l'arrivée
de toutes les trames nécessaires à l'instant du décodage par exemple.
[0078] Ces dégradations, qui introduisent des zones d'activité très faible, se traduisent
au niveau auditif par différentes sensations chez l'auditeur : coupure du son, flou
sonore, bruit impulsionnel...
[0079] La première étape du calcul du paramètre correspond à l'estimation de l'activité
temporelle du signal. Pour ce faire, l'opérateur de dérivée seconde est utilisé. Il
permet en effet d'avoir une estimation suffisamment précise de l'activité et ne demande
que très peu de calculs.
[0080] Pour simuler de façon simple cette opération de dérivée seconde, la formule suivante
est utilisée :
ou
où
f(t) correspond à la valeur de l'échantillon à l'instant t.
[0081] Une moyenne glissante, sur N valeurs (par exemple N = 21, ce qui correspond à 0,5
ms pour une fréquence d'échantillonage de 48 KHz), permet ensuite de lisser les variations
de la courbe obtenue et éviter ainsi les fausses détections. Un seul résultat va être
conservé par bloc de M résultats (M correspond par exemple à 2048 échantillons audio).
C'est le minimum de M moyennes qui est conservé puis transmis. Le paramètre est ainsi
obtenu à l'instant t par la formule suivante :
où
y(t) correspond à l'activité.
[0082] Si le paramètre est utilisé avec référence, alors, après synchronisation des données,
l'étape de comparaison consiste en une simple différence qui permet de repérer les
zones où le signal a été remplacé par des plats de décodage. Seuls les instants, où
l'activité est fortement diminuée sur le signal dégradé, sont intéressants. Ainsi
la formule de comparaison est la suivante :
où
Platsr(t) et
Platsd(t) sont respectivement le paramètre calculé sur la référence et sur le signal dégradé.
[0083] Pour réduire encore le débit nécessaire au transport de la référence, il est également
possible de comparer le paramètre
Plats(t), calculé sur le signal, avec un seuil S et ainsi obtenir un paramètre binaire. Lors
de l'apparition des dégradations, la chute d'activité est en effet suffisamment importante
pour être détectée de la sorte.
[0084] Dans ce cas, la comparaison sert uniquement à confirmer la présence des dégradations.
Plus aucune confusion n'est possible entre les zones de silence et les zones d'activité
faible du signal. L'utilisation du paramètre sans référence permet néanmoins de repérer
les dégradations.
[0085] Pour passer d'un paramètre de détection des dégradations, à l'estimation d'une note
de qualité perceptuelle, l'importance psychoacoustique des dégradations détectées
doit être analysée. Suivant leur longueur et leur nombre la dégradation perçue sera
très différente.
[0086] L'étape suivante consiste donc à utiliser des courbes de correspondance à partir
du paramètre binaire. Ces courbes permettent d'obtenir une note de qualité à partir
de la longueur cumulée et du nombre de dégradations impulsionnelles détectées par
seconde. Ces courbes sont établies à partir de tests subjectifs. Différentes courbes
peuvent être établies en fonction du type des signaux audio (parole ou musique principalement).
Une fois l'estimation obtenue, il est également possible d'utiliser un filtre simulant
la réponse d'un panéliste. Cela permet de tenir compte de l'effet dynamique des votes
et des temps de réaction face aux dégradations.
[0087] Le paramètre peut être résumé selon le schéma suivant Figure 7.
[0088] Le principal avantage du paramètre est la possibilité de faire des mesures sans référence.
Un autre point intéressant est le débit nécessaire au transfert de la référence. Celui-ci
permet de réduire la référence à 1 nombre réel soit un débit de 1,5 kbits/s(voire
même 1 bit en cas de seuillage soit un débit de 47 bits/s) pour 1024 échantillons
de signal. Il est également à noter que l'algorithmes est très simple et de complexité
réduite, ce qui permet son implantation en parallèle avec d'autres paramètres.
[0089] Le deuxième de ces procédés, qui ne correspond pas à la définition de l'invention
selon la revendication 1, met en oeuvre une détection de pics de l'activité.
[0090] Ce paramètre, tout comme le précédent est basé sur l'activité du signal. Celui-ci
permet de détecter les décrochages, ruptures, coupures d'une partie du signal audio
et les échantillons aberrants en recherchant les pics dans l'activité du signal.
[0091] Ainsi, cette fois, seuls les maxima pour des blocs de M échantillons sont conservés.
Il n'est pas intéressant de transmettre puis comparer la totalité des valeurs de l'activité,
principalement si l'objectif est d'obtenir une méthode ne nécessitant qu'une référence
réduite.
[0092] Le paramètre est ainsi obtenu à l'instant t par la formule suivante :
où
y(t) est l'activité du signal calculée par le filtre.
[0093] Dans le cas d'une utilisation avec référence, ce même calcul est effectué sur le
signal de référence et sur le signal dégradé.
[0094] Après synchronisation des deux flux, la comparaison de ces maxima de l'activité permet
de détecter les zones où le signal a été perturbé.
[0095] Pour effectuer cette comparaison, le rapport entre la valeur mesurée sur la référence
et celle obtenue sur le signal dégradé permet la détection des dégradations. Il est
possible de détecter les zones où l'activité a été fortement diminuée en choisissant
le maximum du rapport et de son inverse.
[0096] La formule suivante est utilisée :
où
ActTempr(t) et
ActTempd(t) sont respectivement le paramètre calculé sur la référence et sur le signal dégradé.
[0097] Dans le cas où la référence n'est pas disponible, il est possible d'utiliser un seuillage
pour détecter si le paramètre est supérieur à un seuil S', ce qui indique la présence
de dégradations. Pour éviter de fausses détections dues à des signaux au caractère
impulsionnel (attaques, percutions, ...), le seuil doit avoir une valeur assez importante,
ce qui peut entraîner des non détections.
[0098] De même que dans le cas précédent, l'utilisation des courbes de correspondance est
possible pour estimer une qualité perceptuelle. La méthode consiste à intégrer les
dégradations détectées par ce paramètre, aux autres trouvées par le paramètre précédent
par exemple, et ainsi obtenir une estimation perceptuelle globale.
[0099] Le principe du paramètre est présenté dans le schéma suivant Figure 8.
[0100] Tout comme pour le paramètre précédent, l'avantage du paramètre réside dans la possibilité
de faire des détections sans référence.
[0101] La complexité réduite et le faible débit nécessaire au transport de la référence,
limité à 1 valeur, soit un débit de 1,5 kbits/s (voire même 1 bit en cas de seuillage,
soit un débit de 47 bits/s) pour 1024 échantillons de signal échantillonné à 48 kHz,
sont également des points intéressants.
[0102] Le procédé ci-après, qui ne correspond pas à la définition de l'invention selon la
revendication 1, met en oeuvre l'étude du minimum du spectre du signal pour localiser
les dégradations.
[0103] Il est principalement utile pour la détection de dégradations dites "impulsionnelles".
Il est en effet important de noter que la majorité des dégradations introduites, lors
de la transmission d'un signal audio, sont de ce type. Celles-ci sont très localisées
en temps et très étalées en fréquence. Ainsi, en les assimilant à un bruit blanc large
bande de très courte durée dans le signal, il est possible de les détecter en analysant
les caractéristiques du spectre.
[0104] La première étape du calcul de ces paramètres correspond à l'estimation du spectre
du signal. Pour cela, le signal est fenêtré en blocs de N échantillons (N = 1024 ou
2048 par exemple), avec un recouvrement de N/2 échantillons. Cela permet d'avoir une
résolution temporelle suffisante et d'analyser tout le signal, en tenant compte du
fait que l'utilisation des fenêtrages atténue fortement l'influence des bords de ces
fenêtres temporelles.
[0105] Cela permet également de ne pas trop pénaliser le temps de calcul lors de l'implantation.
Une transformation de Fourier rapide permet, ensuite, de passer dans le domaine fréquentiel.
[0106] L'apparition d'une dégradation, augmente le minimum du spectre, du fait de l'introduction
de bruit blanc large bande dans toutes les composantes fréquentielles du spectre.
C'est ce principe qui a permis de développer ce paramètre, calculé simplement selon
la formule :
avec x
i les N composantes du spectre X en dB (par calcul de distance).
[0107] Dans le cas d'une utilisation avec référence, une comparaison simple, après synchronisation
des valeurs obtenues sur la référence et le signal dégradé, n'est en général pas suffisante
pour la détection des dégradations. En effet, la variabilité des minima obtenus avec
un signal non dégradé est importante.
[0108] Il faut ainsi faire des comparaisons par blocs de M valeurs selon le principe suivant
: Pour chaque bloc, il n'est conservé que le maximum des M minima obtenus sur la référence.
Cela fournit une valeur de référence du niveau de bruit initial pour le bloc. Cette
valeur est comparée aux M minima obtenus sur le signal dégradé.
[0109] En ne conservant que les instants où les minima sont augmentés, il est possible de
détecter les moments où du bruit a été ajouté au signal.
[0110] La distance obtenue est ainsi, pour chaque instant t :
où x
r,i est la i
ème des N composantes du spectre obtenu sur la référence,
x
d,i est la i
ème des N composantes du spectre obtenu sur le signal dégradé,
et min
k le k
ième des M minima du bloc considéré.
[0111] Si la référence n'est pas disponible, il est possible d'utiliser une moyenne des
minima du spectre obtenus précédemment par l'algorithme. Le reste de la comparaison
se fait ensuite de la même façon.
[0112] De même que dans les cas précédents, l'utilisation des courbes de correspondance
est possible en intégrant les dégradations détectées par ce paramètre aux autres et
obtenir ainsi une mesure perceptuelle.
[0113] La méthode peut se résumer ainsi par les deux schémas suivants Figure 9.
[0114] Encore une fois, le principal avantage de ces paramètres est la possibilité de faire
des mesures sans référence. Un autre point intéressant est le débit nécessaire au
transfert de la référence. Celui-ci permet de réduire la référence à 1 nombre réel
et même 1 entier, soit un débit d'au plus 1,5 kbits/s pour N (par exemple 1024) échantillons
de signal. La complexité réduite de l'algorithme est également un atout.
[0115] Dans le procédé suivant, qui ne correspond pas à la définition de l'invention selon
la revendication 1, selon lequel on analyse l'Aplatissement Spectral, deux paramètres,
SF
1 et SF
2, permettent d'estimer "l'aplatissement" du spectre, d'où le terme parfois utilisé
d'"aplatissement statistique". Ils correspondent à l'étude de la forme du spectre
et à son évolution le long de la séquence étudiée. Lors de l'apparition d'un bruit
large bande dans le signal, une composante continue de type bruit blanc provoquera
un aplatissement du spectre.
Paramètre SF1
[0116] Lors de l'apparition d'une dégradation, les composantes qui avaient des valeurs proches
de zéro, vont passer à des valeurs non négligeables. Le produit des composantes du
spectre va ainsi fortement augmenter, alors que leur somme ne variera que très peu.
Pour exploiter ceci, le paramètre d'estimation de l'aplatissement du spectre SF
1 est calculé selon la formule suivante :
avec X, le spectre du signal et x
i les composantes du spectre.
[0117] Ce paramètre est calculé de la même manière sur la référence et sur le signal dégradé.
Par comparaison il est ensuite possible d'estimer le niveau de bruit blanc inséré,
et par suite les dégradations.
Paramètre SF2
[0118] Pour calculer ce paramètre, le coefficient d'aplatissement statistique, appelé "kurtosis"
ou "concentration" a été utilisé. L'estimation est faite à partir des moments centrés
d'ordre 2 et 4. Ils permettent d'estimer la forme du spectre par rapport à une distribution
normale au sens statistique du terme.
[0119] Le calcul correspond au rapport entre le moment centré d'ordre 4 et le moment centré
d'ordre 2 (variance) au carré des coefficients du spectre. La formule utilisée est
ainsi la suivante :
avec moments centrés
mk définis par :
où
X est la moyenne arithmétique des N composantes x
i du spectre X en dB.
[0120] De même que pour le paramètre SF
1, plus la valeur obtenue est importante, plus le signal est concentré et moins il
y a de bruit dans le signal. Celui-ci est calculé sur la référence et sur le signal
dégradé. Par comparaison le niveau de bruit blanc inséré est estimé.
[0121] Le schéma de la Figure 10 présente le principe (valable pour les deux paramètres
ci-dessus) :
Dans le cas d'une comparaison avec la référence, une simple distance du type différence
ou autre est suffisante pour détecter les dégradations. Si aucune référence n'est
disponible, il est nécessaire d'effectuer une détection des pics dans la variation
des paramètres pour rechercher les dégradations. Cela peut être fait en utilisant
la technique, classique en traitement de l'image, de la morphologie mathématique à
niveau de gris (érosions et dilatations).
[0122] Les avantages et limitations de ces paramètres sont identiques à ceux des paramètres
précédents : débit nécessaire limité, sans référence possible et utilisation des courbes
de correspondance pour estimer l'importance perceptuelle des dégradations.
[0123] Dans le cadre de la surveillance d'un réseau de diffusion en télévision numérique,
le signal audio de référence correspond au signal à l'entrée du réseau de diffusion.
Les paramètres de référence sont calculés sur ce signal, puis transmis via une voie
de donnée spécifique, jusqu'au point de mesure souhaité. C'est à ce point que sont
calculés les même paramètres nécessaires à la comparaison pour l'établissement des
mesures avec référence réduite. Les mesures sans référence sont également calculées.
Dans le cas où les paramètres de référence ne seraient pas disponibles (non présents,
erronés, ...) ces mesures sont suffisantes pour détecter les erreurs les plus importantes.
Les sous-systèmes en pointillés de la Figure 11 ne sont alors plus utilisés.
[0124] Les mesures obtenues sans référence et celles obtenues avec référence réduite (dans
le cas où elles ont pu être calculées) sont utilisées par un modèle pour estimer l'importance
de la dégradation introduite lors de la diffusion.
[0125] Le schéma de la Figure 11 résume cet exemple de réalisation :
Plusieurs points de mesure peuvent ainsi être établis. Une fois ces estimations de
dégradations obtenues, il est aisé de les transmettre vers un centre de surveillance
du réseau, ce qui permet d'avoir une vue d'ensemble des performances du réseau.
[0126] Le même schéma que précédemment peut être utilisé pour visualiser (avec ou sans référence)
les performances de la diffusion de radios sur Internet. Dans ce cas, la voie de donnée
utilisée pour transporter les paramètres de référence peut être le réseau lui-même,
tout comme pour renvoyer les notes estimées au centre de surveillance. Le signal de
référence correspond au signal envoyé par le serveur, et le signal dégradé est celui
décodé au point de mesure choisi. Cela peut par exemple servir à choisir le serveur
le plus approprié en fonction du lieu de connexion en accédant aux données d'un centre
de surveillance. Le schéma (Figure 12) suivant illustre ce mode de réalisation dans
le cas où les paramètres de référence sont envoyés par le réseau et où les notes obtenues
utilisent une voie de transmission spécifique.
[0127] Un procédé selon l'invention est applicable à chaque fois qu'il est nécessaire d'identifier
des défauts sur un signal audio qui a été transmis par un réseau de diffusion quelconque
(câble, satellite, hertzien, Internet, DVB, DAB, ...).
[0128] Le procédé proposé exploite deux classes de méthodes : les techniques avec référence
réduite et celles sans référence. Il est particulièrement intéressant lorsque le débit
disponible pour la transmission de la référence est limité.
[0129] Ainsi, cette invention est applicable à des fins d'exploitation pour les équipements
de métrologie et pour les systèmes de supervision des réseaux de distribution des
signaux audio. Une de ses caractéristiques avantageuses réside dans l'association
des mesures effectuées avec et sans référence. Enfin, cette invention correspond aux
besoins imposés dans les systèmes de gestion de la qualité de service.