[0001] La présente invention se situe de manière générale dans les domaines du traitement
du signal de parole et de la psychoacoustique. Plus précisément l'invention concerne
un procédé et un dispositif d'évaluation objective de la gêne due au bruit dans des
signaux audio.
[0002] L'invention permet notamment de noter objectivement la gêne due au bruit dans un
signal audio traité par une fonction de réduction de bruit.
[0003] Dans le domaine de la transmission de signaux audio, une fonction de réduction de
bruit, aussi appelée fonction de suppression de bruit ou de débruitage, a pour objectif
de réduire le niveau de bruit de fond dans une communication vocale, ou ayant au moins
une composante vocale. Elle présente un intérêt spécifique lorsque l'un des interlocuteurs
de cette communication est immergé dans un milieu bruité qui nuit fortement à l'intelligibilité
de sa voix. Les algorithmes de réduction de bruit sont basés sur une estimation en
continu du niveau du bruit de fond à partir du signal incident et d'une détection
d'activité vocale permettant de distinguer les périodes de bruit seul de celles avec
du signal de parole utile. Un filtrage du signal de parole incident, correspondant
au signal de parole bruité, est ensuite effectué de façon à réduire la contribution
du bruit déterminée à partir de l'estimée du bruit.
[0004] La gêne due à la présence de bruit dans un signal audio traité par une telle fonction
de réduction de bruit est évaluée aujourd'hui de manière subjective seulement en se
basant sur l'exploitation de résultats de tests mis en oeuvre selon le document "Recommandation
UIT-T P.835 (11/2003)". Cette évaluation est faite sur une échelle de type MOS, d'après
l'anglais Mean Opinion Score, qui donne une note de un à cinq de la gêne due au bruit,
appelée "background noise" dans ce même document.
[0005] L'inconvénient majeur de cette technique d'évaluation est la nécessité de mettre
en oeuvre des tests subjectifs, cette mise en oeuvre étant très lourde et très coûteuse.
En effet chaque contexte particulier, c'est-à-dire un type de signal incident associé
à un type de bruit et une fonction de réduction de bruit, nécessite de mettre un panel
de personnes en situation d'écoute réelle d'échantillons de parole afin de leur demander
de noter la gêne due au bruit selon une échelle de type MOS.
[0006] C'est pourquoi le développement de méthodes objectives alternatives pouvant compléter
ou suppléer les méthodes subjectives est un sujet de grand intérêt. L'illustration
la plus frappante de ce phénomène est le modèle de qualité d'écoute, en constante
évolution, contenu dans le document "
Recommandation UIT-T P.862 (02/2001)". Néanmoins ce modèle ne s'applique pas à l'évaluation de la gêne due au bruit.
L'invention concerne en effet des signaux de parole dans lesquels la gêne due au bruit
peut être importante, ceci avant ou après traitement de ces signaux par une éventuelle
fonction de réduction de bruit.
[0007] Il est de plus à noter que bien qu'en général l'invention sera utilisée pour évaluer
la gêne due au bruit en sortie d'un équipement de communication implémentant une fonction
de réduction de bruit, l'invention s'applique aussi aux signaux bruités non traités
par une telle fonction. Le cas d'utilisation de l'invention sur un signal audio bruité
quelconque est donc un cas particulier du cas plus général d'utilisation de l'invention
sur un signal audio traité par une fonction de réduction de bruit.
[0008] La présente invention a pour but de résoudre les inconvénients de la technique antérieure
en fournissant un procédé et un dispositif de calcul objectif d'une note équivalente
à la note subjective telle qu'indiquée dans le document "Recommandation UIT-T P.835",
caractérisant la gêne due à la présence de bruit dans un signal audio. Le procédé
selon l'invention varie suivant que l'invention est utilisé sur un signal audio bruité
quelconque ou sur un signal audio traité par une fonction de réduction de bruit, notamment
dans les paramètres de calcul de la note objective selon l'invention. Afin de bien
décrire ces deux cas d'utilisation, deux modes de réalisation pouvant aussi être considérés
comme deux procédés distincts sont présentés. Cependant le second mode de réalisation,
s'appliquant à un signal audio bruité quelconque, et plus général que le premier mode
de réalisation, se déduit aisément de celui-ci.
[0009] A cette fin, l'invention propose un procédé de calcul d'une note objective de la
gêne due au bruit dans un signal audio traité par une fonction de réduction de bruit,
comme défini dans la revendication 1.
[0010] Ce procédé a l'avantage d'une mise en oeuvre simple, immédiate et rapide contrairement
aux tests subjectifs. On rappellera ici que l'expression "sonie psychoacoustique"
peut être définie comme le caractère de la sensation auditive lié à la pression acoustique
et à la structure du son. En d'autres termes, il s'agit de la force sonore d'un son
ou d'un bruit en tant que sensation auditive (cf. Office de la langue française, 1988).
La sonie est représentée par une échelle de sonie psychoacoustique (en sones). D'autre
part, la densité de sonie, encore désignée par "intensité subjective", est une mesure
particulière de la sonie.
[0011] Selon une caractéristique préférée, ce procédé selon l'invention comprend les étapes
de :
- Calcul de densités de sonie moyenne SY(m) de trames du signal traité, de densités de sonie moyenne respectives SXb(m_parole) et SY(m_parole) de trames de signal utile "m_parole" respectivement du signal bruité et du signal
traité, de densités de sonie moyenne SY(m_bruit) de trames de bruit "m_bruit" du signal traité, et de coefficients de tonalité αY(m_bruit) de trames de bruit "m_bruit" du signal traité,
- Calcul d'une note objective de la gêne due au bruit dans le signal traité, à partir
desdites densités de sonie moyenne et desdits coefficients de tonalité calculés, et
de coefficients de pondération prédéfinis.
[0012] Selon une caractéristique préférée, l'étape de calcul de densités de sonie moyenne
et de coefficients de tonalité est suivie d'une étape de calcul des moyennes
SY .
SXb _ parole,
SY _ parole, SY _ bruit et α
γ _ bruit desdites densités de sonie moyenne et desdits coefficients de tonalité sur l'ensemble
des trames concernées des signaux correspondants, et la note objective de la gêne
due au bruit est calculée selon l'équation suivante:
où
facteur(3)= Ecart_type (
SXb(
m_parole) -
SY(m_parole)), l'opérateur "Ecart_type (v(m))" désignant l'écart-type de la variable v sur l'ensemble
des trames d'indice m,
facteur(4)= α
Y _ bruit ,
facteur(5)= Ecart_type (α
Y(
m_bruit)
),
et les coefficients ω
1 à ω
6 sont déterminés de manière à obtenir une corrélation maximale entre les données subjectives
issues d'une base de données de tests subjectifs et les notes objectives calculées
par ledit procédé pour les signaux de tests, bruités et traités correspondants utilisés
lors desdits tests subjectifs.
[0013] Les coefficients de cette combinaison linéaire ont l'avantage de pouvoir être recalculés
si de nouvelles données de tests subjectifs modifient de manière sensible la corrélation
précédemment établie. Ceci permet d'améliorer un modèle objectif alimenté par le procédé
selon l'invention, de calcul de la gêne due au bruit dans un signal audio traité par
une fonction de réduction de bruit, par une simple reconfiguration des paramètres
du procédé.
[0014] L'invention concerne aussi un procédé de calcul d'une note objective de la gêne due
au bruit dans un signal audio, comme défini dans la revendication 4.
[0015] Ce procédé a les mêmes avantages que le procédé précédent, mais s'applique à un signal
audio bruité quelconque.
[0016] Selon une caractéristique préférée, ce procédé selon l'invention comporte les étapes
de:
- Calcul de densités de sonie moyenne SXb(m) de trames du signal bruité, de densités de sonie moyenne SXb(m_parole) de trames de signal utile "m_parole" du signal bruité, de densités de sonie moyenne
SXb(m_bruit) de trames de bruit "m_bruit" du signal bruité, et de coefficients de tonalité αXb(m_bruit) de trames de bruit "m_bruit" du signal bruité,
- Calcul d'une note objective de la gêne due au bruit dans le signal bruité, à partir
desdites densités de sonie moyennes et desdits coefficients de tonalité calculés,
et de coefficients de pondération prédéfinis.
[0017] Selon une caractéristique préférée, l'étape de calcul de densités de sonie moyenne
et de coefficients de tonalité est suivie d'une étape de calcul des moyennes
SXb,
SXb _ parole,
SXb _ bruit et α
Xb _ bruit desdites densités de sonie moyenne et desdits coefficients de tonalité sur l'ensemble
des trames concernées des signaux correspondants, et en ce que ladite note objective
de la gêne due au bruit est calculée selon l'équation suivante:
où
facteur(3)=α
Xb_bruit,
facteur(4)= Ecart_type(α
Xb(
m_
bruit)), l'opérateur "Ecart_type (v(m))" désignant l'écart-type de la variable v sur l'ensemble
des trames d'indice m,
et les coefficients ω
1 à ω
5 sont déterminés de manière à obtenir une corrélation maximale entre les données subjectives
issues d'une base de données de tests subjectifs et les notes objectives calculées
par ledit procédé pour les signaux de tests et les signaux bruités correspondants
utilisés lors desdits tests subjectifs.
[0018] Comme pour le procédé précédent, les coefficients de cette combinaison linéaire ont
l'avantage de pouvoir être recalculés si de nouvelles données de tests subjectifs
modifient de manière sensible la corrélation précédemment établie. Ceci permet d'améliorer
un modèle objectif alimenté par le procédé selon l'invention, de calcul de la gêne
due au bruit dans un signal audio, par une simple reconfiguration des paramètres du
procédé.
[0019] Selon une caractéristique préférée de ces deux procédés selon l'invention, l'étape
de calcul de densités de sonie et de coefficients de tonalité est précédée d'une étape
de détection d'activité vocale sur le signal de test, de manière à déterminer si une
trame courante du signal bruité, et du signal traité dans le cas du premier procédé,
est une trame "m_bruit" contenant seulement du bruit, ou une trame "m_parole" contenant
de la parole, dite trame de signal utile.
[0020] Cette étape de détection d'activité vocale permet de séparer très simplement les
différents types de trames du signal bruité, et du signal traité dans le cas du premier
procédé, par l'utilisation du signal de test.
[0021] Selon une caractéristique préférée de ces deux procédés selon l'invention, l'étape
de calcul de la note objective est suivie d'une étape de calcul d'une note objective
sur l'échelle MOS de la gêne due au bruit, calculée selon l'équation suivante:
dans laquelle les coefficients λ
1 à λ
4 sont déterminés de manière à ce que ladite nouvelle note objective obtenue caractérise
la gêne due au bruit sur l'échelle MOS.
[0022] Le fait d'utiliser une fonction polynomiale d'ordre 3 permet d'obtenir une note objective
sur l'échelle MOS très proche de la note subjective MOS que donnerait un groupe d'auditeurs
dans le cadre d'un test subjectif conforme à la "Recommandation UIT-T P.835".
[0023] Selon une caractéristique préférée de ces deux procédés selon l'invention, l'étape
de calcul de densités de sonie et de coefficients de tonalité, le calcul de la densité
de sonie moyenne S
U(m) d'une trame d'indice m quelconque d'un signal audio donné u, comprend les étapes
suivantes :
- fenêtrage, par exemple de type Hanning, de la trame d'indice m et obtention d'une
trame fenêtrée u_w[m],
- application d'une transformée de Fourier rapide à la trame fenêtrée u_w[m] et obtention
d'une trame correspondante U(m,f) dans le domaine fréquentiel,
- calcul de la densité spectrale de puissance γU(m, f) de la trame U(m,f),
- application à la densité spectrale de puissance γU(m,f) d'une conversion de l'axe des fréquences à l'échelle des Barks et obtention
d'une densité spectrale de puissance BU(m, b) sur l'échelle des Barks,
- convolution de la densité spectrale de puissance sur l'échelle des Barks, BU(m, b), avec la fonction d'étalement couramment utilisée en psychoacoustique et obtention
d'une densité spectrale étalée sur l'échelle des Barks, EU(m,b),
- calibration de la densité spectrale étalée sur l'échelle des Barks, EU(m,b), par les facteurs respectifs d'échelonnement en puissance et d'échelonnement
en sonie couramment utilisés en psychoacoustique, conversion de la grandeur ainsi
obtenue sur l'échelle des phones puis conversion sur l'échelle des sones de la grandeur
précédemment convertie en phones, et obtention en conséquence d'un nombre B de valeurs
de densité de sonie, SU(m, b), de la trame d'indice m pour la bande critique b, B étant le nombre de bandes
critiques considérées dans l'échelle des Barks et l'indice b variant de 1 à B ,
- calcul de la densité de sonie moyenne SU (m) de la trame d'indice m à partir desdites B valeurs de densités de sonie SU(m, b), selon l'équation suivante :
[0024] Selon une caractéristique préférée de ces deux procédés selon l'invention, dans l'étape
de calcul de densités de sonie et de coefficients de tonalité, le calcul du coefficient
de tonalité α(m) d'une trame d'indice m quelconque d'un signal audio donné u, comprend
les étapes suivantes :
- fenêtrage, par exemple de type Hanning, de la trame d'indice m et obtention d'une
trame fenêtrée u_w[m],
- application d'une transformée de Fourier rapide à la trame fenêtrée u_w[m] et obtention
d'une trame correspondante U(m,f) dans le domaine fréquentiel,
- calcul de la densité spectrale de puissance γU(m, f) de la trame U(m,f),
- calcul du coefficient de tonalité α(m) selon l'équation suivante:
où * symbolise l'opérateur de multiplication dans l'espace des nombres réels, f représente
l'indice fréquentiel de la densité spectrale de puissance, et N désigne la taille
de la transformée de Fourier rapide.
[0025] L'invention concerne également un équipement de test destiné à évaluer une note objective
de la gêne due au bruit dans un signal audio,
caractérisé en ce qu'il comporte des moyens adaptés à mettre en oeuvre l'un ou l'autre des procédés selon
l'invention.
[0026] Selon une caractéristique préférée, l'équipement de test inclut des moyens informatiques
et un programme d'ordinateur, ledit programme comportant des instructions adaptées
à mettre en oeuvre l'un ou l'autre desdits procédés, lorsqu'il est exécuté par lesdits
moyens informatiques.
[0027] L'invention concerne encore un programme d'ordinateur sur un support d'informations,
comportant des instructions adaptées à la mise en oeuvre de l'un ou l'autre des procédés
selon l'invention, lorsque le programme est chargé et exécuté dans un système informatique.
[0028] Les avantages de cet équipement de test ou de ce programme d'ordinateur sont identiques
à ceux mentionnés plus haut en relation avec les procédés de l'invention.
[0029] D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation
préférés décrits en référence aux figures dans lesquelles:
- la figure 1 représente un environnement de test destiné à calculer une note objective
de la gêne due au bruit dans un signal audio traité par une fonction de réduction
de bruit, selon un premier mode de réalisation de l'invention,
- la figure 2 est un organigramme illustrant un procédé de calcul d'une note objective
de la gêne due au bruit dans un signal audio traité par une fonction de réduction
de bruit selon un premier mode de réalisation du procédé selon l'invention,
- la figure 3 est un organigramme illustrant un procédé de calcul d'une note objective
de la gêne due au bruit dans un signal audio selon un second mode de réalisation du
procédé selon l'invention,
- la figure 4 est un organigramme illustrant le mode de calcul de la densité de sonie
moyenne et du coefficient de tonalité d'une trame de signal audio selon l'invention.
[0030] Deux modes de réalisation du procédé selon l'invention sont décrits dans la suite,
le premier étant appliqué à un signal audio traité par une fonction de réduction de
bruit, et le second étant appliqué à un signal audio bruité quelconque. Le principe
du procédé selon l'invention est le même dans ces deux modes de réalisation, en particulier
le procédé de calcul est exactement le même, mais dans le second mode de réalisation
le signal audio traité par une fonction de réduction de bruit est pris égal au signal
bruité. Le second mode de réalisation peut en effet être considéré comme un cas particulier
du premier mode de réalisation, avec une fonction de réduction de bruit inhibée.
[0031] Selon le premier mode de réalisation du procédé l'invention, la gêne due à la présence
de bruit dans un signal audio traité par une fonction de réduction de bruit est évaluée
de manière objective dans un environnement de test représenté à la
figure 1. Un tel environnement de test comprend une source de signaux audio SSA délivrant un
signal audio de test x(n) ne contenant que du signal utile, c'est-à-dire dépourvu
de bruit, par exemple un signal de parole, et une source de bruit SB délivrant un
signal de bruit prédéfini.
[0032] Aux fins de test, ce signal de bruit prédéfini est ajouté au signal de test x(n)
choisi, comme représenté par l'opérateur d'addition AD. Le signal audio résultant
de cette addition de bruit au signal de test x(n) est noté xb(n) et est désigné par
l'expression "signal bruité".
[0033] Le signal bruité xb(n) constitue alors le signal d'entrée d'un module MRB de réduction
de bruit mettant en oeuvre une fonction de réduction de bruit délivrant en sortie
un signal audio y(n) désigné par l'expression "signal traité". Le signal traité y(n)
est donc un signal audio contenant du signal utile et un bruit résiduel.
[0034] Le signal traité y(n) est ensuite délivré à un équipement de test EQT mettant en
oeuvre un procédé d'évaluation objective de la gêne due au bruit dans le signal traité,
selon l'invention. Typiquement le procédé selon l'invention est implémenté dans l'équipement
de test EQT sous la forme d'un programme d'ordinateur. En plus ou en remplacement
de moyens logiciels, l'équipement de test EQT comporte éventuellement des moyens matériels
électroniques pour implémenter le procédé selon l'invention. Outre le signal y(n),
l'équipement de test EQT reçoit en entrée le signal de test x(n) et le signal bruité
xb(n).
[0035] L'équipement de test EQT délivre en sortie un résultat d'évaluation RES, qui est
une note objective NOB_MOS de la gêne due à la présence de bruit dans le signal traité
y(n). Le mode de calcul de cette note objective NOB_MOS sera décrit plus bas.
[0036] Les signaux audio précités x(n), xb(n) et y(n) sont des signaux échantillonnés dans
un format numérique, n désignant un échantillon quelconque. Ces signaux sont par exemple
supposés échantillonnés à la fréquence d'échantillonnage de 8 kHz (kilo Hertz).
[0037] Dans le mode de réalisation décrit et représenté ici, le signal de test x(n) est
un signal de parole dépourvu de bruit. Le signal bruité xb(n) représente alors le
signal vocal initial x(n) dégradé par un environnement bruité (bruit de fond ou bruit
ambiant), et le signal y(n) représente le signal xb(n) après réduction de bruit.
[0038] Selon un exemple de mise en oeuvre de l'invention, le signal x(n) est généré dans
une chambre anéchoïque. Cependant, le signal x(n) peut être aussi généré dans une
pièce "calme" ayant un temps de réverbération "moyen", inférieur à 0,5 seconde.
[0039] Le signal bruité xb(n) est obtenu en ajoutant une contribution prédéterminée de bruit
au signal x(n). Le signal y(n) est obtenu soit en sortie d'un algorithme de réduction
de bruit implanté sur un ordinateur personnel, soit à la sortie d'un équipement réseau
réducteur de bruit et dans ce dernier cas, le signal y(n) est prélevé au niveau d'un
codeur MIC (modulation par impulsion et codage).
[0040] En référence à la
figure 2, le procédé de calcul de la note objective NOB_MOS de la gêne due au bruit dans le
signal traité y(n) selon l'invention est représenté sous la forme d'un algorithme
comportant des étapes a1 à a7.
[0041] Dans une première étape a1, les signaux x(n), xb(n) et y(n) sont respectivement découpés
en fenêtres temporelles successives appelées trames. Chaque trame de signal, notée
m, contient un nombre prédéterminé d'échantillons du signal, l'étape a1 consiste donc
en un changement de cadence de chacun de ces signaux. Les signaux x(n), xb(n) et y(n)
passés en cadence trames produisent respectivement les signaux x[m], xb[m], et y[m].
[0042] Dans une seconde étape a2, une détection d'activité vocale (DAV) est effectuée sur
le signal x[m] de manière à déterminer si chaque trame respective courante d'indice
m des signaux xb[m] et y[m], est une trame contenant seulement du bruit, notée "m_bruit",
ou une trame contenant de la parole, c'est-à-dire du signal utile, et notée "m_parole".
Cette détermination se fait par comparaison des signaux xb[m] et y[m] avec le signal
de test x[m] dénué de bruit. Chaque trame de silence de x[m] correspond en effet à
une trame de bruit pour les signaux xb[m] et y[m], tandis que chaque trame de parole
de x[m] correspond à une trame de parole pour les signaux xb[m] et y[m].
[0043] Comme représenté sur la
figure 2, en sortie de l'étape a2, trois types de trames sont sélectionnés à partir des signaux
x[m], xb[m] et y[m] :
- les trames de parole du signal bruité xb[m], notées xb[m_parole],
- les trames de parole du signal traité y[m], notées y[m_parole],
- les trames de bruit du signal traité y[m], notées y[m_bruit].
[0044] Dans une troisième étape a3, des mesures de sonie sont effectuées sur au moins des
ensembles de trames y[m_bruit], y[m_parole], xb[m_parole] issues de l'étape précédente
a2, et au moins un ensemble de trames du signal y[m] en sortie de l'étape a1. Par
exemple si on utilise 8 secondes de signal de test échantillonné à 8kHz, on pourra
travailler sur 250 trames y[m] de 256 échantillons de signal y(n). De plus les coefficients
de tonalité d'au moins un ensemble de trames y[m_bruit] sont mesurées.
[0045] Plus précisément, à cette étape, on calcule les densités de sonie moyennes
SXb(
m_parole),
SY(
m_parole),
SY(
m), et
SY(
m_bruit) de respectivement chacune des trames xb[m_parole], y[m_parole], y[m] et y[m_bruit]
des ensembles de trames considérés. De même les coefficients de tonalité α
Y(
m_bruit) de chacune des trames y[m_bruit] de l'ensemble considéré de trames y[m_bruit] sont
calculés.
[0046] Le calcul d'une densité de sonie moyenne S
U (m) et d'un coefficient de tonalité α(m) d'une trame d'indice m quelconque d'un signal
audio donné u, sera détaillé plus loin en liaison avec la
figure 4.
[0047] Dans une quatrième étape a4, on calcule les moyennes respectives
SXb _ parole,
SY _ parole,
SY, et
SY _ bruit des densités de sonie moyenne
SXb(
m _ parole),
SY(
m _ parole),
SY(
m), et
SY(
m_
bruit) précédemment calculées sur les ensembles respectifs considérés des trames xb[m_parole],
y[m_parole], y[m] et y[m_bruit]. La moyenne α
Y _ bruit des coefficients de tonalité α
Y(
m_
bruit) précédemment calculés sur l'ensemble considéré de trames y[m_bruit] est également
calculée.
[0048] Dans une cinquième étape a5, on calcule cinq facteurs facteur(i), i étant un entier
variant de un à cinq, caractéristiques de la gêne due au bruit dans le signal y(n),
selon les formules suivantes:
facteur(3)= Ecart_type (SXb(m_parole)-SY(m_parole)), l'opérateur "Ecart_type (v(m))" désignant l'écart-type de la variable v sur l'ensemble
des trames m,
facteur(4)= αY _ bruit ,
facteur(5)= Ecart_type (αY(m_bruit)).
[0049] Dans une sixième étape a6, le calcul d'une note objective intermédiaire NOB est obtenue
par combinaison linéaire des cinq facteurs calculés à l'étape a5, suivant l'équation
suivante:
où les coefficients ω
1 à ω
6 sont des coefficients de pondération prédéfinis. Ces coefficients ont été déterminés
de manière à obtenir une corrélation maximale entre les données subjectives issues
d'une base de données de tests subjectifs, et les notes objectives NOB calculées par
cette combinaison linéaire en utilisant les signaux de tests, bruités et traités x[m],
xb[m] et y[m] utilisés lors de ces mêmes tests subjectifs. La base de données de tests
subjectifs est par exemple une base de données de notes obtenues avec des groupes
d'auditeurs conformément à la "Recommandation UIT-T P.835", dans laquelle ces notes
sont appelées notes "background noise".
[0050] Il est à noter que l'obtention des coefficients de pondération par l'utilisation
d'une base de données de tests subjectifs n'est pas indispensable à chaque étape de
calcul d'une note objective NOB. En effet, ces coefficients doivent être obtenus préalablement
à la première utilisation du procédé, et peuvent être les mêmes pour toutes les utilisations
du procédé. Ces coefficients sont néanmoins amenés à évoluer lorsque de nouvelles
données subjectives viendront alimenter la base de données de tests subjectifs utilisée.
[0051] Enfin dans une dernière étape a7, une note objective NOB_MOS de la gêne due au bruit
dans le signal traité y(n) sur l'échelle MOS est calculée en utilisant par exemple
une fonction polynomiale d'ordre 3, suivant l'équation suivante:
où les coefficients λ
1 à λ
4 sont déterminés de manière à ce que la note objective obtenue NOB_MOS caractérise
la gêne due au bruit sur l'échelle MOS, c'est-à-dire sur une échelle de 1 à 5.
[0052] Selon un second mode de réalisation du procédé l'invention, la gêne due à la présence
de bruit dans un signal audio bruité quelconque est évaluée de manière objective.
On utilise le même environnement de test qu'à la
figure 1, mais en ôtant le module MRB de réduction de bruit. La source de signaux audio SSA
délivre un signal audio de test x(n) ne contenant que du signal utile, auquel est
ajouté un signal de bruit prédéfini généré par la source de bruit SB, pour obtenir
en sortie de l'opérateur d'addition AD un signal bruité xb(n).
[0053] Le signal de test x(n) et le signal bruité xb(n) sont alors directement envoyés à
l'entrée de l'équipement de test EQT mettant en oeuvre un procédé d'évaluation objective
de la gêne due au bruit dans le signal bruité xb(n) selon l'invention. Comme dans
le premier mode de réalisation, les signaux x(n) et xb(n) sont supposés échantillonnés
à la fréquence d'échantillonnage 8 kHz.
[0054] L'équipement de test EQT délivre en sortie un résultat d'évaluation RES, qui est
une note objective NOB_MOS de la gêne due à la présence de bruit dans le signal bruité
xb(n).
[0055] En référence à la
figure 3, le procédé de calcul de la note objective NOB_MOS de la gêne due au bruit dans le
signal bruité xb(n) selon l'invention est représenté sous la forme d'un algorithme
comportant des étapes b1 à b7. Ces étapes sont similaires aux étapes a1 à a7 précédemment
décrites dans le premier mode de réalisation, et seront donc un peu moins détaillées.
Il est en effet à noter que si l'on applique les étapes de calcul a3 à a7 avec le
signal y(n) égal au signal xb(n) dans le cas du premier mode de réalisation, on aboutit
au deuxième mode de réalisation.
[0056] Dans une première étape b1, les signaux x(n) et xb(n) sont découpés en trames x[m]
et xb[m] d'indice temporel m.
[0057] Dans une seconde étape b2, une détection d'activité vocale est effectuée sur le signal
x[m] de manière à déterminer si chaque trame courante d'indice m du signal bruité
xb[m] est une trame contenant seulement du bruit, notée "m_bruit", ou une trame contenant
aussi de la parole, notée "m_parole". Deux types de trames sont donc sélectionnés
à partir des signaux x[m] et xb[m] en sortie de l'étape b2:
- les trames de parole du signal bruité xb[m], notées xb[m_parole],
- et les trames de bruit du signal bruité xb[m], notées xb[m_bruit].
[0058] Dans une troisième étape b3, des mesures de sonie sont effectuées sur au moins des
ensembles de trames xb[m_bruit] et xb[m_parole] issues de l'étape précédente b2, et
au moins un ensemble de trames du signal xb[m] en sortie de l'étape b1. De plus les
coefficients de tonalité d'au moins un ensemble de trames xb[m_bruit] sont mesurées.
[0059] Plus précisément, à cette étape, on calcule les densités de sonie moyennes
SXb(
m).
SXb(
m_
parole) et
SXb(
m_bruit) de respectivement chacune des trames xb[m], xb[m_parole] et xb[m_bruit] des ensembles
de trames considérés. De même les coefficients de tonalité α
Xb(
m_bruit) de chacune des trames xb[m_bruit] de l'ensemble considéré de trames xb[m_bruit]
sont calculés.
[0060] Dans une quatrième étape b4, on calcule les moyennes respectives
SXb ,
SXb _ parole, et
SXb _ bruit des densités de sonie moyenne
SXb(
m),
SXb(
m_parole) et
SXb(
m_bruit) précédemment calculées sur les ensembles respectifs considérés des trames xb[m],
xb[m_parole] et xb[m_bruit]. La moyenne α
Xb _ bruit des coefficients de tonalité α
Xb(
m_bruit) précédemment calculés sur l'ensemble considéré de trames xb[m_bruit] est également
calculée.
[0061] Dans une cinquième étape b5, on calcule quatre facteurs facteur(i), i étant un entier
variant de un à quatre, caractéristiques de la gêne due au bruit dans le signal bruité
xb(n), selon les formules suivantes:
facteur(3)= αXb_bruit,
facteur(3)= αXb _ bruit,
facteur(4)= Ecart_type(αXb(m_bruit)), l'opérateur "Ecart_type (v(m))" désignant l'écart-type de la variable v sur l'ensemble
des trames m.
[0062] Dans une sixième étape b6, le calcul d'une note objective intermédiaire NOB est obtenue
par combinaison linéaire des quatre facteurs calculés à l'étape b5, suivant l'équation
suivante:
où les coefficients ω
1 à ω
5 sont des coefficients de pondération prédéfinis. Ces coefficients ont été déterminés
de manière à obtenir une corrélation maximale entre les données subjectives issues
d'une base de données de tests subjectifs, et les notes objectives NOB calculées par
cette combinaison linéaire en utilisant les signaux de tests et les signaux bruités
x[m] et xb[m] utilisés lors de ces mêmes tests subjectifs. Tout comme pour l'étape
a6, l'obtention des coefficients de pondération par l'utilisation d'une base de données
de tests subjectifs n'est pas indispensable à chaque étape de calcul d'une note objective
NOB.
[0063] Enfin dans une dernière étape b7, une note objective NOB_MOS de la gêne due au bruit
dans le signal bruité xb(n) sur l'échelle MOS est calculée en utilisant par exemple
une fonction polynomiale d'ordre 3, suivant l'équation suivante:
où les coefficients λ
1 à λ
4 sont déterminés de manière à ce que la note objective obtenue NOB_MOS caractérise
la gêne due au bruit sur l'échelle MOS, c'est-à-dire sur une échelle de 1 à 5.
[0064] Le calcul de densité de sonie moyenne et du coefficient de tonalité d'une trame d'un
signal audio, utilisé dans les étapes a3 et b3, est maintenant décrit en relation
avec la
figure 4, selon un mode de réalisation préféré de l'invention.
[0065] Le calcul selon l'invention de la densité de sonie moyenne S
U(m) d'une trame d'indice m quelconque d'un signal audio donné u[m], comprend les étapes
c1 à c7 représentées à la
figure 4 et exposées ci-après. Le calcul selon l'invention du coefficient de tonalité α(m)
d'une trame d'indice m quelconque d'un signal audio donné u[m], comprend les étapes
c1, c2, c3 et c8 représentées à la
figure 4 et exposées ci-après.
[0066] Dans ce qui suit, on considère une trame d'indice m quelconque d'un signal u[m],
sachant que tout ou partie des trames du signal considéré subissent le même traitement.
Le signal u[m] représente n'importe lequel des signaux x[m], xb[m], ou y[m] définis
plus haut.
[0067] A la première étape c1, on applique à la trame d'indice m du signal u[m] un fenêtrage,
par exemple un fenêtrage de type Hanning, Hamming ou équivalent. On obtient alors
une trame fenêtrée u_w[m].
[0068] A l'étape suivante c2, on applique à la trame fenêtrée u_w[m], une transformée de
Fourier rapide (FFT) et on obtient en conséquence une trame correspondante U(m,f)
dans le domaine fréquentiel.
[0069] A l'étape suivante c3, on calcule la densité spectrale de puissance γ
U(m, f) de la trame U(m,f). Un tel calcul est connu de l'homme du métier et ne sera
pas, par conséquent, détaillé ici.
[0070] A l'issue de l'étape c3, pour le signal y[m_bruit] de l'étape a3 ou le signal xb[m_bruit]
de l'étape b3, on passe par exemple à l'étape c8 pour le calcul du coefficient de
tonalité, puis à l'étape c4 pour le calcul de la densité de sonie moyenne S
U(m), puisque pour ces deux signaux les deux calculs sont nécessaires. Pour les autres
signaux des étapes a3 et b3 on passe à l'étape c4 pour le calcul de la densité de
sonie moyenne S
U(m). Il est à noter que le calcul du coefficient de tonalité est indépendant du calcul
de la densité de sonie moyenne S
U(m), les deux calculs peuvent donc s'effectuer en parallèle ou l'un après l'autre.
[0071] A l'étape c4, on applique à la densité spectrale de puissance γ
U(m, f) obtenue à l'étape précédente, une conversion de l'axe des fréquences à l'échelle
des Barks, et on obtient en conséquence une densité spectrale de puissance, B
U(m, b), sur l'échelle des Barks, appelée aussi spectre de Bark. Pour une fréquence
d'échantillonnage de 8kHz, 18 bandes critiques doivent être considérées. Ce type de
conversion est connu de l'homme du métier, le principe de cette conversion Hertz/Bark
consiste à additionner toutes les contributions fréquentielles présentes dans la bande
critique considérée de l'échelle des Barks.
[0072] Ensuite, à l'étape c5, on applique à la densité spectrale de puissance sur l'échelle
des Barks, B
U(m, b), une convolution avec la fonction d'étalement couramment utilisée en psychoacoustique,
et on obtient en conséquence une densité spectrale étalée sur l'échelle des Barks,
notée E
U(m, b). Cette fonction d'étalement a été formulée mathématiquement et une expression
possible est:
où E(b) est la fonction d'étalement appliquée à la bande critique b considérée dans
l'échelle des Barks et * symbolise l'opérateur de multiplication dans l'espace des
nombres réels. Cette étape permet de prendre en compte l'interaction des bandes critiques
adjacentes.
[0073] A l'étape suivante c6, on convertit la densité spectrale étalée E
U(m, b) obtenue précédemment en densités de sonie exprimées en sones. Pour cela, on
opère une calibration de la densité spectrale étalée sur l'échelle des Barks, E
U(m, b), par les facteurs respectifs d'échelonnement en puissance et d'échelonnement
en sonie couramment utilisés en psychoacoustique. Le document "Recommandation UIT-T
P.862", sections 10.2.1.3 et 10.2.1.4, donne un exemple d'une telle calibration par
les facteurs précités. On convertit ensuite sur l'échelle des phones la grandeur obtenue.
La conversion sur l'échelle des phones est effectuée en s'appuyant sur les courbes
d'isosonie (courbes de Fletcher) conformément à la norme NF ISO 226 "Lignes isosoniques
normales". On effectue alors une conversion sur l'échelle des sones de la grandeur
précédemment convertie en phones. La conversion en sones est effectuée conformément
à la loi de Zwicker selon laquelle :
[0074] Pour obtenir plus d'information sur la conversion phone/sone, on pourra se reporter
au document "PSYCHOACOUSTIQUE, L'oreille récepteur d'information", de E. Zwicker et
R. Feldtkeller, édition Masson, 1981.
[0075] A l'issue de l'étape c6, on dispose d'un nombre B de valeurs de densité de sonie,
S
U(m, b), de la trame d'indice m pour la bande critique b, B étant le nombre de bandes
critiques considérées dans l'échelle des Barks et l'indice b variant de 1 à B.
[0076] Enfin, à l'étape c7, on calcule la densité de sonie moyenne S
U(m) de la trame d'indice m à partir desdites B valeurs de densité de sonie, selon
l'équation suivante :
[0077] Autrement dit, la densité de sonie moyenne S
U(m) selon l'invention d'une trame d'indice m, est donc la moyenne des B valeurs de
densité de sonie S
U(m, b), de la trame d'indice m pour une bande critique b considérée.
[0078] Ces deux dernières étapes c6 et c7 correspondent à une conversion du domaine des
Barks vers le domaine des Sones, permettant de calculer une intensité subjective moyenne,
c'est-à-dire telle que perçue par l'oreille humaine.
[0080] Le coefficient de tonalité α d'un signal de base est une mesure permettant de montrer
si certaines fréquences pures ressortent de ce signal. Il est équivalent à une densité
tonale. En effet, plus le coefficient de tonalité α est proche de 0, plus le signal
est assimilé à du bruit. A l'inverse, plus le coefficient de tonalité α est proche
de 1, plus le signal est à composante tonale majoritaire. Un coefficient de tonalité
α proche de 1 atteste donc de la présence de signal utile, ou signal de parole.
1. Procédé de calcul d'une note objective (NOB) de la gêne due au bruit dans un signal
audio traité par une fonction de réduction de bruit, ledit procédé comprenant une
étape préalable d'obtention d'un signal audio prédéfini de test (x[m]) contenant un
signal utile dépourvu de bruit, d'un signal bruité (xb[m]), obtenu en additionnant
un signal de bruit prédéfini audit signal de test (x[m]), et d'un signal traité (y[m]),
obtenu par application de la fonction de réduction de bruit audit signal bruité (xb[m]),
ledit procédé étant
caractérisé en ce qu'il inclut une étape (a3, a4) :
- de calcul de densités de sonie de trames dudit signal bruité (xb[m]) et dudit signal
traité (y[m]), lesdites densités de sonie pour une trame m quelconque d'un signal
u[m] donné étant obtenues à partir de la densité spectrale étalée sur l'échelle des
Barks, EU(m,b), du signal u[m], par une opération de calibration de la densité spectrale étalée
par des facteurs respectifs d'échelonnement en puissance et en sonie, suivie d'une
opération de conversion sur l'échelle des phones et sur l'échelle des sones ; et
- de calcul de coefficients de tonalité de trames dudit signal traité (y[m]), le coefficient
de tonalité, α(m), d'une trame d'indice m quelconque d'un signal u[m] donné étant
calculé selon l'équation suivante :
où γ
U(m,f) désigne la densité spectrale de puissance obtenue pour une trame m quelconque
du signal u[m].
2. Procédé selon la revendication 1,
caractérisé en ce qu'il comprend les étapes de :
- Calcul (a3) de densités de sonie moyenne SY(m) de trames du signal traité (y[m]), de densités de sonie moyenne respectives SXb(m_paro/e) et SY(m_parole) de trames de signal utile "m_parole" respectivement du signal bruité (xb[m]) et
du signal traité (y[m]), de densités de sonie moyenne SY(m_bruit) de trames de bruit "m_bruit" du signal traité (y[m]), et de coefficients de tonalité
αY(m_bruit) de trames de bruit "m_bruit" du signal traité (y[m]),
- Calcul (a5, a6) d'une note objective (NOB) de la gêne due au bruit dans le signal
traité (y[m]), à partir desdites densités de sonie moyenne et desdits coefficients
de tonalité calculés, et de coefficients de pondération prédéfinis.
3. Procédé selon la revendication 2,
caractérisé en ce que l'étape de calcul (a3) de densités de sonie moyenne et de coefficients de tonalité
est suivie d'une étape de calcul (a4) des moyennes
SY ,SXb _ parole,
SY _ parole, SY _ bruit et α
Y _ bruit desdites densités de sonie moyenne et desdits coefficients de tonalité sur l'ensemble
des trames concernées des signaux correspondants, et
en ce que la note objective (NOB) de la gêne due au bruit est calculée selon l'équation suivante:
où
facteur(3)= Ecart_type (
SXb(
m_parole)-
SY(
m_parole)), l'opérateur "Ecart_type (v(m))" désignant l'écart-type de la variable v sur l'ensemble
des trames d'indice m,
facteur(4)= α
Y _ bruit ,
facteur(5)= Ecart_type(α
Y(
m_bruit)),
et les coefficients ω
1 à ω
6 sont déterminés de manière à obtenir une corrélation maximale entre les données subjectives
issues d'une base de données de tests subjectifs et les notes objectives (NOB) calculées
par ledit procédé pour les signaux de tests, bruités et traités (x[m], xb[m], y[m])
correspondants utilisés lors desdits tests subjectifs.
4. Procédé de calcul d'une note objective (NOB) de la gêne due au bruit dans un signal
audio, ledit procédé comprenant une étape préalable d'obtention d'un signal audio
prédéfini de test (x[m]) contenant un signal utile dépourvu de bruit, et d'un signal
bruité (xb[m]), obtenu en additionnant un signal de bruit prédéfini audit signal de
test (x[m]), ledit procédé étant
caractérisé en ce qu'il inclut une étape (b3, b4) :
- de calcul de densités de sonie de trames dudit signal bruité (xb[m]), lesdites densités
de sonie pour une trame m quelconque d'un signal u[m] donné étant obtenues à partir
de la densité spectrale étalée sur l'échelle des Barks, EU(m,b), du signal u[m], par une opération de calibration de la densité spectrale étalée
par des facteurs respectifs d'échelonnement en puissance et en sonie, suivie d'une
opération de conversion sur l'échelle des phones et sur l'échelle des sones ; et
- de calcul de coefficients de tonalité de trames dudit signal bruité (xb[m]), le
coefficient de tonalité, α(m), d'une trame d'indice m quelconque d'un signal u[m]
donné étant calculé selon l'équation suivante :
où γ
U(m,f) désigne la densité spectrale de puissance obtenue pour une trame m quelconque
du signal u[m].
5. Procédé selon la revendication 4,
caractérisé en ce qu'il comprend les étapes de :
- Calcul (b3) de densités de sonie moyenne SXb(m) de trames du signal bruité (xb[m]), de densités de sonie moyenne SXb(m_parole) de trames de signal utile "m_parole" du signal bruité (xb[m]), de densités de sonie
moyenne SXb(m_bruit) de trames de bruit "m_bruit" du signal bruité (xb[m]), et de coefficients de tonalité
αXb(m_bruit) de trames de bruit "m_bruit" du signal bruité (xb[m]),
- Calcul (b5, b6) d'une note objective (NOB) de la gêne due au bruit dans le signal
bruité (xb[m]), à partir desdites densités de sonie moyennes et desdits coefficients
de tonalité calculés, et de coefficients de pondération prédéfinis.
6. Procédé selon la revendication 5,
caractérisé en ce que l'étape de calcul (b3) de densités de sonie moyenne et de coefficients de tonalité
est suivie d'une étape de calcul (b4) des moyennes
SXb ,
SXb_parole,
SXb_bruit et α
Xb _bruit desdites densités de sonie moyenne et desdits coefficients de tonalité sur l'ensemble
des trames concernées des signaux correspondants, et
en ce que ladite note objective (NOB) de la gêne due au bruit est calculée selon l'équation
suivante:
où
facteur(3)= α
Xb _ bruit ,
facteur(4)= Ecart_type(α
Xb(
m_bruit)), l'opérateur "Ecart_type (v(m))" désignant l'écart-type de la variable v sur l'ensemble
des trames d'indice m,
et les coefficients ω
1 à ω
5 sont déterminés de manière à obtenir une corrélation maximale entre les données subjectives
issues d'une base de données de tests subjectifs et les notes objectives (NOB) calculées
par ledit procédé pour les signaux de tests et les signaux bruités (x[m], xb[m]) correspondants
utilisés lors desdits tests subjectifs.
7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ladite étape de calcul (a3, b3, a4, b4) de densités de sonie et de coefficients de
tonalité est précédée d'une étape (a2, b2) de détection d'activité vocale sur le signal
de test, de manière à déterminer si une trame courante d'indice m du signal bruité
(xb[m]), et du signal traité (y[m]) dans le cas des revendications 1 à 3, est une
trame "m_bruit" contenant seulement du bruit, ou une trame "m_parole" contenant de
la parole, dite trame de signal utile.
8. Procédé selon l'une quelconque des revendications 1 à 7,
caractérisé en ce que l'étape de calcul (a6, b6) de la note objective (NOB) est suivie d'une étape de calcul
(a7, b7) d'une note objective sur l'échelle MOS (NOB_MOS) de la gêne due au bruit,
calculée selon l'équation suivante:
dans laquelle les coefficients λ
1 à λ
4 sont déterminés de manière à ce que ladite nouvelle note objective obtenue (NOB_MOS)
caractérise la gêne due au bruit sur l'échelle MOS.
9. Procédé selon l'une quelconque des revendications 1 à 8,
caractérisé en ce que, dans l'étape de calcul (a3, b3, a4, b4) de densités de sonie et de coefficients de
tonalité, le calcul de la densité de sonie moyenne S
U(m) d'une trame d'indice m quelconque d'un signal audio donné u, comprend les étapes
suivantes :
- fenêtrage (c1), par exemple de type Hanning, de la trame d'indice m et obtention
d'une trame fenêtrée u_w[m],
- application (c2) d'une transformée de Fourier rapide à la trame fenêtrée u_w[m]
et obtention d'une trame correspondante U(m,f) dans le domaine fréquentiel,
- calcul (c3) de la densité spectrale de puissance γU(m,f) de la trame U(m,f),
- application (c4) à la densité spectrale de puissance γU(m,f) d'une conversion de l'axe des fréquences à l'échelle des Barks et obtention
d'une densité spectrale de puissance BU(m,b) sur l'échelle des Barks,
- convolution (c5) de la densité spectrale de puissance sur l'échelle des Barks, BU(m,b), avec la fonction d'étalement couramment utilisée en psychoacoustique et obtention
d'une densité spectrale étalée sur l'échelle des Barks, EU(m,b),
- calibration (c6) de la densité spectrale étalée sur l'échelle des Barks, EU(m,b), par les facteurs respectifs d'échelonnement en puissance et d'échelonnement
en sonie couramment utilisés en psychoacoustique, conversion de la grandeur ainsi
obtenue sur l'échelle des phones puis conversion sur l'échelle des sones de la grandeur
précédemment convertie en phones, et obtention en conséquence d'un nombre B de valeurs
de densité de sonie, SU(m,b), de la trame d'indice m pour la bande critique b, B étant le nombre de bandes
critiques considérées dans l'échelle des Barks et l'indice b variant de 1 à B ,
- calcul (c7) de la densité de sonie moyenne SU(m) de la trame d'indice m à partir desdites B valeurs de densités de sonie SU(m,b), selon l'équation suivante :
10. Procédé selon l'une quelconque des revendications 1 à 9,
caractérisé en ce que, dans l'étape de calcul (a3, b3, a4, b4) de densités de sonie et de coefficients
de tonalité, le calcul du coefficient de tonalité α(m) d'une trame d'indice m quelconque
d'un signal audio donné u, comprend les étapes suivantes :
- fenêtrage (c1), par exemple de type Hanning, de la trame d'indice m et obtention
d'une trame fenêtrée u_w[m],
- application (c2) d'une transformée de Fourier rapide à la trame fenêtrée u_w[m]
et obtention d'une trame correspondante U(m,f) dans le domaine fréquentiel,
- calcul (c3) de la densité spectrale de puissance γU(m,f) de la trame U(m,f),
- calcul (c8) du coefficient de tonalité α(m) selon l'équation suivante:
où * symbolise l'opérateur de multiplication dans l'espace des nombres réels, f représente
l'indice fréquentiel de la densité spectrale de puissance, et N désigne la taille
de la transformée de Fourier rapide.
11. Equipement de test destiné à évaluer une note objective de la gêne due au bruit dans
un signal audio, caractérisé en ce qu'il comporte des moyens adaptés à mettre en oeuvre un procédé selon l'une quelconque
des revendications 1 à 10.
12. Equipement de test selon la revendication 11, caractérisé en ce qu'il inclut des moyens informatiques et un programme d'ordinateur, ledit programme comportant
des instructions adaptées à mettre en oeuvre ledit procédé, lorsqu'il est exécuté
par lesdits moyens informatiques.
13. Programme d'ordinateur sur un support d'informations, caractérisé en ce qu'il comporte des instructions adaptées à la mise en oeuvre d'un procédé selon l'une
quelconque des revendications 1 à 10, lorsque le programme est chargé et exécuté dans
un système informatique.
1. Method of calculating an objective score (NOB) of the nuisance caused by noise in
an audio signal processed by a noise-reducing function, said method comprising a preliminary
step of obtaining a predefined test audio signal (x[m]) containing a wanted signal
without any noise, a noise-affected signal (xb[m]), obtained by adding a predefined
noise signal to said test signal (x[m]), and a processed signal (y[m]), obtained by
application of the noise-reducing function to said noise-affected signal (xb[m]),
said method being
characterized in that it includes a step (a3, a4):
- of calculating loudness densities of frames of said noise-affected signal (xb[m])
and of said processed signal (y[m]), said loudness densities for any frame m of a
given signal u[m] being obtained from the spread spectral density on the Barks scale,
EU(m, b), of the signal u[m], by an operation of calibrating the spread spectral density
by respective power and loudness grading factors, followed by a conversion operation
on the phons scale and on the sones scale; and
- of calculating tone coefficients of frames of said processed signal (y[m]), the
tone coefficient, α(m), of any frame of index m of a given signal u[m] being calculated
according to the following equation:
in which γ
U(m, f) designates the power spectral density obtained for any frame m of the signal
u[m].
2. Method according to Claim 1,
characterized in that it comprises the steps of:
- calculation (a3) of average loudness densities SY(m) of frames of the processed signal (y[m]), of respective average loudness densities
SXb(m_speech) and SY(m_speech) of frames of wanted signal "m_speech" respectively of the noise-affected
signal (xb[m]) and of the processed signal (y[m]), of average loudness densities SY(m_noise) of noise frames "m_noise" of the processed signal (y[m]), and of tone coefficients
αy(m_noise) of noise frames "m_noise" of the processed signal (y[m]),
- calculation (a5, a6) of an objective score (NOB) of the nuisance due to the noise
in the processed signal (y[m]), from said average loudness densities and said calculated
tone coefficients, and of predefined weighting coefficients.
3. Method according to Claim 2,
characterized in that the step (a3) of calculating average loudness densities and tone coefficients is
followed by a step (a4) of calculating the averages S
Y, S
Xb_speech, S
Y_speech, S
Y_noise and α
Y_noise of said average loudness densities and of said tone coefficients over all the
relevant frames of the corresponding signals, and
in that the objective score (NOB) of the nuisance due to the noise is calculated according
to the following equation:
in which
factor (3) = standard_deviation (S
Xb (m_speech)-S
Y(m_speech)), the operator "standard_deviation (v(m))" designating the standard deviation
of the variable v over all the frames of index m,
factor (4) = α
Y_noise,
factor (5) = standard_deviation(α
Y(m_noise)),
and the coefficients ω
1 to ω
6 are determined in such a way as to obtain a maximum correlation between the subjective
data obtained from a subjective test database and the objective scores (NOB) calculated
by said method for the corresponding test, noise-affected and processed signals (x[m],
xb[m], y[m]) used on said subjective tests.
4. Method of calculating an objective score (NOB) of the nuisance due to the noise in
an audio signal, said method comprising a preliminary step of obtaining a predefined
test audio signal (x[m]) containing a wanted signal without noise, and a noise-affected
signal (xb[m]), obtained by adding a predefined noise signal to said test signal (x[m]),
said method being
characterized in that it includes a step (b3, b4):
- of calculating loudness densities of frames of said noise-affected signal (xb[m]),
said loudness densities for any frame m of a given signal u[m] being obtained from
the spread spectral density on the Barks scale, EU(m, b), of the signal u[m], by an operation for calibrating the spread spectral density
by respective power and loudness grading factors, followed by a conversion operation
on the phons scale and on the sones scale; and
- of calculating tone coefficients of frames of said noise-affected signal (xb[m]),
the tone coefficient, α(m), of any frame of index m of a given signal u[m] being calculated
according to the following equation:
in which γ
U(m,f) designates the power spectral density obtained for any frame m of the signal
u[m].
5. Method according to Claim 4,
characterized in that it comprises the steps of:
- calculating (b3) average loudness densities SXb(m) of frames of the noise-affected signal (xb[m]), average loudness densities SXb(m_speech) of frames of wanted signal "m_speech" of the noise-affected signal (xb[m]),
average loudness densities SXb(m_noise) of noise frames "m_noise" of the noise-affected signal (xb[m]) and tone
coefficients αXb(m_noise) of noise frames "m_noise" of the noise-affected signal (xb[m]),
- calculating (b5, b6) an objective score (NOB) of the nuisance due to the noise in
the noise-affected signal (xb[m]), from said average loudness densities and from said
calculated tone coefficients, and predefined weighting coefficients.
6. Method according to Claim 5,
characterized in that the step (b3) of calculating average loudness densities and tone coefficients is
followed by a step (b4) of calculating the averages S
Xb, S
Xb_speech, S
Xb_noise and α
Xb_noise of said average loudness densities and of said tone coefficients over all the
relevant frames of the corresponding signals, and
in that said objective score (NOB) of the nuisance due to the noise is calculated according
to the following equation:
in which
factor (3) = α
Xb_noise,
factor (4) = standard_deviation (α
Xb(m_noise)), the operator "standard_deviation (v(m))" designating the standard deviation
of the variable v over all the frames of index m,
and the coefficients ω
1 to ω
5 are determined in such a way as to obtain a maximum correlation between the subjective
data obtained from a subjective test database and the objective scores (NOB) calculated
by said method for the test signals and the corresponding noise-affected signals (x[m],
xb[m]) used on said subjective tests.
7. Method according to any one of Claims 1 to 6, characterized in that said step (a3, b3, a4, b4) of calculating loudness densities and tone coefficients
is preceded by a step (a2, b2) of detecting voice activity on the test signal, so
as to determine whether a current frame of index m of the noise-affected signal (xb[m]),
and of the processed signal (y[m]) in the case of Claims 1 to 3, is a frame "m_noise"
containing only noise, or a frame "m_speech" containing speech, called wanted signal
frame.
8. Method according to any one of Claims 1 to 7,
characterized in that the step (a6, b6) of calculating the objective score (NOB) is followed by a step
(a7, b7) of calculating an objective score on the MOS scale (NOB_MOS) of the nuisance
due to the noise, calculated according to the following equation:
in which the coefficients λ
1 to λ
4 are determined in such a way that said new objective score obtained (NOB_MOS) characterizes
the nuisance due to the noise on the MOS scale.
9. Method according to any one of Claims 1 to 8,
characterized in that, in the step (a3, b3, a4, b4) of calculating loudness densities and tone coefficients,
the calculation of the average loudness density
SU(m) of any frame of index m of a given audio signal u, comprises the following steps:
- windowing (c1), for example by the Hanning method, the frame of index m and obtaining
a windowed frame u_w[m],
- applying (c2) a fast Fourier transform to the windowed frame u_w[m] and obtaining
a corresponding frame U(m, f) in the frequency domain,
- calculating (c3) the power spectral density (γU(m,f) of the frame U(m,f),
- applying (c4) to the power spectral density γU(m,f) a conversion of the axis of the frequencies to the Barks scale and obtaining
a power spectral density BU(m, b) on the Barks scale,
- convoluting (c5) the power spectral density on the Barks scale, BU(m, b), with the spreading function commonly used in psycho-acoustics and obtaining
a spread spectral density on the Barks scale, EU(m,b),
- calibrating (c6) the spread spectral density on the Barks scale, EU(m, b), by the respective power grading and loudness grading factors commonly used
in psycho-acoustics, converting the duly obtained quantity to the phons scale then
converting the quantity previously converted into phons to the sones scale, and consequently
obtaining a number B of loudness density values, SU(m, b), of the frame of index m for the critical band b, B being the number of critical
bands concerned in the Barks scale and the index b varying from 1 to B,
- calculating (c7) the average loudness density SU(m) of the frame of index m from said B loudness density values SU(m, b), according to the following equation:
10. Method according to any one of Claims 1 to 9,
characterized in that, in the step (a3, b3, a4, b4) of calculating loudness densities and tone coefficients,
the calculation of the tone coefficient α(m) of any frame of index m of a given audio
signal u comprises the following steps:
- windowing (c1), for example by the Hanning method, the frame of index m and obtaining
a windowed frame u_w[m],
- applying (c2) a fast Fourier transform to the windowed frame u_w[m] and obtaining
a corresponding frame U(m,f) in the frequency domain,
- calculating (c3) the power spectral density γU(m,f) of the frame U(m,f),
- calculating (c8) the tone coefficient α(m) according to the following equation:
in which * symbolizes the multiplication operator in the space of the real numbers,
f represents the frequency index of the power spectral density and N designates the
size of the fast Fourier transform.
11. Test equipment intended to assess an objective score of the nuisance due to the noise
in an audio signal, characterized in that it comprises means suitable for implementing a method according to any one of Claims
1 to 10.
12. Test equipment according to Claim 11,
characterized in that it includes computer means and a computer program, said program comprising instructions
suitable for implementing said method, when it is run by said computer means.
13. Computer program on a computer medium, characterized in that it comprises instructions suitable for implementing a method according to any one
of Claims 1 to 10, when the program is loaded and run in a computer system.
1. Verfahren zur Berechnung einer objektiven Note (NOB) der Beeinträchtigung aufgrund
des Rauschens in einem Audiosignal, das durch eine Rauschreduzierungsfunktion bearbeitet
wird, wobei das Verfahren einen vorhergehenden Schritt des Erhalts eines vordefinierten
Test-Audiosignals (x[m]), das ein rauschfreies Nutzsignal enthält, eines verrauschten
Signals (xb[m]), das durch Anlegen eines vordefinierten Rauschsignals an das Testsignal
(x[m]) erhalten wird, und eines bearbeiteten Signals (y[m]) enthält, das durch Anwenden
der Rauschreduzierungsfunktion an das verrauschte Signal (xb[m]) erhalten wird, wobei
das Verfahren
dadurch gekennzeichnet ist, dass es einen Schritt (a3, a4) umfasst:
- der Berechnung von Lautheitsdichten von Rahmen des verrauschten Signals (xb[m])
und des bearbeiteten Signals (y[m]), wobei die Lautheitsdichten für einen beliebigen
Rahmen m eines gegebenen Signals u[m] ausgehend von der gespreizten Spektraldichte
auf der Bark-Skala, EU(m,b), des Signals u[m], durch einen Vorgang der Kalibrierung der gespreizten Spektraldichte
durch Leistungs- bzw. Lautheitsabstufungsfaktoren, gefolgt von einem Vorgang der Umwandlung
auf der Phon-Skala und der Sone-Skala erhalten werden; und
- der Berechnung von Tonalitätskoeffizienten von Rahmen des bearbeiteten Signals (y[m]),
wobei der Tonalitätskoeffizient, α(m), eines Rahmens mit einem beliebigen Index m
eines gegebenen Signals u[m] gemäß der folgenden Gleichung berechnet wird:
wobei γ
U(m,f) die spektrale Leistungsdichte bezeichnet, die für einen beliebigen Rahmen m
des Signals u[m] erhalten wird.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, dass es die Schritte aufweist:
- der Berechnung (a3) von mittleren Lautheitsdichten SY(m) von Rahmen des bearbeiteten Signals (y[m]), von mittleren Lautheitsdichten SXb(m_Sprache) bzw. SY(m_Sprache) von Nutzsignalrahmen "m_Sprache" des verrauschten Signals (xb[m]) bzw.
des bearbeiteten Signals (y[m]), von mittleren Lautheitsdichten SY(m_Rauschen) von Rauschrahmen "m Rauschen" des bearbeiteten Signals (y[m]), und von
Tonalitätskoeffizienten αY(m_Rauschen) von Rauschrahmen "m_Rauschen" des bearbeiteten Signals (y[m]),
- der Berechnung (a5, a6) einer objektiven Note (NOB) der Beeinträchtigung aufgrund
des Rauschens im bearbeiteten Signal (y[m]) ausgehend von den berechneten mittleren
Lautheitsdichten und Tonalitätskoeffizienten, und von vordefinierten Gewichtungskoeffizienten.
3. Verfahren nach Anspruch 2,
dadurch gekennzeichnet, dass auf den Schritt der Berechnung (a3) von mittleren Lautheitsdichten und von Tonalitätskoeffizienten
ein Schritt der Berechnung (a4) der Mittelwerte S
Y, S
Xb_Sprache, S
Y_Sprache, S
Y_Rauschen und α
Y_Rauschen der mittleren Lautheitsdichten und der Tonalitätskoeffizienten über die Gesamtheit
der betroffenen Rahmen der entsprechenden Signale folgt, und dass die objektive Note
(NOB) der Beeinträchtigung aufgrund des Rauschens gemäß der folgenden Gleichung berechnet
wird:
wobei gilt
Faktor(3)=Standardabweichung (S
Xb(m_Sprache)-S
Y(m_Sprache), wobei der Operator "Standardabweichung(v(m))" die Standardabweichung
der Variablen v bezüglich der Gesamtheit der Rahmen mit dem Index m bezeichnet,
Faktor(4)=α
Y_Rauschen,
Faktor(5)=Standardabweichung(α
Y(m_Rauschen)), und die Koeffizienten ω
1 bis ω
6 derart bestimmt werden, dass eine maximale Korrelation zwischen den subjektiven Daten,
die von einer Datenbank von subjektiven Tests stammen, und den objektiven Noten (NOB)
erhalten wird, die durch das Verfahren für die entsprechenden Testsignale, verrauschten
und bearbeiteten Signale (x[m], xb[m], y[m]) berechnet werden, die bei den subjektiven
Tests verwendet werden.
4. Verfahren zur Berechnung einer objektiven Note (NOB) der Beeinträchtigung aufgrund
des Rauschens in einem Audiosignal, wobei das Verfahren einen vorhergehenden Schritt
des Erhalts eines vordefinierten Test-Audiosignals (x[m]), das ein rauschfreies Nutzsignal
enthält, und eines verrauschten Signals (xb[m]) enthält, das durch Hinzufügen eines
vordefinierten Rauschsignals zum Testsignal (x[m]) erhalten wird, wobei das Verfahren
dadurch gekennzeichnet ist, dass es einen Schritt (b3, b4) umfasst:
- der Berechnung von Lautheitsdichten von Rahmen des verrauschten Signals (xb[m]),
wobei die Lautheitsdichten für einen beliebigen Rahmen m eines gegebenen Signals u[m]
ausgehend von der gespreizten Spektraldichte auf der Bark-Skala, EU(m,b), des Signals u[m], durch einen Vorgang der Kalibrierung der gespreizten Spektraldichte
durch Leistungs- bzw. Lautheitsabstufungsfaktoren, gefolgt von einem Vorgang der Umwandlung
auf der Phon-Skala und der Sone-Skala erhalten werden; und
- der Berechnung von Tonalitätskoeffizienten von Rahmen des verrauschten Signals (xb[m]),
wobei der Tonalitätskoeffizient, α(m), eines beliebigen Rahmens mit dem Index m eines
gegebenen Signals u[m] gemäß der folgenden Gleichung berechnet wird:
wobei γ
U(m,f) die spektrale Leistungsdichte bezeichnet, die für einen beliebigen Rahmen m
des Signals u[m] erhalten wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet, dass es die Schritte aufweist:
- der Berechnung (b3) von mittleren Lautheitsdichten SXb(m) von Rahmen des verrauschten Signals (xb[m]), von mittleren Lautheitsdichten SXb(m_Sprache) von Nutzsignalrahmen "m_Sprache" des verrauschten Signals (xb[m]), von
mittleren Lautheitsdichten SXb(m_Rauschen) von Rauschrahmen "m_Rauschen" des verrauschten Signals (xb[m]), und von
Tonalitätskoeffizienten αXb(m_Rauschen) von Rauschrahmen "m_Rauschen" des verrauschten Signals (xb[m]),
- der Berechnung (b5, b6) einer objektiven Note (NOB) der Beeinträchtigung aufgrund
des Rauschens im verrauschten Signal (xb[m]) ausgehend von den mittleren Lautheitsdichten
und den berechneten Tonalitätskoeffizienten, und von vordefinierten Gewichtungskoeffizienten.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet, dass auf den Schritt der Berechnung (b3) von mittleren Lautheitsdichten und von Tonalitätskoeffizienten
ein Schritt der Berechnung (b4) der Mittelwerte S
Xb, S
Xb_Sprache, S
Xb_Rauschen und α
Xb_Rauschen der mittleren Lautheitsdichten und der Tonalitätskoeffizienten über die Gesamtheit
der betroffenen Rahmen der entsprechenden Signale folgt, und dass die objektive Note
(NOB) der Beeinträchtigung aufgrund des Rauschens gemäß der folgenden Gleichung berechnet
wird:
wobei gilt
Faktor (3)=α
Xb_Rauschen,
Faktor (4) =Standardabweichung (α
Xb(m_Rauschen)),
wobei der Operator "Standardabweichung(v(m))" die Standardabweichung der Variablen
v bezüglich der Gesamtheit der Rahmen mit dem Index m bezeichnet, und die Koeffizienten
ω
1 bis ω
5 derart bestimmt werden, dass eine maximale Korrelation zwischen den subjektiven Daten,
die aus einer Datenbank von subjektiven Tests stammen, und den objektiven Noten (NOB)
erhalten wird, die durch das Verfahren für die entsprechenden Testsignale und die
verrauschten Signale (x[m], xb[m]) berechnet werden, die bei den subjektiven Tests
verwendet werden.
7. Verfahren nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet, dass vor dem Schritt der Berechnung (a3, b3, a4, b4) von Lautheitsdichten und von Tonalitätskoeffizienten
ein Schritt (a2, b2) der Erfassung einer Sprachaktivität im Testsignal liegt, um festzustellen,
ob ein laufender Rahmen mit dem Index m des verrauschten Signals (xb[m]), und des
bearbeiteten Signals (y[m]) im Fall der Ansprüche 1 bis 3, ein Rahmen "m_Rauschen",
der nur Rauschen enthält, oder ein Rahmen "m_Sprache" ist, der Sprache enthält, Nutzsignalrahmen
genannt.
8. Verfahren nach einem der Ansprüche 1 bis 7,
dadurch gekennzeichnet, dass auf den Schritt der Berechnung (a6, b6) der objektiven Note (NOB) ein Schritt der
Berechnung (a7, b7) einer objektiven Note auf der MOS-Skala (NOB_MOS) der Beeinträchtigung
aufgrund des Rauschens folgt, die gemäß der folgenden Gleichung berechnet wird:
in der die Koeffizienten λ
1 bis λ
4 so bestimmt werden, dass die erhaltene neue objektive Note (NOB_MOS) die Beeinträchtigung
aufgrund des Rauschens auf der MOS-Skala kennzeichnet.
9. Verfahren nach einem der Ansprüche 1 bis 8,
dadurch gekennzeichnet, dass im Schritt der Berechnung (a3, b3, a4, b4) von Lautheitsdichten und von Tonalitätskoeffizienten
die Berechnung der mittleren Lautheitsdichte S
U(m) eines beliebigen Rahmens mit dem Index m eines gegebenen Audiosignals u die folgenden
Schritte enthält:
- Fensterung (c1), zum Beispiel vom Typ Hanning, des Rahmens mit dem Index m und Erhalt
eines gefensterten Rahmens u_w[m],
- Anwendung (c2) einer schnellen Fourier-Transformation an den gefensterten Rahmen
u_w[m] und Erhalt eines entsprechenden Rahmens U(m,f) im Frequenzbereich,
- Berechnung (c3) der spektralen Leistungsdichte γU(m,f) des Rahmens U(m,f),
- Anwendung (c4) an die spektrale Leistungsdichte γU(m,f) einer Umwandlung der Frequenzachse auf die Bark-Skala und Erhalt einer spektralen
Leistungsdichte BU(m,b) auf der Bark-Skala,
- Faltung (c5) der spektralen Leistungsdichte auf die Bark-Skala, BU(m,b), mit der Spreizfunktion, die üblicherweise in der Psychoakustik verwendet wird,
und Erhalt einer gespreizten Spektraldichte auf der Bark-Skala, EU(m,b),
- Kalibrierung (c6) der gespreizten Spektraldichte auf der Bark-Skala, EU(m,b), durch die in der Psychoakustik üblicherweise verwendeten Leistungsabstufungs-
bzw. Lautheitsabstufungsfaktoren, Umwandlung der so erhaltenen Größe auf die Phon-Skala
und dann Umwandlung auf die Sone-Skala der vorher in Phone umgewandelten Größe, und
folglich Erhalt einer Anzahl B von Lautheitsdichtewerten, SU(m,b), des Rahmens mit dem Index m für das kritische Band b, wobei B die Anzahl von
betrachteten kritischen Bändern in der Bark-Skala ist und der Index b von 1 bis B
variiert,
- Berechnung (c7) der mittleren Lautheitsdichte SU(m) des Rahmens mit dem Index m ausgehend von den B Lautheitsdichtewerten SU(m,b) gemäß der folgenden Gleichung:
10. Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet, dass im Schritt der Berechnung (a3, b3, a4, b4) von Lautheitsdichten und von Tonalitätskoeffizienten
die Berechnung des Tonalitätskoeffizienten α(m) eines beliebigen Rahmens mit dem Index
m eines gegebenen Audiosignals u die folgenden Schritte aufweist:
- Fensterung (c1), zum Beispiel vom Typ Hanning, des Rahmens mit dem Index m und Erhalt
eines gefensterten Rahmens u_w[m],
- Anwendung (c2) einer schnellen Fourier-Transformation an den gefensterten Rahmen
u w[m] und Erhalt eines entsprechenden Rahmens U(m,f) im Frequenzbereich,
- Berechnung (c3) der spektralen Leistungsdichte γU(m,f) des Rahmens U(m,f),
- Berechnung (c8) des Tonalitätskoeffizienten α(m) gemäß der folgenden Gleichung:
wobei * den Multiplikationsoperator im Raum der reellen Zahlen symbolisiert, f den
Frequenzindex der spektralen Leistungsdichte darstellt, und N die Größe der schnellen
Fourier-Transformation bezeichnet.
11. Testausrüstung, die dazu bestimmt ist, eine objektive Note der Beeinträchtigung aufgrund
des Rauschens in einem Audiosignal zu bewerten, dadurch gekennzeichnet, dass sie Einrichtungen aufweist, die geeignet sind, um ein Verfahren nach einem der Ansprüche
1 bis 10 durchzuführen.
12. Testausrüstung nach Anspruch 11, dadurch gekennzeichnet, dass sie EDV-Einrichtungen und ein Computerprogramm umfasst, wobei das Programm Anweisungen
enthält, die geeignet sind, um das Verfahren durchzuführen, wenn es von den EDV-Einrichtungen
ausgeführt wird.
13. Computerprogramm auf einem Datenträger, dadurch gekennzeichnet, dass es Anweisungen enthält, die für die Durchführung eines Verfahrens nach einem der
Ansprüche 1 bis 10 geeignet sind, wenn das Programm in ein EDV-System geladen und
dort ausgeführt wird.