DOMAINE TECHNIQUE
[0001] L'invention concerne un procédé de suppression de la réverbération tardive d'un signal
sonore. L'invention est plus particulièrement, mais non exclusivement, adaptée au
domaine du traitement de la réverbération dans un espace fermé.
ÉTAT DE LA TECHNIQUE
[0002] La figure 1 montre une source sonore omnidirectionnelle 100 positionnée dans un espace
fermé 110, tel qu'un véhicule automobile ou une salle, ainsi qu'un microphone 120.
Un signal sonore émis par la source sonore omnidirectionnelle 100 se propage dans
toutes les directions. Ainsi, le signal observé au niveau du microphone est formé
par la superposition de plusieurs versions retardées et atténuées du signal sonore
émis par la source sonore omnidirectionnelle 100. En effet, le microphone 120 capte
tout d'abord le signal source 130, encore appelé signal direct 130, mais également
des signaux réfléchis 140 sur les parois de l'espace fermé 110. Les différents signaux
réfléchis 140 ont parcouru des chemins acoustiques de différentes longueurs et ont
été atténués par l'absorption des parois de l'espace fermé 110, la phase et l'amplitude
des signaux réfléchis 140 captés par le microphone 120 sont donc différentes.
[0003] Deux types de réflexions existent, les réflexions précoces et la réverbération tardive.
Le microphone 120 capte les signaux de réflexion précoce avec un faible retard par
rapport au signal source 130, de l'ordre de zéro milliseconde à cinquante millisecondes.
Lesdits signaux de réflexion précoce sont séparés temporellement et spatialement du
signal source 130, mais l'oreille humaine ne perçoit pas ces signaux de réflexion
précoce et le signal source 130 séparément grâce à un effet dit «effet de précédence
». Dans le cas où le signal sonore émis par la source sonore omnidirectionnelle 100
est un signal de parole, l'intégration temporelle des signaux de réflexion précoce
par l'oreille humaine permet de mettre en relief certaines caractéristiques de la
parole, ce qui favorise l'intelligibilité du signal sonore.
[0004] Selon la taille de la salle, la frontière entre les réflexions précoces et la réverbération
tardive est comprise entre cinquante millisecondes et quatre-vingt millisecondes.
La réverbération tardive comprend de nombreux signaux réfléchis rapprochés dans le
temps et donc impossibles à séparer. L'ensemble de ces signaux réfléchis est donc
considéré dans un cadre probabiliste comme une distribution aléatoire dont la densité
augmente avec le temps. Dans le cas où le signal sonore émis par la source sonore
omnidirectionnelle 100 est un signal de parole, la réverbération tardive dégrade la
qualité dudit signal sonore et son intelligibilité. Ladite réverbération tardive affecte
également les performances de systèmes de reconnaissance de la parole et de séparation
de sources sonores.
[0005] Selon l'art antérieur, un premier procédé dit « par filtrage inverse » cherche à
identifier la réponse impulsionnelle de l'espace fermé 110 pour ensuite construire
un filtre inverse permettant de compenser les effets de la réverbération au niveau
du signal sonore.
[0006] Ce type de procédé est par exemple décrit dans les publications scientifiques suivantes
:
« BWGillespie, H S Malvar, and D A F Florêncio, Speech dereverberation via maximum-kurtosis
subband adaptive filtering, Proc. International Conference on Acoustics, Speech, and
Signal Processing, volume 6 of ICASSP '01, pages 3701-3704. IEEE, 2001 », « M Wu and D L Wang. A two-stage algorithm for one-microphone reverberant speech enhancement,
Audio, Speech, and Language Processing, IEEE Transactions on, 14(3) :774-784, 2006 », « Saeed Mosayyebpour, Abolghasem Sayyadiyan, Mohsen Zareian, and Ali Shahbazi, Single
Channel Inverse Filtering of Room Impulse Response by Maximizing Skewness of LP Residual. ».
[0007] Ce procédé exploite dans le domaine temporel des distorsions introduites par la réverbération
sur des paramètres d'un modèle de prédiction linéaire du signal sonore. Partant de
l'observation que la réverbération modifie surtout le résiduel du modèle de prédiction
linéaire du signal sonore, un filtre maximisant les moments d'ordre supérieur dudit
résiduel est construit. Ce procédé est adapté pour des réponses impulsionnelles courtes
et est surtout utilisé pour compenser les signaux de réflexion précoce.
[0008] Cependant, ce procédé suppose que la réponse impulsionnelle de l'espace fermé 110
est invariante dans le temps. De plus, ce procédé ne modélise pas la réverbération
tardive. Ledit procédé doit ainsi être combiné à un autre procédé traitant la réverbération
tardive. Ces deux procédés combinés nécessitent de nombreuses itérations avant d'obtenir
une convergence, de sorte que lesdits procédés ne peuvent être mis en oeuvre pour
une application en temps réel. En outre, le filtrage inverse introduit des artéfacts
tels que des pré-échos, qui doivent ensuite être compensés.
[0009] Un deuxième procédé dit « cepstral » vise à séparer l'effet de l'espace fermé 110
et du signal sonore dans le domaine cepstral. En effet, la réverbération modifie la
moyenne et la variance des cepstres des signaux réfléchis par rapport à la moyenne
et la variance des cepstres du signal source 130. Ainsi, lorsque la moyenne et la
variance des cepstres sont normalisées, la réverbération est atténuée.
[0011] Ce procédé est particulièrement utile pour des problèmes de reconnaissance vocale
puisque les bases de données de référence des systèmes de reconnaissance peuvent également
être normalisées pour se rapprocher des signaux captés par le microphone 120. Cependant,
les effets de l'espace fermé 110 et du signal sonore ne sont pas complètement séparables
dans le domaine cepstral. La mise en oeuvre du procédé provoque donc une distorsion
du timbre du signal sonore émis par la source sonore omnidirectionnelle 100. En outre,
ce procédé traite les réflexions précoces plutôt que la réverbération tardive.
[0012] Un troisième procédé dit « par estimation de la densité spectrale de puissance de
la réverbération tardive » permet d'établir un modèle paramétrique de la réverbération
tardive.
[0014] Selon ce troisième procédé, une estimation de la densité spectrale de puissance de
la réverbération tardive permet de construire un filtre de soustraction spectrale
pour la déréverbération. La soustraction spectrale introduit des artéfacts, comme
du bruit musical mais lesdits artéfacts peuvent être limités en appliquant des schémas
de filtrage plus complexes, utilisés par des procédés de débruitage.
[0015] Cependant, un paramètre important pour estimer la densité spectrale de puissance
de la réverbération tardive dans le cadre de ce troisième procédé est le temps de
réverbération. Or, le temps de réverbération est un paramètre difficile à estimer
avec précision. L'estimation du temps de réverbération est faussée par le bruit de
fond et d'autres signaux sonores qui interfèrent. En outre, cette estimation du temps
de réverbération est chronophage et donc allonge le temps d'exécution.
[0016] Un quatrième procédé exploite la parcimonie des signaux de parole dans le plan temps/fréquence.
[0018] Dans cette publication, la réverbération tardive est modélisée comme une version
retardée et atténuée de l'observation courante dont le facteur d'atténuation est déterminé
par résolution d'un problème de maximum de vraisemblance, avec une contrainte de parcimonie.
[0020] La déréverbération est abordée dans cette publication comme un problème de déconvolution
par factorisation en matrices non négatives, ce qui permet de séparer la réponse de
l'espace fermé 110 et le signal sonore. Cependant, ce procédé introduit beaucoup de
bruit et de distorsions. En outre, ledit procédé dépend de l'initialisation des matrices
pour la factorisation.
[0021] De plus, les procédés cités nécessitent une pluralité de microphones pour traiter
avec précision la réverbération.
EXPOSÉ DE L'INVENTION
[0022] L'invention a notamment pour but de résoudre tout ou partie des problèmes susmentionnés.
[0023] A cette fin, l'invention concerne un procédé de suppression de la réverbération tardive
d'un signal sonore caractérisé en ce qu'il comporte les étapes suivantes :
- captation d'un signal d'entrée formé par la superposition de plusieurs versions retardées
et atténuées du signal sonore,
- application d'une transformation temps-fréquence au signal d'entrée afin d'obtenir
une transformée temps-fréquence complexe du signal d'entrée,
- calcul d'une pluralité de vecteurs de prédiction,
- création d'une pluralité de vecteurs d'observation à partir du module de la transformée
temps-fréquence complexe du signal d'entrée,
- construction d'une pluralité de dictionnaires de synthèse à partir de la pluralité
de vecteurs d'observations,
- estimation d'un spectre de réverbération tardive à partir de la pluralité de dictionnaires
de synthèse et de la pluralité de vecteurs de prédiction,
- filtrage de la pluralité de vecteurs d'observations afin d'éliminer le spectre de
réverbération tardive et d'obtenir un module de signal déréverbéré.
[0024] Ainsi, le procédé objet de l'invention est rapide et présente une complexité réduite.
Ledit procédé est donc utilisable en temps réel. De plus, ce procédé n'introduit pas
d'artéfacts et est robuste au bruit de fond. En outre, ledit procédé réduit le bruit
de fond et est compatible avec des procédés de réduction de bruit.
[0025] L'invention peut être mise en oeuvre selon les modes de réalisation avantageux exposés
ci-après, lesquels peuvent être considérés individuellement ou selon toute combinaison
techniquement opérante.
[0026] Avantageusement, le procédé comporte en outre les étapes suivantes :
- création d'un module sous échantillonné en fréquence à partir du module de la transformée
temps-fréquence complexe du signal d'entrée,
- création d'une pluralité de vecteurs d'observation sous échantillonnés à partir dudit
module sous échantillonné en fréquence,
- construction d'une pluralité de dictionnaires d'analyse à partir de la pluralité de
vecteurs d'observation sous échantillonnés,
- calcul de la pluralité de vecteurs de prédiction à partir de la pluralité de vecteurs
d'observation sous échantillonnés et de la pluralité de dictionnaires d'analyse.
[0027] Avantageusement, l'étape de calcul de la pluralité de vecteurs de prédiction est
effectuée en minimisant, pour chaque vecteur de prédiction, l'expression ∥
X̃v - Daα∥
2, qui est la norme euclidienne de la différence entre le vecteur d'observation sous
échantillonné associé audit vecteur de prédiction et du dictionnaire d'analyse associé
audit vecteur de prédiction multiplié par ledit vecteur de prédiction, en tenant compte
de la contrainte ∥
α∥
1 ≤
λ, selon laquelle la norme 1 dudit vecteur de prédiction est inférieure ou égale à
un paramètre d'intensité maximale de la réverbération tardive.
[0028] Avantageusement, la valeur du paramètre d'intensité maximale de la réverbération
tardive est comprise entre 0 et 1.
[0029] Avantageusement, le procédé comporte en outre l'étape suivante :
- création d'un signal complexe déréverbéré à partir du module de signal déréverbéré
et de la phase de la transformée temps-fréquence complexe du signal d'entrée.
[0030] Avantageusement, le procédé comporte en outre l'étape suivante :
- application d'une transformation fréquence-temps au signal complexe déréverbéré afin
d'obtenir un signal temporel déréverbéré.
[0031] Avantageusement, le procédé comporte en outre une étape de construction d'un filtre
de déréverbération selon le modèle

où
ξ est le rapport signal à bruit a priori, et où la borne d'intégration
υ est calculée selon le modèle

où
γ est le rapport signal à bruit a postériori.
[0032] L'invention concerne également un dispositif de suppression de la réverbération tardive
d'un signal sonore caractérisé en ce qu'il comporte des moyens pour :
- capter un signal d'entrée formé par la superposition de plusieurs versions retardées
et atténuées du signal sonore,
- appliquer une transformation temps-fréquence au signal d'entrée afin d'obtenir une
transformée temps-fréquence complexe du signal d'entrée,
- calculer une pluralité de vecteurs de prédiction,
- créer une pluralité de vecteurs d'observation à partir du module de la transformée
temps-fréquence complexe du signal d'entrée,
- construire une pluralité de dictionnaires de synthèse à partir de la pluralité de
vecteurs d'observations,
- estimer un spectre de réverbération tardive à partir de la pluralité de dictionnaires
de synthèse et de la pluralité de vecteurs de prédiction,
- filtrer la pluralité de vecteurs d'observations afin d'éliminer le spectre de réverbération
tardive et d'obtenir un module de signal déréverbéré.
PRÉSENTATION DES FIGURES
[0033] L'invention sera mieux comprise à la lecture de la description suivante, donnée à
titre d'exemple nullement limitatif, et faite en se référant aux figures qui représentent
:
- Figure 1 (déjà décrite) : une représentation schématique d'une source sonore omnidirectionnelle
et d'un microphone positionnés dans un espace fermé selon un exemple de réalisation
de l'invention ;
- Figure 2 : une représentation schématique d'un dispositif de déréverbération d'un
signal sonore selon un exemple de réalisation de l'invention ;
- Figure 3 : une représentation schématique d'une unité de déréverbération d'un dispositif
de déréverbération d'un signal sonore selon un exemple de réalisation de l'invention
;
- Figure 4 : une représentation schématique d'une unité d'estimation de la réverbération
tardive d'un dispositif de déréverbération d'un signal sonore selon un exemple de
réalisation de l'invention ;
- Figure 5 : une représentation schématique d'un regroupement en sous bandes d'un module
d'une transformée temps-fréquence complexe d'un signal d'entrée selon un exemple de
réalisation de l'invention ;
- Figure 6 : une représentation schématique d'une unité de calcul de vecteurs de prédiction
d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation
de l'invention ;
- Figure 7 : une représentation schématique d'une unité de calcul de vecteurs de prédiction
d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation
de l'invention ;
- Figure 8 : une représentation schématique d'une unité d'évaluation de la réverbération
d'un dispositif de déréverbération d'un signal sonore selon un exemple de réalisation
de l'invention ;
- Figure 9 : un diagramme fonctionnel montrant différentes étapes du procédé selon un
exemple de réalisation de l'invention.
[0034] Dans ces figures, des références identiques d'une figure à une autre désignent des
éléments identiques ou analogues. Pour des raisons de clarté, les éléments représentés
ne sont pas à l'échelle, sauf mention contraire.
DESCRIPTION DÉTAILLÉE DE MODES DE RÉALISATION
[0035] L'invention met en oeuvre un dispositif de déréverbération d'un signal sonore émis
par une source sonore omnidirectionnelle 100 positionnée dans un espace fermé 110,
tel qu'un véhicule automobile ou une salle, et capté par un microphone 120. Ledit
dispositif de déréverbération est inséré dans la chaîne de traitement audio d'un appareil
tel qu'un téléphone. Ce dispositif de déréverbération comporte une unité d'application
d'une transformée temps-fréquence 200, une unité de déréverbération 210 et une unité
d'application d'une transformée fréquence-temps 220 (cf. figure 2). L'unité de déréverbération
210 comporte une unité d'estimation de la réverbération tardive 300 et une unité de
filtrage 310 (cf. figure 3). L'unité d'estimation de la réverbération tardive 300
comporte une unité de regroupement en sous bandes 400, une unité de calcul de vecteurs
de prédiction 410 et une unité d'évaluation de la réverbération 420 (cf. figure 4).
L'unité de calcul de vecteurs de prédiction 410 comporte une unité de construction
d'observations 700, une unité de construction de dictionnaires d'analyse 710 et une
unité de résolution du LASSO 720 (cf. figure 7). L'unité d'évaluation de la réverbération
420 comporte une unité de construction de dictionnaires de synthèse 800 (cf. figure
8).
[0036] Dans une étape 900, un microphone 120 capte un signal d'entrée
x(
t) formé par la superposition de plusieurs versions retardées et atténuées du signal
sonore émis par la source sonore omnidirectionnelle 100. En effet, le microphone 120
capte tout d'abord le signal source 130, encore appelé signal direct 130, mais également
des signaux réfléchis 140 sur les parois de l'espace fermé 110. Les différents signaux
réfléchis 140 ont parcouru des chemins acoustiques de différentes longueurs et ont
été atténués par l'absorption des parois de l'espace fermé 110, la phase et l'amplitude
des signaux réfléchis 140 captés par le microphone 120 sont donc différentes.
[0037] Deux types de réflexions existent, les réflexions précoces et la réverbération tardive.
Le microphone 120 capte les signaux de réflexion précoce avec un faible retard par
rapport au signal source 130, de l'ordre de zéro milliseconde à cinquante millisecondes.
Lesdits signaux de réflexion précoce sont séparés temporellement et spatialement du
signal source 130 mais l'oreille humaine ne perçoit pas ces signaux de réflexion précoce
et le signal source 130 séparément grâce à un effet dit « effet de précédence ». Dans
le cas où le signal sonore émis par la source sonore omnidirectionnelle 100 est un
signal de parole, l'intégration temporelle des signaux de réflexion précoce par l'oreille
humaine permet de mettre en relief certaines caractéristiques de la parole, ce qui
favorise l'intelligibilité du signal sonore.
[0038] Le microphone 120 capte la réverbération tardive entre cinquante millisecondes et
quatre-vingts millisecondes après l'arrivée du signal source 130. La réverbération
tardive comprend de nombreux signaux réfléchis rapprochés dans le temps et donc impossibles
à séparer. L'ensemble de ces signaux réfléchis est donc considéré dans un cadre probabiliste
comme une distribution aléatoire dont la densité augmente avec le temps. Dans le cas
où le signal sonore émis par la source sonore omnidirectionnelle 100 est un signal
de parole, la réverbération tardive dégrade la qualité dudit signal sonore et son
intelligibilité. Ladite réverbération tardive affecte également les performances de
systèmes de reconnaissance de la parole et de séparation de sources sonores.
[0039] Le signal d'entrée
x(
t) est échantillonné à une fréquence d'échantillonnage
fs. Le signal d'entrée
x(
t) est ainsi subdivisé en échantillons. Afin de supprimer la réverbération tardive
dudit signal d'entrée
x(t), la densité spectrale de puissance de la réverbération tardive est estimée puis un
filtre de déréverbération est construit par l'unité de déréverbération 210. L'estimation
de la densité spectrale de puissance de la réverbération tardive, la construction
du filtre de déréverbération et l'application dudit filtre de déréverbération sont
effectués dans le domaine fréquentiel. Ainsi, dans une étape 901, une transformation
temps-fréquence est appliquée au signal d'entrée
x(
t) par l'unité d'application de la Transformée de Fourier à Court Terme 200 afin d'obtenir
une transformée temps-fréquence complexe du signal d'entrée
x(
t) notée
XC(cf. figure 2). Dans un exemple, la transformation temps-fréquence est une Transformation
de Fourier à Court Terme.
[0040] Chaque élément

de la transformée temps-fréquence complexe
XC est calculé de la façon suivante :

où k est un indice fréquentiel d'échantillonnage de valeur comprise entre 1 et un
nombre K, n est un indice temporel de valeur comprise entre 1 et un nombre N, w(m)
est une fenêtre glissante d'analyse, m est l'indice des éléments appartenant à une
trame, M est la longueur d'une trame, c'est-à-dire le nombre d'échantillons d'une
trame et R est le pas d'avancement de la transformation temps-fréquence.
[0041] Le signal d'entrée
x(
t) est analysé par trames de longueur M avec un pas d'avancement R égal à M/4 échantillons.
Pour chaque trame du signal d'entrée
x(
t) dans le domaine temporel une transformée temps-fréquence Discrète d'indice fréquentiel
d'échantillonnage k et d'indice temporel n est ainsi calculée grâce à l'algorithme
de la transformation temps-fréquence pour obtenir un signal complexe

défini par

où |
Xk,n| est le module du signal complexe

et
∠Xk,n est la phase du signal complexe

[0042] L'estimation de la densité spectrale de puissance de la réverbération tardive est
réalisée sur le module de la transformée temps-fréquence complexe du signal d'entrée
XC, noté
X. La phase du transformée temps-fréquence complexe
XC, notée
∠X est gardée en mémoire et est utilisée pour reconstruire un signal déréverbéré dans
le domaine temporel après application du filtre de déréverbération.
[0043] Le module
X de la transformée temps-fréquence complexe du signal d'entrée
XC est ensuite regroupé en sous bandes. Plus précisément, ledit module
X comporte le nombre K de lignes spectrales notées
Xk. Le terme "ligne spectrale" désigne ici tous les échantillons du module
X de la transformée temps-fréquence complexe du signal d'entrée
XC pour l'indice fréquentiel d'échantillonnage k et tous les indices temporels n. Dans
une étape 903, l'unité de regroupement en sous bandes 400 regroupe les K lignes spectrales
Xk en un nombre J de sous bandes, afin d'obtenir un module sous échantillonné en fréquence
noté
X̃ comportant un nombre J de lignes spectrales notées
X̃j, où j est un indice fréquentiel de sous échantillonnage compris entre 1 et le nombre
J. Le nombre J est inférieur au nombre K. Chaque sous bande comporte ainsi une pluralité
de lignes spectrales
Xk, l'indice fréquentiel k appartenant à un intervalle ayant une borne inférieure
bj et une borne supérieure
ej. Dans un exemple, chaque sous bande correspond à un octave afin de prendre en compte
le modèle de perception sonore de l'oreille humaine. Ensuite, dans une étape 904,
l'unité de regroupement en sous bandes 400 calcule, pour chaque sous bande, une moyenne
Mean des lignes spectrales
Xk de ladite sous bande afin d'obtenir les J lignes spectrales
X̃i du module sous échantillonné en fréquence
X̃ (cf. figure 5).
[0044] Ensuite, l'unité de calcul de vecteurs de prédiction 410 calcule pour chaque ligne
spectrale
X̃j du module sous échantillonné en fréquence
X̃ et pour chaque indice temporel n un vecteur de prédiction
αj,n (cf. figure 6). Plus précisément, dans une étape 905, l'unité de construction d'observation
700 construit, pour chaque indice temporel n et indice fréquentiel j de sous échantillonnage,
un vecteur d'observation sous échantillonné
X̃vj,n à partir de l'ensemble des échantillons
X̃j,n1:n appartenant à la j-ième ligne spectrale
X̃j du module sous échantillonné en fréquence
X̃ et compris entre les instants
n1=
n-N+1 et
n, où
n est l'indice de l'instant courant et
n-n1 est la taille de la mémoire du dispositif de déréverbération. Chaque vecteur d'observation
sous échantillonné
X̃vj,n est définit par

[0045] Chaque vecteur d'observation
X̃vj,n est de taille
N×1, où le nombre N est la longueur de l'observation. La longueur de l'observation
N est le nombre de trames de la transformation temps-fréquence nécessaires pour l'estimation
de la réverbération tardive. La longueur de l'observation N permet de définir la résolution
temporelle de l'estimation. Quand la longueur de l'observation N augmente, la complexité
du système diminue. Le sous-échantillonnage du module
X de la transformée temps-fréquence complexe du signal d'entrée
XC permet entre autre l'application du procédé en temps réel.
[0046] Dans une étape 906, l'unité de construction de dictionnaires d'analyse 710 construit
des dictionnaires d'analyse
Da. Plus précisément, pour chaque indice temporel n et indice fréquentiel de sous échantillonnage
j, un dictionnaire d'analyse

est construit en concaténant un nombre L de vecteurs d'observations passées déterminés
à l'étape 905. Le dictionnaire d'analyse

se définit ainsi comme la matrice

où L est le nombre de vecteurs d'observations passées et donc la taille du dictionnaire
d'analyse

et

est le retard du dictionnaire d'analyse

Plus précisément, le retard δ est le retard de trames entre le vecteur d'observation
courante sous échantillonné
X̃vj,n et les autres vecteurs d'observations sous échantillonnés appartenant au dictionnaire
d'analyse

Ledit retard δ permet de réduire les distorsions introduites par le procédé. Ce retard
δ permet en outre de d'améliorer la séparation de la réverbération tardive et des
réflexions précoces. Pour calculer le vecteur d'observation courante
X̃vj,n et le dictionnaire d'analyse

et donc le vecteur de prédiction
αj,n pour chaque ligne spectrale
X̃j et pour chaque indice temporel n, un nombre L+N+δ de trames doit être gardé en mémoire.
[0047] Dans une étape 907, l'unité de résolution du LASSO 720 résout un problème appelé
"LASSO" qui est de minimiser la norme euclidienne

en tenant compte de la contrainte ∥
αj,n∥ ≤
λ où
λ est un paramètre d'intensité maximale. Pour résoudre ledit problème, la meilleure
combinaison linéaire des L vecteurs du dictionnaire permettant d'approcher l'observation
courante doit être trouvée. Dans un exemple, un procédé connu, appelé LARS, selon
l'acronyme anglo-saxon de "Least Angle Regression" permet de résoudre ledit problème.
La contrainte ∥
αj,n∥
1 ≤
λ permet de privilégier les solutions ayant peu d'éléments non nuls, c'est-à-dire les
solutions parcimonieuses. Le paramètre d'intensité maximale λ permet de régler l'intensité
maximale estimée de la réverbération tardive. Ce paramètre d'intensité maximale λ
dépend
a priori de l'environnement acoustique, c'est-à-dire dans un exemple de l'espace fermé 110.
Pour chaque espace fermé 110, une valeur optimale du paramètre d'intensité maximale
λ existe. Cependant, des essais ont montré que ledit paramètre d'intensité maximale
λ peut être fixé à une valeur identique pour tous les espaces fermés 110, sans que
ladite valeur introduise de dégradations par rapport à la valeur optimale. Ainsi le
procédé fonctionne dans une grande variété d'espaces fermés 110 sans nécessiter de
réglage particulier, ce qui permet de s'affranchir des erreurs d'estimation du temps
de réverbération de l'espace fermé 110. En outre, le procédé selon l'invention ne
nécessite pas de paramètre devant être estimé, ce qui permet l'application dudit procédé
en temps réel. La valeur du paramètre d'intensité maximale λ est comprise entre 0
et 1. Dans un exemple, la valeur du paramètre d'intensité maximale λ est égale à 0,5,
ce qui est un bon compromis entre la réduction de la réverbération et la qualité globale
du procédé.
[0048] Dans une étape 908, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage
k, un vecteur d'observation courante
Xvk,n est créé à partir de l'ensemble des échantillons appartenant à la k-ième ligne spectrale
Xk du module
X de la transformée temps-fréquence complexe et compris entre les instants
n1 et
n, noté
Xk,n1:n où
n est l'indice d'instant courant et
n - n1 est la taille de la mémoire du dispositif de déréverbération. Chaque vecteur d'observation
Xvk,n est définit par la formule
Xvk,n := [
Xk,n...
Xk,n-N+1]
T, et est de taille
N × 1, où N est la longueur de l'observation.
[0049] Dans une étape 909, l'unité de construction d'un dictionnaire de synthèse 800 construit
un dictionnaire de synthèse
Ds. Plus précisément, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage
k, le dictionnaire de synthèse

est construit en concaténant un nombre L de vecteurs d'observations passées déterminés
à l'étape 908. Le dictionnaire de synthèse

se définit ainsi comme la matrice

où L et δ sont les même paramètres que pour le dictionnaire d'analyse

[0050] Dans une étape 910, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage
k, une estimation de la densité spectrale de puissance de la réverbération tardive
ou du spectre de la réverbération tardive

est construit par multiplication du dictionnaire de synthèse

avec le vecteur de prédiction
αj,n selon la formule

[0051] Le vecteur de prédiction
αj,n indique donc les colonnes du dictionnaire de synthèse qui ont été retenues pour l'estimation
de la réverbération, ainsi que la contribution de chacune d'elles à la réverbération.
Le spectre de la réverbération tardive
Xℓ est considéré dans la suite du procédé comme un signal de bruit à éliminer.
[0052] A cette fin, un filtrage de la réverbération est effectué par l'unité de filtrage
310. Plus précisément, dans une étape 911, pour chaque indice temporel n et chaque
indice fréquentiel d'échantillonnage k, un filtre de déréverbération
Gk,n est construit selon la formule

où
ξk,n est le rapport signal à bruit
a priori, calculé de la façon suivante

et où la borne d'intégration
νk,n est calculée de la façon suivante

où
γk,n est le rapport signal à bruit
a postériori, calculé selon la formule

où
Rk,n est la réverbération tardive lissée calculée de la façon suivante

où α est une première constante de lissage et β est une seconde constante de lissage.
Dans un exemple, la première constante de lissage α vaut 0.77 et la seconde constante
de lissage β vaut 0.98.
[0053] En effet, la réverbération estimée est non stationnaire à long terme car le signal
sonore émis par la source sonore omnidirectionnelle 100, qui provoque ladite réverbération
estimée n'est pas stationnaire à long terme. Des variations trop rapides de la réverbération
estimée peuvent introduire des artéfacts gênants lors du filtrage. Pour limiter ces
effets, un lissage récursif est effectué pour calculer la densité spectrale de puissance
de la réverbération tardive.
[0054] Dans une étape 912, pour chaque indice temporel n et chaque indice fréquentiel d'échantillonnage
k, les vecteurs d'observations
Xvk,n sont filtrés par le filtre de déréverbération
Gk,n calculé à l'étape 911 afin d'obtenir un module de signal déréverbéré
Yk,n calculé de la façon suivante

[0055] Le filtre construit à l'étape 911 atténue fortement certains vecteurs d'observations
Xvk,n ce qui génère des artéfacts nuisibles à la qualité du signal déréverbéré. Pour limiter
lesdits artéfacts, une borne inférieure est imposée sur l'atténuation du filtre. Ainsi,
pour chaque indice fréquentiel d'échantillonnage k et pour chaque indice temporel
n, si le filtre de déréverbération
Gk,n est inférieur ou égal à une valeur minimale du filtre de déréverbération Gmin, alors
ledit filtre de déréverbération
Gk,n est égal à ladite valeur minimale du filtre de déréverbération Gmin.
[0056] Dans une étape 913, pour chaque indice fréquentiel d'échantillonnage k et chaque
indice temporel n, le module de signal déréverbéré
Yk,n et la phase
∠Xk,n du signal complexe

sont multipliés afin de créer un signal complexe déréverbéré
YC.
[0057] Dans une étape 914, une transformation fréquence-temps est appliquée par l'unité
d'application d'une transformation fréquence-temps 220 au signal complexe déréverbéré

afin d'obtenir un signal temporel déréverbéré
y(
t) dans le domaine temporel. Dans un exemple, la transformation fréquence-temps est
une Transformation de Fourier Inverse à Court Terme.
[0058] Dans une mise en oeuvre, la valeur du nombre de vecteurs d'observation L est égale
à 10, la valeur du nombre de longueur d'observation N est égale à 8, la valeur du
retard δ est égale à 5, la valeur du paramètre d'intensité maximale
λ est égale à 0.5, la valeur du nombre K est égale à 257, la valeur du nombre J est
égale à 10, la valeur de la longueur d'une trame M est égale à 512 et la valeur minimale
du filtre de déréverbération Gmin est égale à -12 décibels. Ce choix de paramètres
permet l'application du procédé en temps réel.
[0059] Le procédé de suppression de la réverbération tardive d'un signal sonore selon l'invention
est rapide et présente une complexité réduite. Ledit procédé est donc utilisable en
temps réel. En outre, ce procédé n'introduit pas d'artéfacts et est robuste au bruit
de fond. De plus, ledit procédé réduit le bruit de fond et est compatible avec des
procédés de réduction de bruit.
[0060] Le procédé de suppression de la réverbération tardive d'un signal sonore selon l'invention
nécessite un seul microphone pour traiter avec précision la réverbération.
1. Procédé de suppression de la réverbération tardive d'un signal sonore
caractérisé en ce qu'il comporte les étapes suivantes :
• captation (900) d'un signal d'entrée (x) formé par la superposition de plusieurs versions retardées et atténuées du signal
sonore,
• application (901) d'une transformation temps-fréquence au signal d'entrée (x) afin d'obtenir une transformée temps-fréquence complexe (XC) du signal d'entrée (x),
• création d'un module sous échantillonné (X̃) en fréquence à partir du module de la transformée temps-fréquence complexe (XC) du signal d'entrée (x),
• création (905) d'une pluralité de vecteurs d'observation sous échantillonnés à partir
dudit module sous échantillonné (X̃) en fréquence,
• construction (906) d'une pluralité de dictionnaires d'analyse (Da) à partir de la pluralité de vecteurs d'observation sous échantillonnés,
• calcul (907) d'une pluralité de vecteurs de prédiction (α) à partir de la pluralité
de vecteurs d'observation sous échantillonnés et de la pluralité de dictionnaires
d'analyse (Da), en minimisant, pour chaque vecteur de prédiction (α), l'expression ∥X̃v -Daα∥2, qui est la norme euclidienne de la différence entre le vecteur d'observation sous
échantillonné associé audit vecteur de prédiction (α) et du dictionnaire d'analyse
(Da) associé audit vecteur de prédiction (α) multiplié par ledit vecteur de prédiction
(α), en tenant compte de la contrainte ∥α∥1 ≤ λ, selon laquelle la norme 1 dudit vecteur de prédiction (α) est inférieure ou égale
à un paramètre d'intensité maximale de la réverbération tardive (λ),
• création (908) d'une pluralité de vecteurs d'observation à partir du module de la
transformée temps-fréquence complexe (XC) du signal d'entrée (x),
• construction (909) d'une pluralité de dictionnaires de synthèse (Ds) à partir de la concaténation de la pluralité de vecteurs d'observations,
• estimation (910) d'un spectre de réverbération tardive (Xℓ) à partir de la multiplication de la pluralité de dictionnaires de synthèse (Ds) avec la pluralité de vecteurs de prédiction (α),
• filtrage (912) de la pluralité de vecteurs d'observations afin d'éliminer le spectre
de réverbération tardive (Xℓ) et d'obtenir un module de signal déréverbéré (Y).
2. Procédé selon la revendication 1, caractérisé en ce que la valeur du paramètre d'intensité maximale de la réverbération tardive (λ) est comprise
entre 0 et 1.
3. Procédé selon l'une des revendications 1 ou 2,
caractérisé en ce qu'il comporte en outre l'étape suivante :
• création (913) d'un signal complexe déréverbéré (YC) à partir du module de signal déréverbéré (Y) et de la phase (∠X) de la transformée temps-fréquence complexe (XC) du signal d'entrée (x).
4. Procédé selon la revendication 3,
caractérisé en ce qu'il comporte en outre l'étape suivante :
• application (914) d'une transformation fréquence-temps au signal complexe déréverbéré
(YC) afin d'obtenir un signal temporel déréverbéré (y).
5. Procédé selon l'une des revendications 1 à 4,
caractérisé en ce qu'il comporte en outre une étape de construction d'un filtre de déréverbération selon
le modèle

où
ξ est le rapport signal à bruit
a priori, et où la borne d'intégration
ν est calculée selon le modèle

où
γ est le rapport signal à bruit
a postériori.
6. Dispositif de suppression de la réverbération tardive d'un signal sonore
caractérisé en ce qu'il comporte des moyens pour :
• capter un signal d'entrée (x) formé par la superposition de plusieurs versions retardées et atténuées du signal
sonore,
• appliquer une transformation temps-fréquence au signal d'entrée (x) afin d'obtenir
une transformée temps-fréquence complexe (XC) du signal d'entrée (x),
• créer un module sous échantillonné (X̃) en fréquence à partir du module de la transformée temps-fréquence complexe (XC) du signal d'entrée (x),
• créer d'une pluralité de vecteurs d'observation sous échantillonnés à partir dudit
module sous échantillonné (X̃) en fréquence,
• construire une pluralité de dictionnaires d'analyse (Da) à partir de la pluralité de vecteurs d'observation sous échantillonnés,
• calculer une pluralité de vecteurs de prédiction (α) à partir de la pluralité de
vecteurs d'observation sous échantillonnés et de la pluralité de dictionnaires d'analyse
(Da), en minimisant, pour chaque vecteur de prédiction (α), l'expression ∥X̃v -Daα∥2, qui est la norme euclidienne de la différence entre le vecteur d'observation sous
échantillonné associé audit vecteur de prédiction (α) et du dictionnaire d'analyse
(Da) associé audit vecteur de prédiction (α) multiplié par ledit vecteur de prédiction
(α), en tenant compte de la contrainte ∥α∥1 ≤ λ, selon laquelle la norme 1 dudit vecteur de prédiction (α) est inférieure ou égale
à un paramètre d'intensité maximale de la réverbération tardive (λ),
• créer une pluralité de vecteurs d'observation à partir du module de la transformée
temps-fréquence complexe (XC) du signal d'entrée (x),
• construire une pluralité de dictionnaires de synthèse (Ds) à partir de la concaténation de la pluralité de vecteurs d'observations,
• estimer un spectre de réverbération tardive (Xℓ) à partir de la multiplication de la pluralité de dictionnaires de synthèse (Ds) avec la pluralité de vecteurs de prédiction (α),
• filtrer la pluralité de vecteurs d'observations afin d'éliminer le spectre de réverbération
tardive (Xℓ) et d'obtenir un module de signal déréverbéré (Y).
1. Verfahren zur Unterdrückung des späten Nachhalls eines akustischen Signals,
dadurch gekennzeichnet, dass es die folgenden Schritte umfasst:
- Erfassung (900) eines Eingangssignals (x), das durch die Überlagerung mehrerer verzögerter
und gedämpfter Versionen des akustischen Signals gebildet ist,
- Anwendung (901) einer Zeit-Frequenz-Transformation am Eingangssignal (x), um eine
komplexe Zeit-Frequenz-Transformierte (Xc) des Eingangssignals (x) zu erhalten,
- Erzeugung eines hinsichtlich der Frequenz unterabgetasteten Moduls (X) aus dem Modul
der komplexen Zeit-Frequenz-Transformierten (Xc) des Eingangssignals (x),
- Erzeugung (905) einer Vielzahl von unterabgetasteten Beobachtungsvektoren aus dem
hinsichtlich der Frequenz unterabgetasteten Modul (X),
- Erstellung (906) einer Vielzahl von Analysewörterbüchern (Da) aus der Vielzahl von unterabgetasteten Beobachtungsvektoren,
- Berechnung (907) einer Vielzahl von Prädiktionsvektoren (α) aus der Vielzahl von
unterabgetasteten Beobachtungsvektoren und der Vielzahl von Analysewörterbüchern (Da), wobei für jeden Prädiktionsvektor (α) der Ausdruck ∥X̃v-Daα∥2 minimiert wird, der die euklidische Norm der Differenz zwischen dem unterabgetasteten
Beobachtungsvektor, der dem Prädiktionsvektor (α) zugeordnet ist, und dem Analysewörterbuch
(Da), das dem Prädiktionsvektor (α) zugeordnet ist, multipliziert mit dem Prädiktionsvektor
(α), unter Berücksichtigung der Anforderung ∥α∥1≤λ, nach der die Norm 1 des Prädiktionsvektors (α) kleiner oder gleich einem Parameter
maximaler Intensität des späten Nachhalls (λ) ist,
- Erzeugung (908) einer Vielzahl von Beobachtungsvektoren aus dem Modul der komplexen
Zeit-Frequenz-Transformierten (Xc) des Eingangssignals (x),
- Erstellung (909) einer Vielzahl von Synthesewörterbüchern (Ds) aus der Verkettung der Vielzahl von Beobachtungsvektoren,
- Schätzung (910) eines späten Nachhallspektrums (Xℓ) aus der Multiplikation der Vielzahl von Synthesewörterbüchern (Ds) mit der Vielzahl von Prädiktionsvektoren (α),
- Filterung (912) der Vielzahl von Beobachtungsvektoren, um das späte Nachhallspektrum
(Xℓ) zu eliminieren und ein Signalmodul ohne Nachhall (Y) zu erhalten.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Wert des maximalen Intensitätsparameters des späten Nachhalls (λ) zwischen 0
und 1 beträgt.
3. Verfahren nach einem der Ansprüche 1 oder 2,
dadurch gekennzeichnet, dass es ferner den folgenden Schritt umfasst:
- Erzeugung (913) eines komplexen Signals ohne Nachhall (Yc) aus dem Signalmodul ohne Nachhall (Y) und der Phase (<X) der komplexen Zeit-Frequenz-Transformierten
(Xc) des Eingangssignals (x).
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet, dass es ferner den folgenden Schritt umfasst:
- Anwendung (914) einer Zeit-Frequenz-Transformierten am komplexen Signal ohne Nachhall
(Yc), um ein Zeitsignal ohne Nachhall (y) zu erhalten.
5. Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet, dass es ferner den Schritt der Erstellung eines Nachhallbeseitigungsfilters nach folgenden
Modell umfasst:

wobei ζ das Signal-Rausch-Verhältnis a priori ist, und wobei die Integrationsklemme
v nach folgendem Modell berechnet wird

wobei y das Signal-Rausch-Verhältnis a posteriori ist.
6. Vorrichtung zur Unterdrückung des späten Nachhalls eines akustischen Signals,
dadurch gekennzeichnet, dass sie Mittel umfasst, um:
- ein Eingangssignal (x) zu erfassen, das durch die Überlagerung mehrerer verzögerter
und gedämpfter Versionen des akustischen Signals gebildet ist,
- eine Zeit-Frequenz-Transformation am Eingangssignal (x) anzuwenden, um eine komplexe
Zeit-Frequenz-Transformierte (Xc) des Eingangssignals (x) zu erhalten,
- ein hinsichtlich der Frequenz unterabgetastetes Modul (X) aus dem Modul der komplexen
Zeit-Frequenz-Transformierten (Xc) des Eingangssignals (x) zu erzeugen,
- eine Vielzahl von unterabgetasteten Beobachtungsvektoren aus dem hinsichtlich der
Frequenz unterabgetasteten Modul (X̃) zu erzeugen,
- eine Vielzahl von Analysewörterbüchern (Da) aus der Vielzahl von unterabgetasteten Beobachtungsvektoren zu erstellen,
- eine Vielzahl von Prädiktionsvektoren (α) aus der Vielzahl von unterabgetasteten
Beobachtungsvektoren und der Vielzahl von Analysewörterbüchern (Da), wobei für jeden Prädiktionsvektor (α) der Ausdruck ∥X̃v-Daα∥2 minimiert wird, der die euklidische Norm der Differenz zwischen dem unterabgetasteten
Beobachtungsvektor, der dem Prädiktionsvektor (α) zugeordnet ist, und dem Analysewörterbuch
(Da), das dem Prädiktionsvektor (α) zugeordnet ist, multipliziert mit dem Prädiktionsvektor
(α), unter Berücksichtigung der Anforderung ∥α∥1≤λ, nach der die Norm 1 des Prädiktionsvektors (α) kleiner oder gleich einem Parameter
maximaler Intensität des späten Nachhalls (λ) ist,
- eine Vielzahl von Beobachtungsvektoren aus dem Modul der komplexen Zeit-Frequenz-Transformierten
(Xc) des Eingangssignals (x) zu erzeugen,
- eine Vielzahl von Synthesewörterbüchern (Ds) aus der Verkettung der Vielzahl von Beobachtungsvektoren zu erstellen,
- ein spätes Nachhallspektrum (Xℓ) aus der Multiplikation der Vielzahl von Synthesewörterbüchern (Ds) mit der Vielzahl von Prädiktionsvektoren (α) zu schätzen,
- die Vielzahl von Beobachtungsvektoren zu filtern, um das späte Nachhallspektrum
(Xℓ) zu eliminieren und ein Signalmodul ohne Nachhall (Y) zu erhalten.
1. Method for suppressing the late reverberation of a sound signal,
characterized in that it includes the following steps:
• capturing (900) an input signal (x) formed by the superimposition of a multiplicity of delayed and attenuated versions
of the sound signal,
• applying (901) a time-frequency transformation to the input signal (x) in order to obtain a complex time-frequency transform (XC) of the input signal (x),
• generating a frequency-subsampled modulus (X̃) from the modulus of the complex time-frequency transform (XC) of the input signal (x),
• generating (905) a plurality of subsampled observation vectors from said frequency-subsampled
modulus (X̃),
• constructing (906) a plurality of analysis dictionaries (Da) from the plurality of subsampled observation vectors,
• calculating (907) a plurality of prediction vectors (α) from the plurality of subsampled
observation vectors and from the plurality of analysis dictionaries (Da), by minimizing, for each prediction vector (α), the expression ∥X̃v - Daα∥2, which is the Euclidean norm of the difference between the subsampled observation
vector associated with said prediction vector (α) and of the analysis dictionary (Da) associated with said prediction vector (α) multiplied by said prediction vector
(α), while taking into consideration the constraint ∥α∥1 ≤ λ, according to which the norm 1 of said prediction vector (α) is less than or equal
to a maximum intensity parameter of the late reverberation (λ),
• generating (908) a plurality of observation vectors from the modulus of the complex
time-frequency transform (XC) of the input signal (x),
• constructing (909) a plurality of synthesis dictionaries (Ds) from the concatenation of the plurality of observation vectors,
• estimating (910) a late reverberation spectrum (Xℓ) from the multiplication of the plurality of synthesis dictionaries (Ds) by the plurality of prediction vectors (α),
• filtering (912) the plurality of observation vectors in order to eliminate the late
reverberation spectrum (Xℓ) and to obtain a dereverberated signal modulus (Y).
2. Method according to Claim 1, characterized in that the value of the maximum intensity parameter of the late reverberation (A) is between
0 and 1.
3. Method according to either of Claims 1 and 2,
characterized in that it furthermore includes the following step:
• generating (913) a dereverberated complex signal (YC) from the dereverberated signal modulus (Y) and from the phase (∠X) of the complex time-frequency transform (XC) of the input signal (x).
4. Method according to Claim 3,
characterized in that it furthermore includes the following step:
• applying (914) a frequency-time transformation to the dereverberated complex signal
(YC) in order to obtain a dereverberated time signal (y).
5. Method according to one of Claims 1 to 4,
characterized in that it furthermore includes a step of constructing a dereverberation filter in accordance
with the model

where
ξ is the
a priori signal-to-noise ratio, and where the bound of integration
v is calculated in accordance with the model

where
γ is the
a posteriori signal-to-noise ratio.
6. Device for suppressing the late reverberation of a sound signal,
characterized in that it includes means for:
• capturing an input signal (x) formed by the superimposition of a multiplicity of delayed and attenuated versions
of the sound signal,
• applying a time-frequency transformation to the input signal (x) in order to obtain a complex time-frequency transform (XC) of the input signal (x),
• generating a frequency-subsampled modulus (X̃) from the modulus of the complex time-frequency transform (XC) of the input signal (x),
• generating a plurality of subsampled observation vectors from said frequency-subsampled
modulus (X̃),
• constructing a plurality of analysis dictionaries (Da) from the plurality of subsampled observation vectors,
• calculating a plurality of prediction vectors (α) from the plurality of subsampled
observation vectors and from the plurality of analysis dictionaries (Da), by minimizing, for each prediction vector (α), the expression ∥X̃v - Daα∥2, which is the Euclidean norm of the difference between the subsampled observation
vector associated with said prediction vector (α) and of the analysis dictionary (Da) associated with said prediction vector (α) multiplied by said prediction vector
(α), while taking into consideration the constraint ∥α∥1 ≤ λ, according to which the norm 1 of said prediction vector (α) is less than or equal
to a maximum intensity parameter of the late reverberation (λ),
• generating a plurality of observation vectors from the modulus of the complex time-frequency
transform (XC) of the input signal (x),
• constructing a plurality of synthesis dictionaries (Ds) from the concatenation of the plurality of observation vectors,
• estimating a late reverberation spectrum (Xℓ) from the multiplication of the plurality of synthesis dictionaries (Ds) by the plurality of prediction vectors (α),
• filtering the plurality of observation vectors in order to eliminate the late reverberation
spectrum (Xℓ) and to obtain a dereverberated signal modulus (Y).