PROCEDE ET SYSTEME POUR SEPARER DANS UN FLUX AUDIO LA COMPOSANTE VOIX ET LA COMPOSANTE BRUIT

(19)

(11)

EP 3 828 886 A1

(12)	DEMANDE DE BREVET EUROPEEN

(43)	Date de publication:
	02.06.2021 Bulletin 2021/22

(21)	Numéro de dépôt: 20209511.3

(22)	Date de dépôt: 24.11.2020

(51)

Int. Cl.:

G10L 21/0272^(2013.01)

(84)	Etats contractants désignés:
	AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR
	Etats d'extension désignés:
	BA ME
	Etats de validation désignés:
	KH MA MD TN

(30)

Priorité:

27.11.2019 FR 1913283

(71)	Demandeur: THALES
	92400 Courbevoie (FR)

(72)	Inventeurs:
	MATHIEU, Félix 91767 PALAISEAU CEDEX (FR) COURTAT, Thomas 91767 PALAISEAU CEDEX (FR) CAPMAN, François 92622 GENNEVILLIERS CEDEX (FR) SAUSSET, François 91767 PALAISEAU CEDEX (FR) ACHECHE, Shaheen 91767 PALAISEAU CEDEX (FR)

(74)	Mandataire: Marks & Clerk France
	Immeuble "Visium" 22, avenue Aristide Briand 94117 Arcueil Cedex 94117 Arcueil Cedex (FR)

(54)	PROCEDE ET SYSTEME POUR SEPARER DANS UN FLUX AUDIO LA COMPOSANTE VOIX ET LA COMPOSANTE BRUIT

(57) L'invention concerne un procédé et un système pour séparer en temps réel dans un flux audio la composante voix et la composante bruit.

Description

[0001] L'invention concerne un procédé et un système permettant de séparer, en temps réel dans un flux audio, la partie du flux associée à une voix ou à de la parole, d'une autre partie du flux contenant les bruits.

[0002] L'invention trouve son application dans un contexte où une ou plusieurs personnes parlent dans un environnement bruité (brouhaha, bruit de moteur, ventilation, etc.). Le signal de la parole superposé aux signaux bruyants est numérisé dans un flux audio par un capteur sonore.

[0003] L'invention concerne aussi un procédé et un système pour rehausser un signal de voix en temps réel dans un flux audio à partir d'un procédé de séparation de sources audio en temps différé.

[0004] L'état de l'art connu du demandeur se divise en deux catégories, les approches dites classiques et les approches possibles par l'intelligence artificielle connue sous la dénomination anglo-saxonne de « deep learning ».

[0005] Dans l'approche de « deep learning », des approches traitent directement du problème de séparation voix/bruit de fond, d'autres concernent la séparation signal/signal, voix/voix.

[0006] La demande de brevet US 20190066713 divulgue un procédé consistant à obtenir, par un dispositif, un signal sonore combiné pour des signaux combinés provenant de multiples sources sonores dans une zone dans laquelle se trouve une personne. Le traitement mis en œuvre fait appel à des réseaux de neurones profonds.

[0007] Un exemple de procédé pour séparer plusieurs voix dans un signal audio selon l'art antérieur comporte les étapes décrites ci-après et non représentées pour des raisons de simplification. Le signal audio entrant est noté X, il a pour longueur L. Le signal est transmis à un encodeur M₁ qui transforme X en un tenseur X⁽¹⁾de dimensions F × T où T est un diviseur de L et F un nombre de filtres donné par le concepteur. L'encodeur M₁ consiste en une Convolution 1D à F filtres. Les coefficients des noyaux de convolution sont réglés lors d'une phase d'apprentissage. Le tenseur est transmis d'une part à un multiplicateur pour une utilisation future et d'autre part à un module de séparation. Le module de séparation est divisé en deux sous-modules M₂ et M₄. Le premier sous-module M₂ transforme le tenseur X⁽¹⁾ en un tenseur X⁽²⁾ de dimensions F × T. Le premier sous-module M₂ est constitué d'une couche de normalisation, une convolution 1x1 et un empilement de modules 1D-Conv connus de l'art antérieur et dont les paramètres sont réglés lors d'une phase d'apprentissage.

[0008] Le deuxième sous-module M₄ transforme X⁽²⁾ en X⁽⁴⁾ tenseur de dimensions 2F × T. Pour cela, le deuxième sous-module M₄ enchaîne une non-linéarité, une convolution 1x1 et une fonction sigmoîde. Les coefficients de la convolution 1x1 sont réglés lors d'une phase d'apprentissage.

[0009] X⁽¹⁾ est concaténé à lui-même pour former un tenseur de dimensions 2F x T qui est multiplié à X⁽⁴⁾ pour former X⁽⁵⁾.

[0010] Le module M₅ prend pour entrée X⁽⁵⁾ et donne en sortie deux signaux de longueur L au moyen d'une déconvolution 1D dont les paramètres sont réglés lors d'une phase d'apprentissage.

[0011] Les paramètres numériques définissant les traitements des différents modules sont obtenus dans une phase préalable d'apprentissage sur une base de données.

[0012] En remplaçant une des voix par du bruit, il est immédiat d'utiliser les méthodes décrites dans l'état de l'art pour séparer la voix du bruit de fond dans un signal audio et, en conservant uniquement la sortie contenant le signal de voix, de rehausser la voix d'un signal bruité.

[0013] La figure 1 illustre une application à la séparation de signaux de différents types, en séparant le canal voix et le canal bruit.

[0014] Tel que décrit, l'état de l'art ne permet pas directement le traitement en temps réel d'un flux audio.

[0015] Le document de Mimilakis Stylianos loannis et al, intitulé « A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation », du 25 septembre 2017, pages 1-6, XP 033263882, divulgue un procédé permettant de séparer la voix d'un fond musical.

[0016] Dans le domaine technique du « deep learning », les données sont représentées sous forme de tenseurs. Les données sont modifiées par une succession de modules. En sortie de chaque module, les données sont projetées dans un espace abstrait défini en général par ses dimensions.

[0017] Pour ce faire la présente invention met en œuvre les traitements suivants :

[0018] Le signal (flux d'entrée X) est découpé en N trames de longueur L, avec X_N la nième trame. Le procédé exécute les traitements suivants :

[0019] La trame X_N est encodée par un réseau de convolutions 1D. Le résultat est un tenseur

de dimensions F x T avec F le nombre de filtres donné par le concepteur,

[0020] T un diviseur de L dépendant de la taille des filtres F, 100. Le résultat

est ensuite transformé par un module M_2, 101. Le résultat

est un tenseur de dimensions F x T. Le module M₄ estime, 103, à partir de

un tenseur

de dimensions 2F x T.

est concaténé à lui-même, 104, pour former un tenseur de dimensions 2F x T qui est multiplié à

pour former

Le module M₅ à partir de

produit un tenseur de dimension 2 x T, 105, à partir duquel on obtient deux sorties de dimensions 1 x T X_N,0 et X_N,1 qui sont respectivement le canal voix et le canal bruit.

[0021] Ces étapes sont réitérées sur chaque nouvelle trame. Les paramètres sont appris sur une base de données de sons. L'inconvénient de ce procédé est qu'il n'utilise pas les informations des trames précédentes pour traiter la trame courante. Ceci entraîne notamment une qualité dégradée et une forte latence dans les traitements, du fait de la durée des trames.

[0022] L'un des objectifs de la présente invention est d'offrir un procédé et un dispositif permettant de séparer, en temps réel, des voix du bruit de fond dans un flux audio, ou débruitage de la voix dans un flux audio, notamment en tenant compte des informations issues des trames précédentes. Ceci permet d'améliorer les performances et la latence de traitement. Le procédé permet ainsi la propagation de « l'information globale » sur le signal, sa mise à jour et son exploitation de trame en trame.

[0023] L'invention concerne un procédé pour séparer en temps réel de la voix du bruit dans un signal audio reçu sur un récepteur équipé d'un capteur audio caractérisé en ce qu'il comporte au moins les étapes suivantes :

On sépare le flux audio reçu en N trames X_N,
Pour chaque trame X_N on associe un tenseur contenant des informations sur l'ensemble du flux audio,
On transmet la trame X_N à un premier module M₁ qui génère un signal
Le tenseur I_N-1 obtenu lors de l'étape précédente pour le traitement de la trame X_N - 1 est transmis à un module M₃,
Le module M₃ prend en entrée un signal

résultat de la transformation du signal

par un module M₂ et réalise la concaténation de

et I_N afin de générer un signal

de dimension 2F x T,
Le signal

est transmis à un module M₄ afin de générer un signal

qui est combiné avec le signal
Le signal résultant de la combinaison est décodé par un décodeur M₅ afin de générer un premier signal de voix X_N,0 et un deuxième signal X_N,1.

[0024] Pour traiter une trame N on suppose que la trame N - 1 a été traitée précédemment et que les quantités résultant de ce traitement ont été stockées. Pour la trame 0, I₀ est fixé arbitrairement par exemple il est identiquement nul.

[0025] L'invention concerne aussi un dispositif pour séparer de la voix du bruit dans un signal audio reçu sur un récepteur équipé d'un capteur audio caractérisé en ce qu'il comporte au moins les éléments suivants :

Un premier module M₁ recevant des trames d'un signal contenant de la voix et du bruit,
Le premier module à une sortie reliée à un deuxième module M₂ configuré pour générer un signal transmis à un troisième module M₃ qui reçoit une valeur de tenseur associée à une trame précédente X_N - 1 pour générer un tenseur I_N associé à la trame courante et un signal

de dimension 2F x T,

[0026] Le module M₃ inséré entre le module M₂ et le module M₄ prend en entrée un tenseur homogène en dimensions à celui fourni en sortie du module M₂ et fournit en sortie un tenseur homogène en dimensions à celui que prend en entrée le module M₄. Une entrée I_N - 1 supplémentaire est fournie en entrée du module M₃ pour le traitement de la trame numéro N et le module M₃ fournit en sortie additionnelle le tenseur I_N.

Un module M₄ qui combine le signal

et le signal

afin de générer un signal
Un décodeur M₅ configuré pour générer un premier signal de voix X_N,0 et un deuxième signal de bruit X_N,1 à partir du signal

[0027] D'autres caractéristiques, détails et avantages de l'invention ressortiront à la lecture de la description faite en référence aux dessins annexés donnés à titre d'exemple non limitatifs et qui représentent, respectivement :

[Fig.1], une illustration de l'art antérieur,

[Fig.2], un exemple de système permettant la mise en œuvre du procédé selon l'invention,

[Fig.3] une illustration des étapes mises en œuvre par le procédé selon l'invention.

[0028] La figure 2 illustre un exemple de dispositif permettant la mise en œuvre du procédé selon l'invention.

[0029] Le signal dont il faut extraire (séparer) la ou les voix du bruit contenu dans le flux audio est reçu sur un capteur audio 10. Le capteur audio est relié à un ensemble d'équipements ou modules Hardware 20 configurés pour séparer la voix du bruit qui seront détaillés à la figure 3.

[0030] La figure 3 illustre une première variante de réalisation pour séparer une voix du bruit dans un signal audio, les traitements étant effectués au niveau de l'ensemble 20. Cette séparation est réalisée en temps réel. Les modules similaires au schéma de la figure 1 portent les mêmes références. L'ensemble comprend en plus un module M₃ dont la fonction est détaillée ci-après.

[0031] Le signal audio reçu sur le capteur est lors d'une première étape séparé en N trames X₁.....X_N. A chaque trame X_N est associé un tenseur I_N qui est de dimension constante, indépendante de l'indice de la trame. Le procédé va mettre à jour la valeur du tenseur I_N de trame en trame et l'utilisation jointe de X_N et I_N pour estimer X_N,0 et X_N,1.

[0032] La trame X_N est transmise à un premier module M₁, 100, qui génère un signal

Le tenseur I_N-1 obtenu lors de l'étape précédente pour le traitement de la trame X_N - 1 est transmis dans un module M₃, 201.

[0033] M₃ génère un tenseur I_N, 202, qui sera utilisé lors du traitement de la trame X_N+1.

[0034] Le codeur M₃ prend en entrée un signal

203, résultat de la transformation du signal

par un module M₂ et réalise la concaténation de

et I_N, afin de générer un signal

de dimension 2F x T,

[0035] Le signal

204, est transmis à un module M₄ afin de générer un signal

qui est combiné, 104, avec le signal

le signal résultant de la combinaison est décodé par un décodeur M₅, 105, afin de générer un premier signal de voix X_N,0 et un deuxième signal de bruit X_N,1.

[0036] Dans un mode de réalisation, les étapes mises en œuvre par le procédé selon l'invention sont les suivantes :

[0037] Pour tout N, I_N est de dimension F x F

[0038] A_N est un tenseur F x F défini par

a.

est le produit matriciel de

et de sa transposée
I_N = I_N-1 + λ(A_N - I_N-1) avec λ un facteur de gain 0 et 1 donné par l'utilisateur
B_N = Softmax(I_N-1)

a. La fonction softmax est classique en machine learning ; à un vecteur de K nombres, (v₁ ...v_K) elle associe un vecteur de K nombre (w₁ ... w_K) avec pour tout

b. Pour calculer B_N, la fonction softmax est appliquée indépendamment à toutes les lignes de I_N,

est le produit matriciel entre B_N et

ses dimensions sont F×T,

est de dimension 2F x T, c'est la concaténation de

et C_N.

[0039] Le procédé et le dispositif selon l'invention permettent une séparation en temps réel de la voix du bruit dans un signal audio reçu sur un capteur en temps réel et sans dégrader les paramètres propres à la voix.

[0040] Les paramètres numériques définissant les traitements des différents modules sont réglés dans une phase préalable d'apprentissage sur une base de données.

[0041] L'invention permet un fonctionnement en temps réel avec un compromis latence/qualité contrôlable, de ne pas dégrader le signal audio qui ne contient pas de bruit, et permet de rehausser le bruit dans un signal ne contenant pas de paroles (de voix).

[0042] Le procédé permet notamment de prétraiter le signal audio de la parole pour améliorer la qualité de briques de traitement / valorisation de la voix (compression, analyse).

[0043] L'ajout dans la chaîne de traitement d'un module M₃ permet d'améliorer la qualité de mise en place d'une stratégie trame par trame pour la mise en temps réel des traitements.

Revendications

1. Procédé pour séparer, en temps réel, de la voix du bruit dans un signal audio reçu sur un récepteur équipé d'un capteur audio caractérisé en ce qu'il comporte au moins les étapes suivantes :

- On sépare le flux audio reçu en N trames X_N,

- Pour chaque trame X_N on associe un tenseur contenant des informations sur l'ensemble du flux audio,

- On transmet la trame X_N à un premier module M₁, (100), qui génère un signal

- Le tenseur I_N-1 obtenu lors de l'étape précédente pour le traitement de la trame X_N - 1 est transmis à un module M₃, (201),

- Le module M₃ prend en entrée un signal

(203), résultat de la transformation du signal

par un module M₂ et réalise la concaténation de

et I_N, afin de générer un signal

de dimension 2F x T,

- Le signal

(204), est transmis à un module M₄ afin de générer un signal

qui est combiné, (104), avec le signal

- le signal résultant de la combinaison est décodé par un décodeur M₅, (105), afin de générer un premier signal de voix X_N,0 et un deuxième signal X_N,1.

2. Dispositif pour séparer, en temps réel, de la voix du bruit dans un signal audio reçu sur un récepteur équipé d'un capteur audio caractérisé en ce qu'il comporte au moins les éléments suivants :

- Un premier module M₁ recevant des trames d'un signal contenant de la voix et du bruit,

- Le premier module à une sortie reliée à un deuxième module M₂ configuré pour générer un signal transmis à un troisième module M₃ qui reçoit une valeur de tenseur associée à une trame précédente X_N - 1 pour générer un tenseur I_N associé à la trame courante et un signal

de dimension 2F x T,

- Un module M₄ qui combine le signal

et le signal

afin de générer un signal

- Un module (104) qui combine le signal

avec le signal

afin de générer un signal

- Un décodeur M₅, (105) configuré pour générer un premier signal de voix X_N,0 et un deuxième signal X_N,1 à partir du signal

Dessins

Rapport de recherche

Rapport de recherche

Références citées

RÉFÉRENCES CITÉES DANS LA DESCRIPTION

Cette liste de références citées par le demandeur vise uniquement à aider le lecteur et ne fait pas partie du document de brevet européen. Même si le plus grand soin a été accordé à sa conception, des erreurs ou des omissions ne peuvent être exclues et l'OEB décline toute responsabilité à cet égard.

Documents brevets cités dans la description

US20190066713A [0006]

Littérature non-brevet citée dans la description

MIMILAKIS STYLIANOS LOANNIS et al.A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation, 2017, 1-6 [0015]