Verfahren zur Geräuschreduktion für gestörte Sprachkanäle

(19)

(11)

EP 0 615 226 A2

(12)	EUROPÄISCHE PATENTANMELDUNG

(43)	Veröffentlichungstag:
	14.09.1994 Patentblatt 1994/37

(21)	Anmeldenummer: 94102963.9

(22)	Anmeldetag: 28.02.1994

(51)	Internationale Patentklassifikation (IPC)⁵: G10L 3/02

(84)	Benannte Vertragsstaaten:
	DE FR GB IT

(30)

Priorität:

11.03.1993 DE 4307688

(71)	Anmelder: Daimler-Benz Aktiengesellschaft
	D-70546 Stuttgart (DE)

(72)	Erfinder:
	Linhard, Klaus, Dr. Ing. D-89231 Neu-Ulm (DE)

(74)	Vertreter: Weber, Gerhard, Dipl.-Phys. et al
	AEG Aktiengesellschaft 60591 Frankfurt 60591 Frankfurt (DE)

(56)

Entgegenhaltungen: :

(54)	Verfahren zur Geräuschreduktion für gestörte Sprachkanäle

(57) Die Erfindung betrifft ein Verfahren, daß nicht nur zur Störbefreiung z.B. bei der automatischen Spracherkennung eingesetzt werden kann, sondern auch zur Verbesserung der Sprachqualität für den Menschen z.B. Freisprechen beim Autotelefon. Die Geräuschreduktion wird 2kanalig oder mehrkanalig durchgeführt, in der Art, daß schrittweise, systematisch die zeitlichen und die raumakustischen Signaleigenschaften von Sprache und Störung ausgenutzt werden.

Beschreibung

[0001] Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.

[0002] Ein derartiges Verfahren findet Anwendung bei der automatischen Spracherkennung oder bei Freisprechanlagen zur Verbesserung der Sprachqualität, z.B. in Büroräumen oder im Kraftfahrzeug.

[0003] Gestörte Sprache ist besser erfaßbar, wenn sie mit zwei oder mehreren Kanälen aufgezeichnet wird. Dabei soll in jedem Kanal Sprache und Störung vorhanden sein. Die mehrkanaligen Signale werden mit einer digitalen Signalverarbeitung aufbereitet.

[0004] Bei mehrkanaligen Systemen ist zunächst der Laufzeitunterschied des Nutzsignals in den einzelnen Kanälen zu ermitteln. Dabei wird es später möglich, die einzelnen Kanäle wieder phasenrichtig zu einem Kanal zusammenzuführen.

[0005] Von besonderem Interesse sind Systeme mit 2 Kanälen, da sich hiermit bereits ein räumliches Schallfeld nach einzelnen Richtungen auflösen läßt, der Rechenaufwand aber noch erträglich bleibt.

[0006] Ist die Richtung bekannt, aus der das interessierende Schallereignis eintrifft, wird eine akustische Richtkeule auf dieses Ereignis eingestellt.

[0007] Die Geräuschreduktion wird zunächst in jedem einzelnen Kanal durchgeführt. Da die Geräuschreduktion nicht fehlerfrei arbeitet können Verzerrungen und künstliche Einfügungen (z.B. "musical tones") entstehen. Bei der Zusammenführung der einzelnen verarbeiteten Kanälen ergibt sich eine Mittelung und damit Verringerung dieser Fehler.

[0008] Das Summensignal wird anschließend nachverarbeitet, indem die Kreuzkorrelation der Signale in den einzelnen Kanälen verwendet wird. Dabei wird vorausgesetzt daß Störungen oder Nachhall weniger korreliert ist als das Nutzsignal der Kanäle.

[0009] Ein Verfahren zur Zusammenführung von 2 gestörten Sprachkanälen ist aus der Veröffentlichung "Multimicrophone signal-processing technique to remove room reverberation from speech signals" von Allen, Berkley und Blauert (J: Acoust. Soc. Am., Vol.62, No. 4, October 1977) und aus "Noise Suppression Signal Processing Using 2-Point Received Signals" von Kaneda und Tohyame (Electronics and Communication in Japan, Vol. 67-A, No. 12, 1984) bekannt. Das erste Verfahren ist zur Enthallung von Sprachsignalen gedacht und verwendet keinen echten Phasenausgleich des Nutzsignals und die Enthallung mit Geräuschreduktion wird nur in einer Nachverarbeitungsstufe durchgeführt. Das zweite Verfahren benutzt einen einfachen linearen Phasenausgleich der Kanäle, die Geräuschreduktion erfolgt aber auch hier nur in der Nachverarbeitungsstufe.

[0010] Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren zur Geräuschreduktion anzugeben, bei dem die Geräuschreduktion in mehreren Stufen durchgeführt und eine deutliche Verbesserung der Sprachqualität erzielt wird.

[0011] Die Aufgabe wird gelöst durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale. Vorteilhafte Ausgestaltungen und/oder Weiterbildungen sind den Unteransprüchen zu entnehmen.

[0012] Mit dem erfindungsgemäßen Verfahren werden die räumlichen und die zeitlichen Eigenschaften des Nutzsignals und der Störung systematisch ausgenutzt:

1.) räumliche Eigenschaft der Schallfelder:

a) Dämpfung von Punktstörquellen
Mit digitalen Richtungsfiltern am Eingang der Kanäle wird zusammen mit der Phasenschätzung eine akustische Richtkeule auf den Sprecher ausgerichtet. Für die Phasenschätzung wird das in der unveröffentlichten deutschen Patentanmeldung P 42 43 831 beschriebene Verfahren verwendet. Es ist robust gegenüber Störungen und benötigt nur einen geringen Rechenaufwand. Die Richtungsfilter sind fest eingestellt. Es wird angenommen, daß der Sprecher sich relativ nahe an den Mikrofonen befindet (Abstand ≦ 1m) und sich nur in einem beschränkten Bereich bewegt. Instationäre und stationäre Punkt-Störquellen werden durch diese räumliche Auswertung gedämpft.

b) Dämpfung von diffusen Störquellen
In der Nachverarbeitung werden mit Hilfe der Kreuzkorrelation die diffusen Stör- und Hallanteile gedämpft.

2.) zeitliche Signaleigenschaften:
Die spektrale Subtraktion schätzt die Störung in den Sprachpausen und führt eine betragsmäßige Subtraktion im Spektralbereich durch. Hier werden die zeitlich stationären Störanteile gedämpft.

3.) Mittelung der Kanäle (Addition):
Durch die räumliche Trennung der Aufnahmekanäle (Mikrofone in einem bestimmten Abstand) treten Fehler der spektralen Subtraktion (Verzerrung und "musical tones") in den einzelnen Kanälen z.T. zeitlich zufällig auf. Eine Mittelung der Kanäle vermindert diesen Fehler.

[0013] Die Erfindung wird anhand von Ausführungsbeispielen näher erläutert und Bezugnahme auf schematische Zeichnungen.

FIG. 1: zeigt ein Blockdiagramm des gesamten Verfahrens.
FIG. 2: zeigt einen Vergleich der gemittelten Ausgangsleistungen Z verschiedener Verfahren mit der Leistung des Original-Geräuschsignals (Beispiel: Mikrofonabstand 12cm, Fahrzeug mit 140km/h). Es wird die zunehmende Geräuschreduktion gezeigt wenn die Verarbeitung mit einem Kanal, mit zwei Kanälen und mit zwei Kanälen mit Nachverarbeitung durchgeführt wird.

[0014] Die Mikrofonsignale x und y werden in den Frequenzbereich transformiert (FFT, Fast Fourier-Transformation). Die Segmente sind halb überlappt und werden mit einem Hanning-Fenster gewichtet. Die Segmente sind jeweils N Werte lang und werden um weitere N Nullen erweitert. Die Transformationslänge wird beispielsweise zu 2N = 512 gewählt. Es ergeben sich die transformierten Segmente X_l(i) und Y_l(i). Das Ausgangssignal z ergibt sich nach Rücktransformation und der Überlappung der Segmente. l bezeichnet den Blockindex der Segmente, i die diskrete Frequenz (i=0,1,2...,2N-1). Die Abtastrate der Signale x und y beträgt z.B. 12kHz.

[0015] Im Frequenzbereich wird der Langzeitmittelwert des Betragsspektrums subtrahiert (Spektrale Subtraktion H_SPS). Das Kurzzeitmittel K und das Langzeitmittel L werden benutzt, um eine erste adaptive Glättungkonstante β zu berechnen. Mit β wird das Störspektrum S_nn(i) geschätzt. Diese adaptive Glättungskonstante ersetzt den sonst üblichen Sprachpausendetektor. l bezeichnet den Blockindex, i die diskrete Frequenz. Als Glättungskonstante β_o wird z.B. β_o = 0.03 verwendet.

mit

[0016] Das Störspektrum wird normiert und subtrahiert.

[0017] Eine modifizierte Form ergibt sich mit:

[0018] Für die Leistungsdichte S_xx,l eines Kanales gilt:

f_o wird als "spectral floor" bezeichnet. Es wird ein Teil des Hintergrundgeräuschs zugelassen, um einen natürlich Höreindruck zu erzeugen und um einen Teil der "musical tones" zu maskieren. α ist ein Überschätzfaktor für das Geräusch und dient der weiteren Reduzierung des Restgeräuschs. Für diese Werte kann z.B. f_o = 0.2 und α = 1.5 gewählt werden.

[0019] Im Gegensatz zu den bekannten Formen der spektralen Substraktion wird eine zweite adaptive Glättung mit α dazu benutzt einen weiteren Teil der "musical tones" zu reduzieren, indem die Leistungsdichte S_xx bei Sprache wenig und bei Pause stark geglättet wird.

[0020] Für den zweiten Kanal Y gelten die entsprechenden Gleichungen.

[0021] Zur Berechnung der linearen Phasenverschiebung zwischen Nutzanteilen in den Kanälen wird das in der nicht vorveröffentlichen Patentanmeldung P 42 43 831 angegebene Verfahren verwendet. Dieses Verfahren fügt sich nahtlos in das erfindungsgemäße Geräuschreduktionsverfahren ein. Die Phasenverschiebung wird an einer ausgewählten Anzahl der Maximas der Kreuzleistungsdichte geschätzt und die Phasenkorrektur durch Multiplikation im Frequenzbereich mit der Allpaßfunktion H_ALLP erreicht.

[0022] Bei mehr als zwei Kanälen wird die Phasenkorrektur für den jeweils weiteren Kanal durchgeführt. Der erste Kanal dient als Referenz.

[0023] Durch ein "Beamforming-Verfahren" werden für die Kanäle die Richtungsfilter berechnet. Dabei können als Geräusch verschiedene Fälle betrachtet werden. Es ergeben sich entsprechend der Geräuschsituation verschiedene Richtungsfilter H_R. Es wird ein Satz dieser Filter ausgewählt, jedoch kann falls im späteren Betrieb der Systemzustand bekannt ist, auf einem bestimmten Satz umgeschaltet werden oder die Filter können ständig adaptiert werden. Als "Beamforming-Verfahren" wird beispielsweise das Gradientenverfahren nach Frost ("An Algorithm for Linearly Constrained Adaptive Array Processing" Proc. IEEE, Vol. 60, No. 8, 1972) oder nach Sondhi und Elko ("Adaptive Optimization of Microphone Arrays under a Nonlinear Contraint" Int. Conf. on ASSP, Tokyo, 1096, S. 981-984) verwendet.

[0024] Für die Richtungsfilterung ergibt sich im Frequenzbereich die Multiplikation:

[0025] Die Addition der Kanäle ergibt mit den Richtungsfiltern die Gesamt-Richtcharakteristik und das Ausgangssignal

[0026] Außerdem führt die Addition der Kanäle zu einer Mittelung und damit Reduzierung der statistischen Fehler der spektralen Subtraktion.

[0027] Anschließend wird die Kreuzleistungsdichte der beiden Kanäle mit Hilfe einer Glättungskonstanten (z.B. γ = 0.3) be rechnet.

[0028] Die Kreuzleistungsdichte S_xy wird mit der Summe der Leistungsdichten S_xx, S_yy der einzelnen Kanäle normiert. Es ergibt sich eine modifizierte Kohärenzfunktion:

mit

[0029] Für das Ausgangssignal Z gilt:

[0030] Werden Richtungsfilter nach dem Verfahren von Sondhi und Elko verwendet, ist ein inverses Filter zur Frequenzgangkorrektur erforderlich. Dieses Filter dient der Anhebung der tieferen Frequenzen, weil der Frequenzgang der Richtungsfilter (für die gewünschte Richtung, Richtung des Sprechers) zu einer Absenkung dieser Frequenzen führt. Dieses Filter H_INV kann auf einfache Weise aus dem berechneten Frequenzgang approximiert werden.

[0031] Wird die Adaption nach dem Verfahren von Frost durchgeführt, ist kein inverses Filter erforderlich, weil der Frequenzgang in Richtung des Sprechers den konstanten Wert 1 hat.

[0032] Das erfindungsgemäße Verfahren ist nicht auf Systeme mit zwei Kanälen beschränkt, sondern auf Mehrkanalsysteme (3 und mehr Kanäle) anwendbar.

Ansprüche

1. Verfahren zur Geräuschreduktion von zumindest zwei gestörten Sprachkanälen, wobei die gestörten Sprachkanäle zu einem Ausgangskanal zusammengeführt werden, dadurch gekennzeichnet,

- daß mittels digitaler Richtungsfilter und einer linearen Phasenschätzung für die einzelnen Kanäle eine schwenkbare, akustische Richtkeule erzeugt wird, die der Sprecherbewegung folgt und dadurch die räumlichen Störquellen gedämpft werden,

- daß in den einzelnen Kanälen in den Sprechpausen die Störung geschätzt wird und durch spektrale Subtraktion die zeitlich stationären Störquellen gedämpft werden,

- daß anschließend die einzelnen Sprachkanäle addiert werden, und dadurch die statistischen Störungen der spektralen Subtraktion gemittelt werden, und

- daß das Summensignal mit einer modifizierten Kohärenzfunktion nachverarbeitet wird und dadurch die diffusen Stör- und Hallanteile gedämpft werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,

- daß die spektrale Subtraktion mit zwei adaptiven Glättungskonstanten α, β durchgeführt wird,

- daß mit der ersten adaptiven Glättungskonstante β das Störspektrum S_nn geschätzt wird, und

- daß mit der zweiten adaptiven Glättungskonstanten α die Leistungsdichte S_xx der einzelnen Kanäle in den Sprachpausen stark und bei Sprache wenig geglättet wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die linearen Phasenverschiebung von zumindest zwei Signalen über eine bestimmte Anzahl von Maxima der Kreuzleistungsdichte im Frequenzbereich ermittelt wird.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phasenkorrektur, die Richtungsfilterung und eine eventulelle notwendige inverse Filterung im Frequenzbereich durchgeführt werden.

Zeichnung