[0001] Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.
[0002] Ein derartiges Verfahren findet Anwendung bei der automatischen Spracherkennung oder
bei Freisprechanlagen zur Verbesserung der Sprachqualität, z.B. in Büroräumen oder
im Kraftfahrzeug.
[0003] Gestörte Sprache ist besser erfaßbar, wenn sie mit zwei oder mehreren Kanälen aufgezeichnet
wird. Dabei soll in jedem Kanal Sprache und Störung vorhanden sein. Die mehrkanaligen
Signale werden mit einer digitalen Signalverarbeitung aufbereitet.
[0004] Bei mehrkanaligen Systemen ist zunächst der Laufzeitunterschied des Nutzsignals in
den einzelnen Kanälen zu ermitteln. Dabei wird es später möglich, die einzelnen Kanäle
wieder phasenrichtig zu einem Kanal zusammenzuführen.
[0005] Von besonderem Interesse sind Systeme mit 2 Kanälen, da sich hiermit bereits ein
räumliches Schallfeld nach einzelnen Richtungen auflösen läßt, der Rechenaufwand aber
noch erträglich bleibt.
[0006] Ist die Richtung bekannt, aus der das interessierende Schallereignis eintrifft, wird
eine akustische Richtkeule auf dieses Ereignis eingestellt.
[0007] Die Geräuschreduktion wird zunächst in jedem einzelnen Kanal durchgeführt. Da die
Geräuschreduktion nicht fehlerfrei arbeitet können Verzerrungen und künstliche Einfügungen
(z.B. "musical tones") entstehen. Bei der Zusammenführung der einzelnen verarbeiteten
Kanälen ergibt sich eine Mittelung und damit Verringerung dieser Fehler.
[0008] Das Summensignal wird anschließend nachverarbeitet, indem die Kreuzkorrelation der
Signale in den einzelnen Kanälen verwendet wird. Dabei wird vorausgesetzt daß Störungen
oder Nachhall weniger korreliert ist als das Nutzsignal der Kanäle.
[0009] Ein Verfahren zur Zusammenführung von 2 gestörten Sprachkanälen ist aus der Veröffentlichung
"Multimicrophone signal-processing technique to remove room reverberation from speech
signals" von Allen, Berkley und Blauert (J: Acoust. Soc. Am., Vol.62, No. 4, October
1977) und aus "Noise Suppression Signal Processing Using 2-Point Received Signals"
von Kaneda und Tohyame (Electronics and Communication in Japan, Vol. 67-A, No. 12,
1984) bekannt. Das erste Verfahren ist zur Enthallung von Sprachsignalen gedacht und
verwendet keinen echten Phasenausgleich des Nutzsignals und die Enthallung mit Geräuschreduktion
wird nur in einer Nachverarbeitungsstufe durchgeführt. Das zweite Verfahren benutzt
einen einfachen linearen Phasenausgleich der Kanäle, die Geräuschreduktion erfolgt
aber auch hier nur in der Nachverarbeitungsstufe.
[0010] Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren zur Geräuschreduktion
anzugeben, bei dem die Geräuschreduktion in mehreren Stufen durchgeführt und eine
deutliche Verbesserung der Sprachqualität erzielt wird.
[0011] Die Aufgabe wird gelöst durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen
Merkmale. Vorteilhafte Ausgestaltungen und/oder Weiterbildungen sind den Unteransprüchen
zu entnehmen.
[0012] Mit dem erfindungsgemäßen Verfahren werden die räumlichen und die zeitlichen Eigenschaften
des Nutzsignals und der Störung systematisch ausgenutzt:
1.) räumliche Eigenschaft der Schallfelder:
a) Dämpfung von Punktstörquellen
Mit digitalen Richtungsfiltern am Eingang der Kanäle wird zusammen mit der Phasenschätzung
eine akustische Richtkeule auf den Sprecher ausgerichtet. Für die Phasenschätzung
wird das in der unveröffentlichten deutschen Patentanmeldung P 42 43 831 beschriebene
Verfahren verwendet. Es ist robust gegenüber Störungen und benötigt nur einen geringen
Rechenaufwand. Die Richtungsfilter sind fest eingestellt. Es wird angenommen, daß
der Sprecher sich relativ nahe an den Mikrofonen befindet (Abstand ≦ 1m) und sich
nur in einem beschränkten Bereich bewegt. Instationäre und stationäre Punkt-Störquellen
werden durch diese räumliche Auswertung gedämpft.
b) Dämpfung von diffusen Störquellen
In der Nachverarbeitung werden mit Hilfe der Kreuzkorrelation die diffusen Stör- und
Hallanteile gedämpft.
2.) zeitliche Signaleigenschaften:
Die spektrale Subtraktion schätzt die Störung in den Sprachpausen und führt eine betragsmäßige
Subtraktion im Spektralbereich durch. Hier werden die zeitlich stationären Störanteile
gedämpft.
3.) Mittelung der Kanäle (Addition):
Durch die räumliche Trennung der Aufnahmekanäle (Mikrofone in einem bestimmten Abstand)
treten Fehler der spektralen Subtraktion (Verzerrung und "musical tones") in den einzelnen
Kanälen z.T. zeitlich zufällig auf. Eine Mittelung der Kanäle vermindert diesen Fehler.
[0013] Die Erfindung wird anhand von Ausführungsbeispielen näher erläutert und Bezugnahme
auf schematische Zeichnungen.
- FIG. 1
- zeigt ein Blockdiagramm des gesamten Verfahrens.
- FIG. 2
- zeigt einen Vergleich der gemittelten Ausgangsleistungen Z verschiedener Verfahren
mit der Leistung des Original-Geräuschsignals (Beispiel: Mikrofonabstand 12cm, Fahrzeug
mit 140km/h). Es wird die zunehmende Geräuschreduktion gezeigt wenn die Verarbeitung
mit einem Kanal, mit zwei Kanälen und mit zwei Kanälen mit Nachverarbeitung durchgeführt
wird.
[0014] Die Mikrofonsignale x und y werden in den Frequenzbereich transformiert (FFT, Fast
Fourier-Transformation). Die Segmente sind halb überlappt und werden mit einem Hanning-Fenster
gewichtet. Die Segmente sind jeweils N Werte lang und werden um weitere N Nullen erweitert.
Die Transformationslänge wird beispielsweise zu 2N = 512 gewählt. Es ergeben sich
die transformierten Segmente X
l(i) und Y
l(i). Das Ausgangssignal z ergibt sich nach Rücktransformation und der Überlappung
der Segmente. l bezeichnet den Blockindex der Segmente, i die diskrete Frequenz (i=0,1,2...,2N-1).
Die Abtastrate der Signale x und y beträgt z.B. 12kHz.
[0015] Im Frequenzbereich wird der Langzeitmittelwert des Betragsspektrums subtrahiert (Spektrale
Subtraktion H
SPS). Das Kurzzeitmittel K und das Langzeitmittel L werden benutzt, um eine erste adaptive
Glättungkonstante β zu berechnen. Mit β wird das Störspektrum S
nn(i) geschätzt. Diese adaptive Glättungskonstante ersetzt den sonst üblichen Sprachpausendetektor.
l bezeichnet den Blockindex, i die diskrete Frequenz. Als Glättungskonstante β
o wird z.B. β
o = 0.03 verwendet.
mit
[0016] Das Störspektrum wird normiert und subtrahiert.
[0017] Eine modifizierte Form ergibt sich mit:
[0018] Für die Leistungsdichte S
xx,l eines Kanales gilt:
f
o wird als "spectral floor" bezeichnet. Es wird ein Teil des Hintergrundgeräuschs zugelassen,
um einen natürlich Höreindruck zu erzeugen und um einen Teil der "musical tones" zu
maskieren. α ist ein Überschätzfaktor für das Geräusch und dient der weiteren Reduzierung
des Restgeräuschs. Für diese Werte kann z.B. f
o = 0.2 und α = 1.5 gewählt werden.
[0019] Im Gegensatz zu den bekannten Formen der spektralen Substraktion wird eine zweite
adaptive Glättung mit α dazu benutzt einen weiteren Teil der "musical tones" zu reduzieren,
indem die Leistungsdichte S
xx bei Sprache wenig und bei Pause stark geglättet wird.
[0020] Für den zweiten Kanal Y gelten die entsprechenden Gleichungen.
[0021] Zur Berechnung der linearen Phasenverschiebung zwischen Nutzanteilen in den Kanälen
wird das in der nicht vorveröffentlichen Patentanmeldung P 42 43 831 angegebene Verfahren
verwendet. Dieses Verfahren fügt sich nahtlos in das erfindungsgemäße Geräuschreduktionsverfahren
ein. Die Phasenverschiebung wird an einer ausgewählten Anzahl der Maximas der Kreuzleistungsdichte
geschätzt und die Phasenkorrektur durch Multiplikation im Frequenzbereich mit der
Allpaßfunktion H
ALLP erreicht.
[0022] Bei mehr als zwei Kanälen wird die Phasenkorrektur für den jeweils weiteren Kanal
durchgeführt. Der erste Kanal dient als Referenz.
[0023] Durch ein "Beamforming-Verfahren" werden für die Kanäle die Richtungsfilter berechnet.
Dabei können als Geräusch verschiedene Fälle betrachtet werden. Es ergeben sich entsprechend
der Geräuschsituation verschiedene Richtungsfilter H
R. Es wird ein Satz dieser Filter ausgewählt, jedoch kann falls im späteren Betrieb
der Systemzustand bekannt ist, auf einem bestimmten Satz umgeschaltet werden oder
die Filter können ständig adaptiert werden. Als "Beamforming-Verfahren" wird beispielsweise
das Gradientenverfahren nach Frost ("An Algorithm for Linearly Constrained Adaptive
Array Processing" Proc. IEEE, Vol. 60, No. 8, 1972) oder nach Sondhi und Elko ("Adaptive
Optimization of Microphone Arrays under a Nonlinear Contraint" Int. Conf. on ASSP,
Tokyo, 1096, S. 981-984) verwendet.
[0024] Für die Richtungsfilterung ergibt sich im Frequenzbereich die Multiplikation:
[0025] Die Addition der Kanäle ergibt mit den Richtungsfiltern die Gesamt-Richtcharakteristik
und das Ausgangssignal
[0026] Außerdem führt die Addition der Kanäle zu einer Mittelung und damit Reduzierung der
statistischen Fehler der spektralen Subtraktion.
[0027] Anschließend wird die Kreuzleistungsdichte der beiden Kanäle mit Hilfe einer Glättungskonstanten
(z.B. γ = 0.3) be rechnet.
[0028] Die Kreuzleistungsdichte S
xy wird mit der Summe der Leistungsdichten S
xx, S
yy der einzelnen Kanäle normiert. Es ergibt sich eine modifizierte Kohärenzfunktion:
mit
[0029] Für das Ausgangssignal Z gilt:
[0030] Werden Richtungsfilter nach dem Verfahren von Sondhi und Elko verwendet, ist ein
inverses Filter zur Frequenzgangkorrektur erforderlich. Dieses Filter dient der Anhebung
der tieferen Frequenzen, weil der Frequenzgang der Richtungsfilter (für die gewünschte
Richtung, Richtung des Sprechers) zu einer Absenkung dieser Frequenzen führt. Dieses
Filter H
INV kann auf einfache Weise aus dem berechneten Frequenzgang approximiert werden.
[0031] Wird die Adaption nach dem Verfahren von Frost durchgeführt, ist kein inverses Filter
erforderlich, weil der Frequenzgang in Richtung des Sprechers den konstanten Wert
1 hat.
[0032] Das erfindungsgemäße Verfahren ist nicht auf Systeme mit zwei Kanälen beschränkt,
sondern auf Mehrkanalsysteme (3 und mehr Kanäle) anwendbar.
1. Verfahren zur Geräuschreduktion von zumindest zwei gestörten Sprachkanälen, wobei
die gestörten Sprachkanäle zu einem Ausgangskanal zusammengeführt werden,
dadurch gekennzeichnet,
- daß mittels digitaler Richtungsfilter und einer linearen Phasenschätzung für die
einzelnen Kanäle eine schwenkbare, akustische Richtkeule erzeugt wird, die der Sprecherbewegung
folgt und dadurch die räumlichen Störquellen gedämpft werden,
- daß in den einzelnen Kanälen in den Sprechpausen die Störung geschätzt wird und
durch spektrale Subtraktion die zeitlich stationären Störquellen gedämpft werden,
- daß anschließend die einzelnen Sprachkanäle addiert werden, und dadurch die statistischen
Störungen der spektralen Subtraktion gemittelt werden, und
- daß das Summensignal mit einer modifizierten Kohärenzfunktion nachverarbeitet wird
und dadurch die diffusen Stör- und Hallanteile gedämpft werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
- daß die spektrale Subtraktion mit zwei adaptiven Glättungskonstanten α, β durchgeführt
wird,
- daß mit der ersten adaptiven Glättungskonstante β das Störspektrum Snn geschätzt wird, und
- daß mit der zweiten adaptiven Glättungskonstanten α die Leistungsdichte Sxx der einzelnen Kanäle in den Sprachpausen stark und bei Sprache wenig geglättet wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die linearen Phasenverschiebung
von zumindest zwei Signalen über eine bestimmte Anzahl von Maxima der Kreuzleistungsdichte
im Frequenzbereich ermittelt wird.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phasenkorrektur, die Richtungsfilterung
und eine eventulelle notwendige inverse Filterung im Frequenzbereich durchgeführt
werden.