[0001] Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.
[0002] Ein derartiges Verfahren findet Verwendung bei automatischen Spracherkennungssystemen
oder für Freisprechanlagen z.B. in Büroräumen, Kraftfahrzeugen etc..
[0003] Gestörte Sprache ist besser erfaßbar, wenn sie mit zwei oder mehreren Kanälen aufgezeichnet
wird. Der Mensch benutzt zwei Kanäle, seine beiden Ohren. Durch eine psychoakustische
Nachverarbeitung wird bei ihm die Richtung des Sprechers ermittelt und die Hintergrundstörung
ausgeblendet. Bei technischen Geräten können zwei oder mehrere Kanäle zur Aufzeichnung
verwendet werden. Diese Signale können dann mit einer digitalen Signalverarbeitung
aufbereitet werden.
[0004] Ein wesentlicher Aspekt der mehrkanaligen Verarbeitung ist die Schätzung des Laufzeitunterschiedes
der einzelnen Kanäle. Ist der Laufzeitunterschied bekannnt, kann die Richtung des
Schallereignisses (Sprecher) ermittelt werden. Die Signale der einzelnen Kanäle können
entsprechend laufzeitkorrigiert und weiterverarbeitet werden. Werden z.B. nicht korrigierte
Signale zu einem Summensignal zusammengefaßt, können sich einzelne spektrale Anteile
des Signals durch Interferenz verstärken, dämpfen oder auslöschen.
[0005] Ein Verfahren zur automatischen Ermittlung der Laufzeitunterschiede zweier Mikrofone
ist aus einer Veröffentlichung von M. Schlang, ITG-Fachtagung 1988, Bad Nauheim S.
69-73 bekannt. Es arbeitet im Zeitbereich. Jedoch ist dieses Verfahren bei starken
Störungen nicht anwendbar.
[0006] Der Erfindung liegt deshalb die Aufgabe zugrunde ein Verfahren zur Laufzeitschätzung
für ein Spracherkennungssystem anzugeben, das auch bei starken Hintergrundgeräuschen
anwendbar ist, für ein Mehrkanalübertragungssystem geeignet ist und zeit- und kostensparend
arbeitet.
[0007] Die Aufgabe wird gelöst durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen
Merkmale. Vorteilhafte Ausgestaltungen und/oder Weiterbildungen sind den Unteransprüchen
zu entnehmen.
[0008] Die Erfindung wird anhand eines Ausführungsbeispiels beschrieben unter Bezugnahme
auf schematische Zeichnungen.
[0009] In FIG. 1 wird anhand eines Blockschaltbilds die Phasenschätzung erläutert.
[0010] FIG. 2 gibt für ein Fahrgeräusch von 140km/h eine Darstellung der Größen S
B, S
I, S
N und g in Abhängigkeit von der Zeit an.
[0011] In der vorliegenden Erfindung wird ein 2-kanaliger Laufzeitausgleich vorgestellt.
Die Erweiterung auf mehrere Kanäle ist mit dem entsprechenden Mehraufwand leicht möglich.
Der Laufzeitausgleich ist ein Teil der Signalvorverarbeitung einer mehrkanaligen Geräuschreduktion,
die z.B. für einen Spracherkenner im Fahrzeug verwendet werden kann.
[0012] Die Laufzeit wird im Frequenzbereich ermittelt. Dies ermöglicht eine einfache Laufzeitkorrektur
durch die Multiplikation des Spektrums mit der neuen Phase und führt zu einem geringen
Rechenaufwand.
[0013] Die Sprach- und Geräuschaufnahmen zur Entwicklung und Bewertung des vorliegenden
Verfahrens wurden in einem Fahrzeug mit zwei Mikrofonen durchgeführt. Die Störung
ist das Fahrgeräusch bei verschiedenen Fahrsituationen.
[0014] Mit dem erfindungsgemäßen Verfahren werden im Frequenzbereich die Phasen an einer
Anzahl von Maxima der Kreuzkorrelation bestimmt. Die Hintergrundstörung und das Einschwingverhalten
des Raumes werden ständig mitgeschätzt. Die einzelnen Phasenwerte werden nur zu Beginn
eines Einschwingvorgangs verarbeitet und wenn das Hintergrundgeräusch um einen gewissen
Faktor überschritten wird. Bei der Weiterverarbeitung der Phasenwerte wird eine lineare
Phasenbeziehung vorausgesetzt und die Varianz der Schätzung wird bei der Glättung
der Werte mitberücksichtigt. Die Berücksichtigung des Einschwingvorgangs des Raumes
fuhrt dazu, daß nur bei starken Energieanstiegen der Sprache eine Phasenschätzung
stattfindet. Sofort zu Beginn des Wortes steht ein neuer Phasenschätzwert zur Verfügung.
Der Einfluß von Reflexionen wird vermindert. Durch die Berücksichtigung des Hintergrundgeräuschs
ist das Verfahren für den praktischen Einsatz z.B. im Fahrzeug gut geeignet. Anhand
eines Blockschaltbildes in FIG. 1 wird der Verfahrensablauf der Phasenschätzung näher
erläutert.
[0015] Die Mikrofonsignale x und y werden in den Frequenzbereich transformiert (FFT, Fast
Fourier Transformation). Die Transformationslänge wird zu N = 256 gewählt. Es ergaben
sich die transformierten Segment X
l (i) und Y
l (i). l bezeichnet den Blockindex der Segmente, i die diskrete Frequenz (i = 0,1,2,...,N-1).
Die Segmente sind halb überlappt und werden mit einem Hanning Fenster gewichtet. (Die
Abtastrate der Signale x und y beträgt 12 kHz.)
[0016] Im Frequenzbereich wird der Langzeitmittelwert des Betragsspektrums subtrahiert (SPS,
spektrale Substraktion). Die Phase der Signale wird nicht verändert. Das Störgeräusch
wird reduziert. Es ergeben sich die Schätzwerte X̂ und Ŷ. Die SPS ist ein Standardverfahren
und kann hier in einer einfachen Version eingesetzt werden. Sind nur geringe Störungen
vorhanden, kann auf die SPS ganz verzichtet werden.
[0017] Mit der Glättungskonstante β wird das Störspektrum S
nn(i) geschätzt. Das Störspektrum wird normiert und subtrahiert. l bezeichnet den Blockindex,
i die diskrete Frequenz. Als Glättungskonstante wird z.B. β
l = 0.03 verwendet.


Für den zweiten Kanal Y gelten die entsprechenden Gleichungen.
[0018] Aus den geschätzten Werten X̂ und X̂ wird der Betrag der Kreuzleistungsdichte B
XY,l berechnet. Der Bereich (N
u, N
o) liegt z.B. zwischen 300 und 1500Hz (N
u = 6, N
o = 31, bei N = 256). Dabei gilt
Als Glättungskonstante α wird z.B. α = l gewählt. Werte α « l sind nicht sinnvoll.
[0019] Mit einer Präemphase können höhere Frequenzen angehoben werden. Dies ist dann vorteilhaft,
wenn das Sprachsignal und das Störsignal bei höheren Frequenzen eine geringere Leistung
aufweisen. Die Werte der Kreuzleistung B
xy (i) können z.B. im Bereich 300 bis 1500 Hz um 10dB linear an-steigend angehoben werden.
Die Präemphase kann aber auch schon durch die Mikrofoncharakteristik vorgegeben sein.
[0020] Aus den Werten B
xy (i) werden M Maxima bestimmt und summiert. Es können z.B. M = 8 verwendet werden.
Es wird ein aktueller Schätzwert

bestimmt.
[0021] Über einen Impulsmonitor wird eine "simulierte Impulsantwort" S
I berechnet. Das Einschwingverhalten des umgebenden Raumes auf plötzliche energiestarke
Schallereignisse (Sprache) wird hiermit grob simuliert (z.B. wird γ = 0.l gewählt).
Die Glättung des Phasenwerts "vom Wortanfang in das Wort hinein" ist mit γ einstellbar.
Außerdem wird über einen Geräuschmonitor eine adaptive Glättungskonstante h berechnet.
Mit dieser Glättungskonstanten ergibt sich ein Schätzwert S
N für die Störung. Wurde zuvor eine spektrale Substraktion (SPS) durchgeführt, ist
S
N ein Schätzwert für die Reststörung. Für die Glättungskonstante h
o gilt z.B. h
o = 0.03
Die Phase der gestörten Signale wird aus den Real- und Imaginärteilen von S
xy berechnet. Die Phase wird nur an den M zuvor bestimmten Maxima berechnet.

und

Daraus ergibt sich der Phasenanstieg:

Mit der Länge der Fouriertransformation N und der max. zulässigen Verschiebung um
n Taps ergibt sich (N = 256):
Übersteigt der Phasenanstieg |φ'| an einem der Maxima |φ'|
max, so wird dieser Wert φ' nicht weiterverwendet. Es wird eine adaptive Glättungskonstante
g berechnet:
Der aktuelle Wert S
B muß um den Faktor c größer sein als die simulierte Impulsantwort S
I
sonst gilt:
Der aktuelle Wert S
B muß um den Faktor d größer sein als das Restrauschen S
N
sonst gilt ebenfalls
Ist Gl. (17) oder Gl. (19) nicht erfüllt, d.h. gilt

, so kann die Phasenschätzung abgebrochen werden. Es gilt der alte Phasenschätzwert.
[0022] Für alle
gilt:

Von den ursprünglichen M Maxima werden wegen Gl. (21) nur M' für die Gl. (22, 23)
verwendet. Ist die Anzahl M' der für die Summen gültigen Werte φ kleiner als M
min, gilt der geschätzte Phasenanstieg als zu unsicher oder außerhalb des Nutzbereichs
(z.B. M
min = 6, bei M = 8). Die Phasenschätzung wird dann nicht aktualisiert und das Verfahren
hier abgebrochen. Es gilt der alte Phasenschätzwert.
[0023] Es wird die Varianz der Schätzung berechnet:

Als maximale Varianz wird
verwendet.
[0024] Entsprechend der Varianz wird die Glättungskonstante g gewichtet. Bei einer großen
Streuung gilt:

Bei einer mittleren Streuung gilt:

Bei sehr geringer Streuung gilt:

Entsprechend den Gl. 19 - 22 wird g in der Regel nur am Wortanfang größer Null sein.
Dabei muß die Energie des Wortes größer sein als die Energie des Restgeräusches und
der simulierten Impulsantwort. Mit der Variablen j wird die aufeinanderfolgende Anzahl
für g > 0 gezählt. Entsprechend gilt für die Glättung:

Wird z.B. infolge einer Störung die Bedingung g > 0 nur einmal in Folge erfüllt, wird
die Phasenschätzung nicht aktualisiert. Eine Aktualisierung der Phasenschätzung erfolgt
nur dann, wenn g > 0 mindestens 2-mal in Folge erfüllt wird.
[0025] Ein Beispiel für die Zwischengrößen S
B, S
I, S
N' und g und die daraus abgeleitete Phasenschätzung zeigt, FIG. 2. Dabei wird das Wort
"Senderwahl" gesprochen und das Fahrgeräusch bei 140km/h addiert. Das Verfahren wird,
wie oben angegeben, verwendet. Der Phasenschätzwert ist in Abtastwerten n angegeben.
Mit der Größe S
I wird der "Sprachimpuls" teilweise verdeckt und so nur bei starken Energieanstiegen
eine Schätzung erlaubt (S
B muß S
I um den Faktor 2 übersteigen). Die Schätzung der Reststörung S
N ermöglicht eine größere Robustheit gegenüber Geräuschen (S
B muß S
N um den Faktor 3 übersteigen).
1. Verfahren zur Laufzeitschätzung bei dem Laufzeitunterschiede von geräuschgestörten
Signalen von zumindest zwei Sprachkanälen mittels einer Kreuzkorrelation bestimmt
werden,
dadurch qekennzeichnet,
- daß im Frequenzbereich die Phasenwerte von zumindest zwei Signalen über eine bestimmte
Anzahl von Maxima der Kreuzleistungsdichte ermittelt werden und deren Phasenverschiebung
bestimmt wird, und
- daß der erforderliche Phasenausgleich ebenfalls im Frequenzbereich durchgeführt
wird.
2. Verfahren nach Anspruch l, dadurch gekennzeichnet, daß Hintergrundstörungen und das
Einschwingverhalten des Raumes bei der Bestimmung der Phasenwerte ständig mitgeschätzt
werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Hintergrundgeräusch über
einen Geräuschmonitor geschätzt wird, und daß ein neuer Phasenwert lediglich dann
ermittelt wird, wenn der Schätzwert des Hintergrundgeräusches um einen bestimmten
Faktor überschritten wird.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Einschwingverhalten des
umgebenden Raumes über einen Impulsmonitor derart geschätzt wird, daß lediglich bei
starkem Energieanstieg in den Signalen ein neuer Phasenschätzwert ermittelt wird.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine
lineare Laufzeitverschiebung der Signale angenommen wird.
6. Verfahren nach einem der vorhergehenden Ansprüche, da-durch gekennzeichnet, daß eine
Glättung des Phasenwertes vom Wortanfang in das gesprochene Wort hinein durchgeführt
wird, und daß die Varianz der Schätzung bei der Glättung der Phasenwerte mitberücksichtigt
wird.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
- daß zumindest zwei Mikrofonsignale x, y mittels einer FFT (Fast Fourier Tansformation)
in den Frequenzbereich transformiert werden,
- daß durch spektrale Substraktion aus den transformierten Signalen die Schätzwerte
X̂, Ŷ bestimmt werden,
- daß aus den geschätzten Werten X̂, Ŷ der Betrag der Kreuzleistungsdichte Bxy bestimmt wird,
- daß die Maxima der Kreuzleistungsdichte bestimmt werden, und daß aus einer bestimmten
Anzahl Maxima der Kreuzleistungsdichte Bxy ein aktueller Wert SB für die gestörten Signale ermittelt wird, daß abhängig vom aktuellen Wert SB die Phasen φ der gestörten Signale ermittelt werden und damit der Phasenanstieg φ'
bestimmt wird,
- daß der Phasenanstieg φ'geglättet wird, indem über einen Impulsmonitor ein simulierter
Sprachimpuls SI mit dem aktuellen Wert SB der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich
dann durchgeführt wird, wenn ein starker Energieanstieg des Mikrofonsignals registriert
wird, und
- daß mit einem Geräuschmonitor ein Schätzwert SN für die Hintergrundgeräuschstörung ermittelt wird und mit dem aktuellen Wert SB der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich
dann durch geführt wird, wenn vom Signal die Hintergrundstörung deutlich überschritten
wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß ein maximaler Phasenanstieg
|φ'|max für die Phase an den einzelnen Maxima vorgebbar ist und eine erneute Phasenschätzung
lediglich dann durchgeführt wird, wenn der Phasenanstieg um mindestens M' der M Maxima
den maximalen Anstieg |φ'|max nicht überschreitet.
9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Varianz der Phasenanstiege
an den einzelnen Maxima bei der zeitlichen Glättung des Phasenanstiegs berücksichtigt
wird.
10. Verfahren nach den Ansprüchen 7 bis 9, dadurch gekennzeichnet, daß eine erneute Phasenschätzung
lediglich dann durchgeführt wird, wenn die Bedingungen für einen gültigen Phasenanstieg
zeitlich mehrfach in Folge auftreten.
11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die
gestörte Sprache auf mehr als zwei Sprachkanälen aufgenommen wird und daß die Laufzeitunterschiede
der einzelnen Kanäle geschätzt werden.