[0001] Die Erfindung bezieht sich auf ein Mobilfunkgerät mit einer Sprachverarbeitungseinrichtung
mit mindestens zwei Mikrophonen, die zur Lieferung von aus Sprach- und Störsignalanteilen
bestehenden Mikrophonsignalen an Mikrophonsignalzweige dienen, die mit den Eingängen
einer zur Bildung eines Summensignals dienenden Addiervorrichtung gekoppelt sind.
[0002] Aus "Proceedings International Conference on Acoustics, Speech, and Signal Processing
(ICASSP), pp. 2578-2581, New York, April 1988, IEEE" ist eine Mikrophonanordnung aus
vier sich in den Ecken eines Raums mit quadratförmigem Grundriß befindenden Mikrophonen
bekannt, deren Mikrophonsignale so weiterverarbeitet werden, daß der Einfluß von Störsignalen,
die Sprachsignalen überlagert sind, verringert wird. Dazu werden zunächst die Mikrophonsignale
zeitlich gegeneinander verschoben, um Laufzeitdifferenzen von einem Sprecher zu den
einzelnen Mikrophonen auszugleichen. Die Mikrophonsignale mit somit phasengleichen
Sprachsignalanteilen werden von einer Addiervorrichtung zu einem Summensignal überlagert,
so daß die unkorrelierten Störsignalanteile der Mikrophonsignale bei der Uberlagerung
abschwächt werden. Die Abschwächung ist dann nicht optimal, wenn ein inhomogenes Störsignalfeld
vorliegt. In diesem Fall liegen an den Stellen, wo die Mikrophone angeordnet sind,
unterschiedliche Leistungen von Störsignalen vor. Die überlagerten Mikrophonsignale
werden nach Abschwächung durch einen der Mittelwertbildung dienendem Korrekturfaktor
einem adaptivem Filter (Wiener-Filter) zugeführt. Dieses wird durch Auswertung der
phasengleichen Mikrophonsignale eingestellt und sorgt für eine weitere Unterdrückung
der Störsignale.
[0003] Der Erfindung liegt die Aufgabe zugrunde, die Unterdrückung des Störsignalanteils
des am Ausgang der Addiervorrichtung anliegenden Summensignals zu verbessern.
[0004] Die Aufgabe wird dadurch gelöst, daß in den Mikrophonsignalzweigen Mittel zur Verzögerung
der Mikrophonsignale und Mittel zur Gewichtung der Mikrophonsignale mit Gewichtsfaktoren
vorgesehen sind und
daß eine Auswerteschaltung
- zum Empfang der Mikrophonsignale,
- zum Abschätzen der Störsignalanteile,
- zum Abschätzen der Sprachsignalanteile jeweils durch Bildung der Differenz von einem
der Mikrophonsignale und dem geschätzten Störsignalanteil für dieses Mikrophonsignal,
- zur Auswahl eines der Mikrophonsignale als Referenzsignal bestehend aus einem Referenzstörsignalanteil
und einem Referenzsprachsignalanteil,
- zur Bildung von Sprachsignalverhältnissen durch Division der geschätzten Sprachsignalanteile
durch den geschätzten Referenzsprachsignalanteil,
- zur Bildung von Störsignalverhältnissen durch Division der Leistungen der geschätzten
Störsignalanteile durch die Leistung des geschätzten Referenzstörsignalanteils und
- zur Bestimmung der Gewichtsfaktoren durch Division der Sprachsignalverhältnisse jeweils
durch das zugehörige Störsignalverhältnis
vorgesehen ist.
[0005] Das Signal/Rausch-Verhältnis entspricht dem Verhältnis der Leistungen von Sprach-
und Störsignalanteil des Summensignals. Der Einfluß einer Inhomogenität des Störsignalfeldes
wird minimiert. Mikrophonsignale mit kleinen Störsignalanteilen werden gegenüber den
Mikrophonsignalen mit großen Störsignalanteilen verstärkt. Dies führt aufgrund der
Korreliertheit der Sprachsignale und der Unkorreliertheit der Störsignale dazu, daß
das am Ausgang der Addiervorrichtung anliegende Summensignal einen verrringerten Störsignalanteil
bzw. ein erhöhtes Signal/Rausch-Verhältnis aufweist, wodurch eine bessere Sprachverständlichkeit
des Summensignals erreicht wird.
[0006] Die wenig rechenaufwendige Berechnung der Gewichtsfaktoren führt zu einem erhöhten
Signal/Rausch-Verhältnis und einer verbesserten Sprachverständlichkeit. Wegen der
effizienten Berechnung der Gewichtsfaktoren ist eine in der Sprachverarbeitung häufig
erforderliche Berechnung in Echtzeit möglich, so daß während eines über die Sprachverarbeitungseinrichtung
geführten Gespräches keine störende Verzögerung entsteht.
[0007] In einer weiteren Ausgestaltung der Erfindung ist eine Anpassung der Gewichtsfaktoren
an zeitliche Änderungen der Störsignalanteile vorgesehen.
[0008] Für den Fall instationärer, d.h. zeitabhängiger Störsignalstatistiken verschlechtert
sich bei konstanten Gewichtsfaktoren die Störsignalunterdrückung mit der Veränderung
der Signalstatistik. Eine Anpassung der Gewichtsfaktoren verhindert dies. Die Gewichtsfaktoren
werden in Zeitabschnitten konstant gehalten, in denen von einer zufriedenstellenden
Stationarität der Signalstatistiken der Störsignale ausgegangen wird. Die Länge dieser
Zeitabschnitte hängt von der Eigenart des jeweiligen Störsignalfeldes ab.
[0009] Eine andere Ausgestaltung der Erfindung ist dadurch gekennzeichnet, daß in jedem
Mikrophonsignalzweig eine Transformationseinrichtung zur Spektraltransformation des
zugeordneten Mikrophonsignals vorgesehen ist, daß die Auswerteschaltung zur Bildung
von Gewichtsfaktoren für jeden Ausschnitt des Spektralbereiches der Mikrophonsignale
vorgesehen ist und daß in jedem Mikrophonsignalzweig einem Mittel zur Gewichtung der
Spektralbereichsausschnitte eine Rücktransformationseinrichtung nachgeordnet ist.
[0010] Die Störsignalanteile der Mikrophonsignale besitzen im allgemeinen keine Spektren
mit gleich großen Spektralwerten. Aus diesem Grund ist es sinnvoll, die Bestimmung
der Gewichtsfaktoren der Mikrophonsignale und die Gewichtung nicht im Zeitbereich
sondern im Spektralbereich auszuführen, wozu eine Transformation der Mikrophonsignale
- beispielsweise mit einer Fourier-Transformation - erforderlich ist. Der Spektralbereich
wird in Ausschnitte mit mindestens einem Spektralwert unterteilt. Zu jedem Spektralbereichsausschnitt
werden die optimalen Gewichtsfaktoren bestimmt, mit dem die entsprechenden Spektralwerte
der Mikrophonsignale gewichtet werden. Eine verbesserte Reduzierung der Störsignalanteile
der Mikrophonsignale wird erreicht und die Sprachverständlichkeit weiter erhöht.
[0011] Ausführungsbeispiele werden nachstehend anhand der Zeichnungen näher erläutert.
[0012] Es zeigen:
Fig. 1 eine Sprachverarbeitungseinrichtung mit einer Anordnung zur Reduzierung von
Störsignalen,
Fig. 2 eine Ausgestaltung der Sprachverarbeitungseinrichtung durch eine Verarbeitung
im Spektralbereich,
Fig. 3 ein Schaltungselement der in Fig. 2 dargestellten Sprachverarbeitungseinrichtung
und
Fig. 4 ein Mobilfunkgerät, in das die Sprachverarbeitungseinrichtung integriert ist.
[0013] Die in Fig. 1 dargestellte Sprachverarbeitungseinrichtung, die beispielsweise in
Freisprecheinrichtungen von Fahrzeugen integriert ist, enthält N Mikrophone M
i (i=1, ..., N). Diese wandeln akustische Signale, die sich aus Sprach- und Störsignalanteilen
zusammensetzen, in elektrische Mikrophonsignale

(i=1, ..., N) um, die zur Weiterverarbeitung von Analog-Digital-Umsetzern 1 digitalisiert
werden. x
i steht für das vom Mikrophon M
i erzeugte Mikrophonsignal, s
i für den darin enthaltenen Sprachsignalanteil und n
i für den entsprechenden Störsignalanteil jeweils im i-ten Mikrophonsignalzweig. Für
die digitalisierten Signale sollen im folgenden dieselben Bezeichnungen wie für die
entsprechenden analogen Signale gelten. Die Störsignale sind normalerweise Rauschsignale,
die beim Einsatz in Fahrzeugen beispielsweise durch Motor- oder Fahrtwindgeräusche
verursacht werden. Die Ausgänge der Analog-Digital-Umsetzer 1 sind mit N Eingängen
einer Vorverarbeitungseinheit 2 verbunden. Diese enthält für jeden Mikrophonsignalzweig
jeweils ein Verzögerungsglied T₁, ..., T
N, wodurch Laufzeitunterschiede von Sprachsignalen einer Sprachsignalquelle zu den
Mikrophonen M₁, ..., M
N ausgeglichen werden. Die Verzögerungsglieder T₁, ..., T
N werden adaptiv an diese Laufzeitunterschiede angepaßt. Die Ausgänge der Vorverarbeitungseinheit
2 sind mit steuerbaren Multiplizierern 3 verbunden, die für eine Gewichtung mit Gewichtsfaktoren
c
i (i=1, ..., N) in den Mikrophonsignalzweigen sorgen. Die Gewichtsfaktoren c₁, ...,
c
N werden durch eine Auswerteeinheit 4 eingestellt, die diese durch Auswertung der Mikrophonsignale
x₁, ..., x
N nach einem noch zu erläuternden Schema ermittelt. Kann eine näherungsweise zeitliche
Stationarität der statistischen Eigenschaften der Störsignalanteile n
i vorausgesetzt werden, reicht eine einmalige Berechnung der Gewichtsfaktoren aus.
Die Ausgänge der Multiplizierer 3, die gleichzeitig die Ausgänge der Mikrophonsignalzweige
darstellen, sind mit N Eingängen einer Addiervorrichtung 5 verbunden. Diese erzeugt
aus den Ausgangssignalen der Multiplizierer 3 ein Summensignal

, das einem adaptivem Filter 6 - beispielsweise ein als Wiener-Filter ausgeführtes
FIR-Filter - zugeführt wird. Das Filter 6 wird mit Hilfe der Auswerteeinheit 4 durch
Auswertung der Mikrophonsignale z.B. wie im eingangs zitierten Stand der Technik eingestellt.
[0014] Im folgenden soll das Schema erläutert werden, mit dem die Auswerteeinheit 4 die
Gewichtsfaktoren c
i ermittelt. In einen in der Auswerteeinheit 4 angeordneten Pufferspeicher werden Abtastwerte
der Mikrophonsignale x
i eingelesen. Man erhält Schätzwerte für die Amplituden bzw. der Störsignalanteile
n
i durch Auswertung von den im Pufferspeicher abgelegten Abtastwerten der Mikrophonsignale
x
i aus den Zeiträumen, in denen keine oder vernachlässigbar kleine Sprachsignalanteile
s
i vorhanden sind. Solche Sprachpausen sind aufgrund des markanten Signalverlaufs bzw.
Spektrums von Sprachsignalen gegenüber Störsignalen detektierbar. Durch Subtraktion
der ermittelten Schätzwerte der Amplituden der Störsignale n
i von außerhalb der Sprachpausen liegenden Schätzwerten der Amplituden von Mikrophonsignalen
x
i (mit Sprachsignalanteilen s
i), die ebenfalls aus im Pufferspeicher abgelegten Abtastwerten ermittelt werden, werden
die Schätzwerte der Amplituden der Sprachsignalanteile s
i durch Differenzbildung bestimmt.
[0015] Die Gewichtsfaktoren c₁, ..., c
N sollen so dimensioniert werden, daß das sogenannte Signal-Rauschverhältnis (SNR)
des Summensignals x am Ausgang der Addiervorrichtung 5 maximiert wird. Das SNR ergibt
sich aus dem Verhältnis der Leistung (Varianz) des Sprachsignalanteils zur Leistung
(Varianz) des Störsignalanteils des Summensignals x.

σ
s und σ
n sind die Standardabweichungen des Sprachsignalanteils s und des Störsignalanteils
n des Summensignals x. Weiterhin sind durch
Sprachsignalverhältnisse a
i durch das Verhältnis der geschätzten Amplituden der Sprachsignalanteile s
i zu der geschätzten Amplitude des als Referenzsprachsignalanteil dienenden Sprachsignalanteils
s₁ bestimmt, wenn x₁ als Referenzmikrophonsignal zugrunde gelegt wird. n₁ dient damit
als Referenzstörsignal. Als Referenzgrößen sind ohne Einschränkung auch alle anderen
Mikrophonsignale bzw. Sprach- und Störsignalanteile mit einem Index i≠1 festsetzbar.
Unter der Voraussetzung, daß die Störsignalanteile n
i unkorreliert und mittelwertfrei sind, gilt:
und
mit E{} als Erwartungswertoperator und σ
n1² als Referenzstörleistung. Damit sind sind Störsignalverhältnisse b
i² durch das Verhältnis der geschätzten Leistungen σ
ni² der Störsignalanteile zu der geschätzten Leistung σ
n1² des Referenzstörsignalanteils definiert.
[0016] Es wird weiterhin davon ausgegangen, daß die Sprach- und Störsignalanteile nicht
miteinander korreliert sind und mittelwertfrei sind, was durch den Ausdruck
beschrieben wird. Damit ergibt sich als Formel für das SNR des Summensignals x:

Die Maximierung dieses Ausdrucks bezüglich der Gewichtsfaktoren c
i ergibt:

Dieses Ergebnis erhält man beispielsweise über die Bildung der partiellen Ableitungen
des obigen Ausdrucks für das SNR. Man erhält eine sehr einfache Formel zur Berechnung
der Gewichtsfaktoren c
i.
[0017] Die durch die Fig. 2 und 3 beschriebene Sprachverarbeitungeinrichtung stellt eine
Ausgestaltung der in Fig. 1 dargestellten Sprachverarbeitungeinrichtung dar. Die N
Ausgangssignale der Vorverarbeitungseinheit 2, die die Abtastwerte der Mikrophonsignale
x₁, ..., x
N darstellen, werden durch Spektraltransformationseinrichtungen 7 in den Spektralbereich
transformiert, z.B. durch schnelle Fourier-Transformation (FFT). Der Spektralbereich
wird in M Ausschnitte unterteilt, die mindestens einen Spektralwert enthalten. Die
Spektralwerte werden auf N Multiplikationseinrichtungen 8 gegeben, die jeden Spektralbereichsausschnitt
mit einem eigens für jeden Spektralbereichsausschnitt getrennt berechneten Gewichtsfaktor
c
i,j gewichtet bzw. multipliziert. i ist der Index des Mikrophonsignalzweiges. j stellt
den Spektral- bzw. Frequenzindex des jeweiligen Spektralbereichsausschnittes dar.
In Fig. 3 ist eine der Multiplikationseinrichtungen 8 in ihrer Grundstruktur dargestellt,
die die Spektralbereichsausschnitte des jeweiligen Mikrophonsignalzweiges mit den
Gewichtsfaktoren c
i,j multipliziert. Der Spektralbereich enthält M Spektralbereichsausschnitte, so daß
für jeden Mikrophonsignalzweig M Multiplizierer notwendig sind. Die Gewichtsfaktoren
c
i,j werden von einer Auswerteeinheit 9 eingestellt. Sie werden analog zur Berechnung
der Gewichtsfaktoren c
i in der Beschreibung zu Fig. 1 durch Maximierung des Signal/Rausch-Verhältnisses (SNR)
in den jeweiligen Spektralbereichsausschnitten ermittelt. Die Schätzwerte der Amplituden
der Sprach- und Störsignalanteile s
i, n
i im Zeitbereich sind durch entsprechende Schätzwerte im Frequenzbereich zu ersetzen.
Die so gewichteten Spektralwerte werden Rücktransformationseinrichtungen 10 zugeführt,
die die gewichteten Spektren der jeweiligen Mikrophonsignalzweige in den Zeitbereich
rücktransformiert. Die so erhaltenen Signale werden wie in Fig. 1 von der Addiervorrichtung
5 aufsummiert und dem adaptiven Filter 6 zugeführt. Dieses wird von einer Auswerteeinheit
11 eingestellt, die analog zur die Auswerteeinheit 4 in Fig. 1 die an den Ausgängen
der Analog-Digital-Umsetzer 1 anliegenden Mikrophonsignale x
i auswertet.
[0018] Mit Hilfe einer so ausgestalteten Sprachverarbeitungseinrichtung kann das Signal/Rausch-Verhältnis
(SNR) des Summensignals x weiter erhöht und die Sprachverständlichkeit verbessert
werden, da berücksichtigt wird, daß die Leistung der Störsignalanteile im Spektralbereich
nicht gleichmäßig auf alle Spektralwerte verteilt ist.
[0019] Für den Fall zeitvarianter Störsignalstatistik, d.h. daß die Standardabweichungen
σ
ni sind nicht näherungsweise zeitunabhängig sind, werden die Gewichtsfaktoren c
i bzw. c
i,j ständig neu berechnet und eingestellt. Dies ist von der Eigenart des jeweiligen Störsignalfeldes
abhängig. So ändert sich beispielsweise die Störsignalstatistik eines Fahrzeuges beim
Beschleunigen aus dem Stand erheblich, da nun beispielsweise durch den Fahrtwind erzeugtes
Rauschen entsteht.
[0020] In Fig. 4 ist ein Mobilfunkgerät 12 dargestellt, in das eine Sprachverarbeitungseinrichtung
13 integriert ist, der über eine Anordnung aus drei Mikrophonen M₁, M₂ und M₃ Mikrophonsignale
zugeführt werden. Der Aufbau der Sprachverarbeitungseinrichtung 13 ist entweder der
Figur 1 oder den Figuren 2 und 3 mit den zugehörigen Beschreibungen zu entnehmen.
Ausgangssignale der Sprachverarbeitungseinrichtung 13 werden einem Funktionsblock
14 zugeführt, der die weiteren Funktionseinheiten des Mobilfunkgeräts 12 zusammenfaßt
und an den ein Lautsprecher 15 und eine Antenne 16 gekoppelt sind. Die Mikrophone
M₁, M₂ und M₃, die Sprachverarbeitungseinrichtung 13 und der Lautsprecher 15 wirken
mit Hilfe des Funktionsblocks 14 als Teile einer Freisprecheinrichtung des Mobilfunkgeräts
12.
1. Mobilfunkgerät mit einer Sprachverarbeitungseinrichtung mit mindestens zwei Mikrophonen
(M₁, ...,M
N), die zur Lieferung von aus Sprach- und Störsignalanteilen (s₁, ..., s
N, n₁, ..., n
N) bestehenden Mikrophonsignalen (x₁, ..., x
N) an Mikrophonsignalzweige dienen, die mit den Eingängen einer zur Bildung eines Summensignals
(x) dienenden Addiervorrichtung (5) gekoppelt sind,
dadurch gekennzeichnet,
daß in den Mikrophonsignalzweigen Mittel (T₁, ..., T
N) zur Verzögerung der Mikrophonsignale (x₁, ..., x
N) und Mittel (3) zur Gewichtung der Mikrophonsignale (x₁, ..., x
N) mit Gewichtsfaktoren (c₁, ..., c
N) vorgesehen sind und daß eine Auswerteschaltung (4)
- zum Empfang der Mikrophonsignale (x₁, ..., xN),
- zum Abschätzen der Störsignalanteile (n₁, ..., nN),
- zum Abschätzen der Sprachsignalanteile (s₁, ..., sN) jeweils durch Bildung der Differenz von einem der Mikrophonsignale (xi) und dem geschätzten Störsignalanteil (ni) für dieses Mikrophonsignal (xi),
- zur Auswahl eines der Mikrophonsignale als Referenzsignal (x₁) bestehend aus einem
Referenzstörsignalanteil (n₁) und einem Referenzsprachsignalanteil (s₁),
- zur Bildung von Sprachsignalverhältnissen (a₁,..., aN) durch Division der geschätzten Sprachsignalanteile (s₁, ..., sN) durch den geschätzten Referenzsprachsignalanteil (s₁),
- zur Bildung von Störsignalverhältnissen (b₁²,...,bN²) durch Division der Leistungen (σn1²,...,σnN²) der geschätzten Störsignalanteile (n₁, ..., nN) durch die Leistung (σn1²) des geschätzten Referenzstörsignalanteils (n₁) und
- zur Bestimmung der Gewichtsfaktoren (c₁, ...,cN) durch Division der Sprachsignalverhältnisse (a₁,...,aN) jeweils durch das zugehörige Störsignalverhältnis (bi²)
vorgesehen ist.
2. Mobilfunkgerät nach Anspruch 1,
dadurch gekennzeichnet,
daß die Sprachverarbeitungseinrichtung in eine Freisprecheinrichtung integriert ist.
3. Mobilfunkgerät nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
daß eine Anpassung der Gewichtsfaktoren (c₁, ..., cN) an zeitliche Änderungen der Störsignalanteile (n₁, ..., nN) vorgesehen ist.
4. Mobilfunkgerät nach einem der Ansprüche 1, 2 oder 3, dadurch gekennzeichnet,
daß in jedem Mikrophonsignalzweig eine Transformationseinrichtung (7) zur Spektraltransformation
des zugeordneten Mikrophonsignals (xi) vorgesehen ist,
daß die Auswerteschaltung (9) zur Bildung von Gewichtsfaktoren (ci,j) für jeden Ausschnitt des Spektralbereichs der Mikrophonsignale (x₁, ..., xN) vorgesehen ist und
daß in jedem Mikrophonsignalzweig einem Mittel (8) zur Gewichtung der Spektralbereichsausschnitte
eine Rücktransformationseinrichtung (10) nachgeordnet ist.
5. Sprachverarbeitungseinrichtung mit mindestens zwei Mikrophonen (M₁, ...,M
N), die zur Lieferung von aus Sprach- und Störsignalanteilen (s₁, ..., s
N, n₁, ..., n
N) bestehenden Mikrophonsignalen (x₁, ..., x
N) an Mikrophonsignalzweige dienen, die mit den Eingängen einer zur Bildung eines Summensignals
(x) dienenden Addiervorrichtung (5) gekoppelt sind,
dadurch gekennzeichnet,
daß in den Mikrophonsignalzweigen Mittel (T₁, ..., T
N) zur Verzögerung der Mikrophonsignale (x₁, ..., x
N) und Mittel (3) zur Gewichtung der Mikrophonsignale (x₁, ..., x
N) mit Gewichtsfaktoren (c₁, ..., c
N) vorgesehen sind und daß eine Auswerteschaltung (4)
- zum Empfang der Mikrophonsignale (x₁, ..., xN),
- zum Abschätzen der Störsignalanteile (n₁, ..., nN),
- zum Abschätzen der Sprachsignalanteile (s₁, ..., sN) jeweils durch Bildung der Differenz von einem der Mikrophonsignale (xi) und dem geschätzten Störsignalanteil (ni) für dieses Mikrophonsignal (xi),
- zur Auswahl eines der Mikrophonsignale als Referenzsignal (x₁) bestehend aus einem
Referenzstörsignalanteil (n₁) und einem Referenzsprachsignalanteil (s₁),
- zur Bildung von Sprachsignalverhältnissen (a₁,..., aN) durch Division der geschätzten Sprachsignalanteile (s₁, ..., sN) durch den geschätzten Referenzsprachsignalanteil (s₁),
- zur Bildung von Störsignalverhältnissen (b₁², ...,bN²) durch Division der Leistungen (σn1²,...,σnN²) der geschätzten Störsignalanteile (n₁, ..., nN) durch die Leistung (σn1²) des geschätzten Referenzstörsignalanteils (n₁) und
- zur Bestimmung der Gewichtsfaktoren (c₁,...,cN) durch Division der Sprachsignalverhältnisse (a₁,...,aN) jeweils durch das zugehörige Störsignalverhältnis (bi²)
vorgesehen ist.