[0001] In Sprachsignalverarbeitungssystemen wird der aktuelle Sprachpegel beispielsweise
zur Skalierung von Signalen, zur Schwellwertentscheidung, zur Sprachpausendetektion
und/oder zur automatischen Verstärkungseinstellung verwendet. Besondere Bedeutung
hat die Sprachpegelmessung für eine erfolgreiche Echokompensation in Telekommunikationssystemen,
für eine Geräuschunterdrückung in lärmerfüllter Umgebung, beispielsweise in Militärfahrzeugen,
oder bei der Spracherkennung und in Sprachkodierungs- und Sprachdekodierungseinrichtungen.
[0002] Es ist allgemein bekannt, einen Mittelwert SL (speech level) aus den Abtastwerten
x(k) eines Sprachsignals x(t) innerhalb eines Zeitintervalls gemäß Gleichung G1 zu
bilden.

[0003] Bei Sprachpausen nimmt der Mittelwert SL in einer von der Anzahl N der Abtastwerte
bestimmten Zeit den Wert des Ruhegeräuschs an. Zu Beginn der Sprachaktivität benötigt
ein Mittelwertbildner eine von der Anzahl N bestimmte Zeit, um den Sprachpegel zu
bestimmen. Die Mittelung in einem Zeitintervall von 125 ms erfordert einen Datenspeicher
von 1000 Datenworten bei einer Abtastrate von 8 kHz. Abgesehen von dem beträchtlichen
Rechen- und Speicheraufwand besteht bei der einfachen Mittelwertbildung die Gefahr,
daß bei kurzer Mittelungszeit durch Störeinflüsse Fehler bei der Bestimmung des Sprachpegels
auftreten. Bei langer Mittelungszeit ist einerseits die Information über die Größe
des Sprachpegels sehr spät verfügbar, andererseits treten bei Sprachpegeländerungen
Fehlmessungen des Sprachpegels auf.
[0004] Weiterhin ist bekannt, rekursive Filter zur Mittelwertbildung zu verwenden, vgl.
Hentschke: Grundzüge der Digitaltechnik, Stuttgart: Teubner 1988, Seiten 52-54. Der
Rechen- und Speicheraufwand für diese digitalen Filter ist relativ gering, jedoch
werden alle Signalwerte gemittelt, so daß eine Unterscheidung zwischen Sprache und
Störgeräusch ausgeschlossen ist.
[0005] Aus dem Gebiet der Sprachverarbeitung ist das Verfahren der linearen Prädiktion (linear
predictive coding, LPC) bekannt, mit dem grundsätzlich auch Unterscheidungsmerkmale
von Sprache und Störgeräusch ermittelbar sind. Die LPC-Analyse ist sehr genau und
kann sehr schnell durchgeführt werden und ist ein leistungsfähiges Verfahren, mit
dem unter anderem die Grundfrequenz, das Spektrum und die Formate eines Sprachsignals
bestimmt werden können, vgl. Eppinger, Herter: Sprachverarbeitung, München, Wien:
Hanser 1983, Seiten 73-77. Ein solches aufwendiges Verfahren ist jedoch aus kommerziellen
Gründen für Massenprodukte, wie Telekommunikationsendgeräte, nicht geeignet.
[0006] Mit der Erfindung wird nun die Aufgabe gelöst, ein kostengünstig realisierbares Verfahren
zur Sprachpegelmessung und eine Schaltungsanordnung zur Realisierung des Verfahrens
anzugeben, die folgende Eigenschaften haben:
- Aus einem Zeitsignal soll der aktuelle Sprachpegel möglichst rasch und präzise ermittelt
werden,
- Die Adaptionszeit der Sprachpegelmeßschaltung soll kurz sein, um hörbare Fehler, wie
Lautstärkeschwankungen zu vermeiden,
- Der gemessene Sprachpegel soll unabhängig von Pegelschwankungen der Sprache, hervorgerufen
beispielsweise durch nasale Laute oder offene Vokale, sein,
- Der gemessene Sprachpegel soll unabhängig von kurzzeitigen Störeinflüssen, wie beispielsweise
Räuspern, Husten, Klatschen, Türenschlagen, sein, obwohl gerade diese Störer eine
großen Energieinhalt haben,
- In Sprachpausen soll der gemessene Wert des Sprachpegels erhalten bleiben, um das
von der automatischen Verstärkungsregelung (Automatic Gain Control, AGC) bekannte
Atmen der Lautstärke zu unterdrücken.
[0007] Diese Aufgabe wird durch das im ersten Patentanspruch beschriebene Verfahren und
durch die im siebenten Patentanspruch beschriebene Schaltungsanordnung gelöst.
[0008] Das Wesen der Erfindung besteht darin, daß ein gemessener Sprachpegelwert nur dann
zur Weiterverarbeitung in einem Sprachsignalverarbeitungssystem zugelassen wird, wenn
charakteristische Merkmale der Sprache erkannt und Störsignale und Sprachpausen bei
der Messung ausgeblendet wurden.
[0009] Die Erfindung wird nachstehend an einem Ausführungsbeispiel beschrieben. In der dazugehörigen
Zeichnung zeigen
- Fig. 1
- ein Blockschaltbild der erfindungsgemäßen Schaltungsanordnung,
- Fig. 2
- eine Darstellung der Zeitfunktionen der Abtastwerte eines Sprachsignals, eines Kurzzeitmittelwertes
und eines tiefpaßgefilterten Sprachsignals und
- Fig. 3
- ein Blockschaltbild einer Anordnung zur Ermittlung des Kurzzeitmittelwertes.
[0010] Gemäß Fig. 1 besteht die Schaltungsanordnung im wesentlichen aus einem Sprachpausendetektor
1, einem Sprachdetektor 2, einem Mittelwertbildner 3, einem Speicher 4 sowie einer
Schaltung 5 zur Bildung eines Absolutwertes. Am Schaltungseingang liegt die Abtastfunktion
x(k) eines Sprachsignals, am Schaltungsausgang wird der Wert eines Sprachpegels SL
ausgegeben. Wird eine Sprachpause, Ausgangssignal P des Sprachpausendetektors 1, und
wird keine Sprache, Ausgangssignal F des Sprachdetektors 2, erkannt, so befinden sich
gemäß Fig. 1 ein erster Schalter S1, ein zweiter Schalter S2 und ein dritter Schalter
S3 in der gezeichneten Stellung. Liegt ein Sprachsignal in Form der Abtastfunktion
x(k) vor, d.h. eine Sprachpause P wird nicht erkannt, wird der Sprachdetektor 2 über
den geschlossenen ersten Schalter S1 aktiviert und die Mittelwertbildung über die
Schaltung 5 und den geschlossenen zweiten Schalter S2 mit dem Mittelwertbildner 3
eingeleitet. Wurde ein Sprachsignal erkannt, so wird über das Ausgangssignal F des
Sprachdetektors 2 der dritte Schalter S3 geschlossen und das Ausgangssignal SAM(x)
des Mittelwertbildners 3 wird über den dritten Schalter S3 in den Speicher 4 übernommen.
Während der Sprachpausen wird der zuletzt gemessene Sprachpegel SL aus dem Speicher
4 über den zweiten Schalter S2 dem Mittelwertbildner 3 übergeben.
[0011] Mit dem Mittelwertbildner 3 wird ein Kurzzeitmittelwert SAM(x) (Short Average Magnitude)
so gebildet, daß das Zeitverhalten des Kurzzeitmittelwertes SAM(x) der subjektiven
Wahrnehmungsfunktion des menschlichen Ohres weitgehend angepaßt ist. Ein Dynamiksprung
von leisen zu lauten Tönen wird dazu mit einer kleinen Zeitkonstanten τs, beispielsweise
kleiner als 6,5 ms, berechnet. Ein Dynamiksprung von lauten zu leisen Tönen wird entsprechend
dem Nachverdeckungseffekt des menschlichen Ohres mit einer großen Zeitkonstanten τl,
beispielsweise 65 ms bis 300 ms, berechnet. Kurz gesprochene Vokale werden auf diese
Weise gut erfaßt. Nasale Laute oder Konsonanten mit im Vergleich zu Vokalen geringerem
Pegel werden bei der Sprachpegelmessung durch die große Zeitkonstante τl bei fallenden
Pegeln weitgehend unterdrückt. Durch die unterschiedlichen Zeitkonstanten τs, τl für
steigenden und fallenden Signalverlauf wird eine schnelle Adaption des Kurzzeitmittelwertes
SAM(x) an den aktuellen Spitzenwert des Kurzzeitpegels des Sprachsignals erreicht.
Dieser Spitzenwert des Kurzzeitpegels des Sprachsignals bestimmt somit unabhängig
vom Sprachinhalt den relativen Sprachpegel.
[0012] Figur 2 zeigt das Zeitverhalten der Abtastwerte für drei Funktionen. Die Eingangsfunktion
x(k) der Sprachpegelmeßschaltung gemäß Fig. 1 ist als Funktionsverlauf 6 einer Sprachprobe
dargestellt. Der Funktionsverlauf 7 zeigt den Verlauf des Kurzzeitmittelwertes SAM
(x(k)), kurz SAM (x), unter Berücksichtigung der Wirkungsweise der unterschiedlichen
Zeitkonstanten τs, τl wie zuvor beschrieben. Zum Vergleich ist noch ein dritter Funktionsverlauf
8 dargestellt, der die Wirkung eines einfachen Tiefpasses wiedergibt. Daraus geht
hervor, daß ein Tiefpaß für eine rasche und präzise Ermittlung des aktuellen Sprachpegels
ungeeignet ist.
[0013] In Fig. 3 sind Einzelheiten des Mittelwertbildners 3 dargestellt, der ein rekursives
Filter, ein an sich bekanntes IIR-Filter 9 (Infinite Impulse Response Filter), und
eine Schaltungsanordnung 10 zur Umschaltung der Zeitkonstanten τs, τl enthält. Die
Schaltung 5 zur Bildung des Absolutwertes entspricht der in Fig. 1 dargestellten Schaltung.
Um den zuvor beschriebenen Verlauf des Kurzzeitmittelwertes SAM (x) zu erzielen, ist
eine Umschaltung der Zeitkonstanten τs, τl nach folgender Gleichung G2 erforderlich:

[0014] Das bedeutet, wenn der Abtastwert x(k) des Sprachsignals x(t) größer ist als der
Kurzzeitmittelwert SAM (x), beispielsweise in Fig. 2 Funktionsverlauf 6, Abtastzeitpunkte
0 bis 12, wird für die Zeitkonstanten α, β der Wert der kurzen Zeitkonstanten τs zur
Berechnung des Kurzzeitmittelwertes SAM (x) verwendet.
[0015] Zur Realisierung des Sprachpausendetektors 1 in Fig. 1 wird ein Verfahren verwendet,
mit dem das zeitliche Verhalten der Abtastfunktion x(k) des Sprachsignals ausgewertet
wird. Der Kurzzeitmittelwert SAM (x) der Abtastfunktion x(k) wird mit einem in einem
Zeitintervall ermittelten Langzeitminimalwert aus einer Anzahl Kurzzeitmittelwerte
SAM (x) verglichen.

[0016] Der Minimalwert der Kurzzeitmittelwerte SAM (x) wird in einem Zeitintervall von t
= 0 ... tlam, beispielsweise tlam = 3s bis 7s gesucht. Ist der aktuelle Kurzzeitmittelwert
SAM (x) kleiner als dieser Minimalwert, so wird das Eingangssignal x(k) an der Sprachpegelmeßschaltung
als Pause P gewertet. Sprachsignale würden immer größer als der ermittelte Minimalwert
sein. Zur sicheren Bestimmung des aktuellen Sprachpegels ist nicht nur die Unterscheidung
zwischen Sprache und Sprachpause erforderlich, sondern auch die Unterscheidung zwischen
Sprache und Störern. Dazu dient der in Fig. 1 dargestellte Sprachdetektor 2, dessen
Ausgangssignal F als Entscheidungskriterium für die Übernahme des Kurzzeitmittelwertes
SAM (x) in den Speicher 4 dient. Unterscheidungsmerkmale zwischen Sprache und Störer
sind beispielsweise das Zeitverhalten, die Periodizität oder die LPC-Koeffizientendarstellung
eines LPC-Filters. Für die vorliegende Aufgabenstellung ist die Auswertung des Zeitverhaltens
vorteilhaft. Dazu wird die Tatsache ausgenutzt, daß Störer kurzzeitig wirken, im allgemeinen
kürzer als 200 ms, während ein Sprecher eine größere Zeit, mindestens 1 s, aktiv ist,
um eine Information abzugeben und die Sprachfunktion keine kurzzeitigen hohen Momentanwerte
aufweist. Die Ungleichung G4 beschreibt die Bedingung, die für die Detektion des Eingangssignals
x(k) als Sprache erfüllt sein muß.

für

mit
i = Anzahl der Abtastwerte k
τ(s) = Sprechzeit
Fa = Abtastfrequenz
[0017] [SAM (x) ... SAM (x-i)] bedeutet, daß eine Anregung für eine bestimmte Mindestzeit
vorhanden sein muß, damit nicht bereits ein Rauschen als Anregung detektiert wird.
Die rechte Seite der Ungleichung G4 wurde bei der Beschreibung der Ungleichung G3
erläutert. Die Zeitüberwachung für die Sprechzeit τ(s) wird mit einem hier nicht dargestellten
Zähler durchgeführt, der durch den Sprachpausendetektor 1 gestartet und zurückgesetzt
wird. Beim Überschreiten der definierten Sprechzeit τ(s) wird der zuvor vom Mittelwertbildner
3 gemessene Kurzzeitmttelwert SAM (x) in den Speicher 4 übernommen. Es ist praktisch
vorteilhaft, als Sprechzeit τ(s) eine Dauer von 300 ms zu definieren.
[0018] Es ist auch möglich, die Zeitkonstanten τs, τl des Mittelwertbildners 3 zu variieren,
um einen für den jeweiligen Anwendungsfall angepaßten Sprachpegel SL zu erhalten.
Die in dem Ausführungsbeispiel beschriebene Bildung eines Kurzzeitmittelwertes SAM(x)
wird vorteilhafterweise in stark geräuschbehafteter Umgebung, beispielsweise in einem
Panzer eingesetzt. Bei undeutlichen Sprechern ist es günstiger, einen Mittelwert (Medium
Average Magnitude) MAM(x) zu bilden, indem die kleine Zeitkonstante τs vergrößert
und die große Zeitkonstante τl des Mittelwertbildners 3 verkleinert wird.
[0019] Mit geringem Rechen- und Speicheraufwand wird wie beschrieben eine kostengünstige
und zuverlässige Sprachpegelmessung realisiert.
1. Verfahren zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem mit folgenden
Verfahrensschritten:
- Ein Sprachsignal (x(k)) wird sowohl einem Sprachpausendetektor (1) als auch einem
Sprachdetektor (2) zugeführt,
- Bei von dem Sprachpausendetektor (1) erkannter Pause (P) und, von dem Sprachdetektor
(2) erkannter Sprache (F) wird von dem Sprachsignal (x(k)) ein Mittelwert mit einem
Mittelwertbildner (3) gemessen, dessen Übertragungsfunktion an die Übertragungsfunktion
des menschlichen Ohres angepaßt ist,
- Bei erkannter Sprache (F) wird der gemessene Mittelwert in einem Speicher (4) zur
Weiterverarbeitung als gemessener Sprachpegel (SL) abgelegt.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß
mit dem Sprachpausendetektor (1) eine Pause (P) im Sprachsignal (x(k)) erkannt wird,
wenn der Kurzzeitmittelwert des Sprachsignals (x(k)) kleiner ist als der in einem
definierten Zeitintervall ermittelte Langzeitmittelwert des Sprachsignals (x(k)).
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mit dem Sprachdetektor (2)
Sprache (F) im Sprachsignal (x(k)) erkannt wird, wenn die Anregung des Sprachdetektors
für eine Mindestzeit den in einem definierten Zeitintervall ermittelten Longzeitmittelwert
des Sprachsignals (x(k)) überschreitet.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Mittelwertbildner (3) einen
Kurzzeitmittelwert des Sprachsignals (x(k)) derart bildet, daß die Mittelwertbildung
bei ansteigendem Verlauf des Sprachsignals (x(k)) und bei fallendem Verlauf des Sprachsignals
(x(k)) durch unterschiedliche Zeitkonstanten (τs, τl) erfolgt.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß bei ansteigendem Verlauf des
Sprachsignals (x(k)), also bei einem Dynamiksprung von leisen zu lauten Tönen, für
die Mittelwertbildung eine kleine Zeitkonstante (τs), beispielsweise τs < 6,5 ms,
verwendet wird.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß bei fallendem Verlauf des Sprachsignals
(x(k)) für die Mittelwertbildung eine große Zeitkonstante (τl), beispielsweise τl
= 65 ms ... 300 ms, verwendet wird und damit der Nachverdeckungseffekt des menschlichen
Ohres nachgebildet wird.
7. Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem,
deren Eingang (x(k)) sowohl mit einem Sprachpausendetektor (1) als auch mit einem
Sprachdetektor (2) und einem Mittelwertbildner (3), dessen Ausgang einem Speicher
(4) liegt, verbunden ist.
8. Schaltungsanordnung nach Anspruch 7, dadurch gekennzeichnet, daß der Eingang des Sprachdetektors
(2) über einen ersten Schalter (S1) und der Eingang des Mittelwertbildners (3) über
einen zweiten Schalter (S2) an den Eingang (x(k)) der Schaltungsanordnung geschaltet
sind, wobei der erste Schalter (S1) und der zweite Schalter (S2) in Abhängigkeit von
dem Ausgangssignal (P) des Sprachpausendetektors (1) gesteuert werden.
9. Schaltungsanordnung nach Anspruch 7, dadurch gekennzeichnet, daß der Ausgang des Mittelwertbildners
(3) über einen dritten Schalter (S3), der von dem Ausgangssignal (F) des Sprachdetetors
(2) gesteuert wird, mit dem Eingang des Speichers (4) verbunden ist.