[0001] Die Erfindung betrifft ein Verfahren zur Erkennung von Sprachsignalen, wobei diese
zunächst einem Tiefpaß zugeführt werden, dessen Durchlaßbereich im Bereich der Sprachgrundfrequenz
liegt.
[0002] Auf dem Gebiet der Elektroakustik ist die Erkennung von Sprachsignalen von großer
Bedeutung, da das Vorliegen von Sprachsignalen als Kriterium für die Anhebung der
Verstärkung herangezogen werden kann. So wird beispielsweise zur akustischen Entkopplung
von Freisprecheinrichtungen die Verstärkung des Sende- und Empfangssignals in Abhängigkeit
vom Vorliegen eines Sprachsignals gesteuert. Das gleiche gilt für Konferenzeinrichtungen.
[0003] Es ist bereits vorgeschlagen worden (P 37 34 446.3), die Störgeräuschkompensation
für ein Mikrofon dadurch zu erreichen, daß bei Vorhandensein eines Sprachsignals
dasselbe einer größeren Verstärkung unterworfen wird, um auf diese Weise eine bessere
Verständlichkeit bei starkem Hintergrundgeräusch zu erreichen. Dabei wird nach einer
Bandpaßfilterung für die Sprachgrundfrequenz die Einhüllende von Sprache des Mikrofonsignals
detektiert und das Detektionssignal einem Zeitglied zugeführt, welches eine bestimmte
Ansprechverzögerung aufweist. Das Ausgangssignal des Zeitglieds dient dann zur Steuerung
eines, das Mikrofonsignal verstärkenden Regelverstärkers. Nachteilig bei diesem Verfahren
ist die Verwendung von Zeitgliedern zur Bearbeitung des Mikrofonsignals, wodurch
die Gefahr besteht, daß Anfangssilben unterdrückt werden.
[0004] Die Aufgabe der Erfindung besteht nun darin, ein Verfahren zur Erkennung von Sprachsignalen
anzugeben, bei welchem schon nach sehr kurzer Zeit das Vorliegen von Sprachsignalen
erkannt wird, ohne daß es hierbei zu einer Unterdrückung von Anfangssilben kommt.
[0005] Diese Aufgabe wird dadurch gelöst, daß die am Ausgang des Tiefpaßfilters auftretenden
Signale auf Amplitude und Dauer einer bestimmten Amplitude überprüft werden und daß
dann ein Sprachsignal erkannt wird, wenn mindestens drei aufeinanderfolgende Amplituden
innerhalb eines vorgegebenen Zeitrasters aufgetreten sind.
[0006] Die Signale werden zunächst nach Amplitudenhöchstwerten überprüft. Sobald ein Amplitudenhöchstwert
festgestellt wird, wird der Zeitraum gemessen, innerhalb dessen ein weiterer Amplitudenhöchstwert
auftritt, um auf diese Weise Sprachsignale erkennen zu können.
[0007] Die Erfindung wird anhand eines Ausführungsbeispiels näher erläutert, welches in
der Zeichnung dargestellt ist.
[0008] Es zeigt:
Fig. 1 eine Darstellung der Perioden eines Sprachsignals in Verbindung mit den Auswertekriterien
und
Fig. 2 das Blockschaltbild für eine Anordnung zur Durchführung des Verfahrens.
[0009] Die in Fig. 1 dargestellten drei Amplituden A1 bis A3 sind die Amplituden eines Sprachsignals,
welche am Ausgang eines Tiefpaßfilters anstehen, dessen Grenzfrequenz bei ca. 400
Hz liegt. Die dem Eingang des Tiefpaßfilters zugeführten Signale werden beispielsweise
von einem Mikrofon erzeugt und setzen sich aus Raumgeräuschen und Sprachsignalen zusammen.
[0010] Das erfindungsgemäße Verfahren zur Erkennung von Sprachsignalen benutzt nun zur Analyse
im wesentlichen den Frequenzbereich der Sprachgrundfrequenz ( 80 bis 333 Hz). Das
wichtigste Merkmal zur Erkennung von Sprachsignalen ist die Periodendauer der Schwingungen
der Sprachsignale, die bei der Sprachgrundfrequenz je nach Sprecher im Bereich von
3 bis 12,5 ms liegt. Dieses erste Merkmal dient zur Unterscheidung zwischen Sprache
und Störgeräusch. Zur sicheren Erkennung von Sprachsignalen ist die Detektion von
Nulldurchgängen im Sprachsignal nicht sinnvoll, da sich bei Störung, beispielsweise
durch Rauschen,die Anzahl der Nulldurchgänge so stark erhöhen kann, so daß eine Erkennung
von Sprache auf diese Weise nicht mehr möglich ist. Das Verfahren gemäß der Erfindung
benutzt zur Erkennung von Sprache die Maxima des Sprachsignals. Liegen diese dann
doch innerhalb eines vorgegebenen Amplituden-Zeitfensters, so ist ein erstes Kriterium
für das Vorhandensein von Sprachsignalen gegeben. Einen wesentlichen Einfluß auf die
Periodenerkennung hat die Wahl der Fensterparameter.
1. Fenstergröße für ein örtliches Amplitudenmaximum.
[0011] Die Fenstergröße wird derart gewählt, daß diese kleiner ist als die Hälfte der kleinstmöglichen
Periode der Sprachgrundfrequenz, damit sowohl positive als auch negative Maximalwerte
des Sprachsignals erkannt werden können. Dies ist notwendig, da das Sprachsignal
bezüglich des Aussteuerungsbereichs nicht symmetrisch ist. Die Fenstergröße beträgt
demnach ca. 0,9 ms.
2. Amplitudenfenster
[0012] Die Amplitudentoleranz der Maximalwerte ist bei ungestörtem Sprachsignal über einige
Perioden sehr gering, kann aber bei hohen Störpegeln infolge additiver Überlagerung
des Störsignals deutlich vergrößert werden. Das Amplitudenfenster beträgt ca. plusminus
20 % des ersten Maximums.
3. Abstandstoleranz der gefundenen Maximalwerte
[0013] Bei ungestörter Sprache ist der Abstand der Maximalwerte der Signale nicht konstant,
da das Sprachsignal frequenzmoduliert wird. Ein streng periodischer Verlauf des Anregungssignals
kann nicht erwartet werden, die Schwankungen der Sprachgrundfrequenz können deshalb
erheblich sein. Einen quasi periodischen Verlauf weisen jedoch die stimmhaften, eingeschwungenen
Laute auf. Wird das Signal gestört (beispielsweise additiv durch Rauschen), so kann
sich eine zusätzliche Verschiebung der Signalmaxima in zeitlicher Richtung ergeben.
Durchgeführte Untersuchungen haben gezeigt, daß der Toleranzbereich für die Detektion
der Signalmaxima ca. 15 % betragen kann.
[0014] Unter diesen Randbedingungen kann davon ausgegangen werden, daß auch bei ungestörtem
Sprachsignal nie mehr als 10 Perioden des Signals die vorgegebenen Kriterien erfüllen,
so daß anhand des erfindungsgemäßen Verfahrens auch periodische, nicht modulierte
Störsignale, deren Frequenz im Bereich der Sprachgrundfrequenz liegt, von Sprachsignalen
unterscheiden werden können.
[0015] Sobald ein Maximalwert erkannt wird, wird dessen zeitliche Position abgespeichert.
Erfüllt der nächste auftretende Maximalwert nicht die weiter unten beschriebenen Bedingungen,
so werden die Daten des ersten Maximalwertes gelöscht und diejenigen des nächsten
Maximalwertes an dessen Stelle eingespeichert.
[0016] Bei dem in Fig. 1 gezeigten Beispiel einer Amplitudenfolge wird davon ausgegangen,
daß die gezeigten drei Maximalwerte M1 bis M3 sämtliche zur Erkennung von Sprachsignalen
erforderliche Bedingungen erfüllen. Die Amplitude A1 ist als Maximalwert erkannt
worden, woraufhin deren Dauer t1 als Periodendauer abgespeichert wird. Bei der zeitlichen
Mitte der Amplitude A1 des ersten Maximums M1 beginnt das Zeitfenster der Periode
PF zu laufen, welches zwischen 3 und 12,5 ms geöffnet ist. Fällt nun die nächste Amplitude
A2 in das Zeitfenster der Periode PF, da deren Zeitfenster ZF innerhalb des Amplitudenfensters
AF liegt, dann wird die Dauer der Amplitude A2 als zweites Maximum durch Einspeicherung
des Wertes t2 gekennzeichnet. Liegt nun die Amplitude A3 innerhalb eines Zeitfensters
F, welches durch die Periodendauer t2 ± 7,5 % bestimmt wird, so wird auch der Zeitwert
t3 des dritten Maximums M3 abgespeichert. Es wird noch darauf hingewiesen, daß das
Amplitudenfenster AF als Schwelle in Abhängigkeit von dem Amplitudenwert des ersten
Maximums M1 festgelegt wird.
[0017] Durch einen einfachen Zählvorgang zur Erfassung der drei aufeinanderfolgenden Amplituden
A1 bis A3, welche die oben beschriebenen Bedingungen erfüllen, kann bereits auf Vorliegen
eines Sprachsignals geschlossen werden, wobei in diesem Fall eine Abspeicherung der
Periodendauern t1 bis t3 nicht notwendig ist. Für eine genauere Bestimmung von Sprachsignalen
können jedoch zwei Verfahren herangezogen werden, die im folgenden beschrieben werden.
[0018] Wurden mehrere Perioden einer Schwingung im Sprachgrundfrequenzbereich erkannt, so
erfolgt die Bestimmung des Korrelationsgrades zwischen den einzelnen Perioden. Durch
eine Kreuzkorrelation zwischen den aufeinanderfolgenden Signalabschnitten einer Periodenlänge
werden hohe Werte für den nomierten Kreuzkorrelationskoeffizienten in den Bereichen
erreicht, in denen Sprache vorhanden ist. Handelt es sich bei der detektierten Periode
jedoch nur um zufällige Maxima im vorgegebenen Intervall, so ergibt die Korrelationsanalyse
kleine Werte.

Zur Bestimmung von KKF (k . N
p) wird die zweite bzw. im Falle der Detektion mehrerer Perioden auch die dritte Periode
mit der ersten korreliert. Werden drei Perioden korreliert, so wird zur Entscheidung
der kleinere der beiden Werte herangezogen. Dies vermindert insbesondere bei Störung
durch Rauschsignale die Fehlerhäufigkeit bei zufällig detektierten Perioden. Werden
mehr Perioden zur Detektion herangezogen, so vermindert sich die Detektionsgeschwindigkeit,
eine weitere Verbesserung ist jedoch nicht zu erzielen, da die Werte von KKF (k .
N
p) aufgrund der Amplituden- und Frequenzmodulation des Sprachsignals deutlich abnehmen.
[0019] Eine weitere Verbesserung der Entscheidung kann dadurch erzielt werden, wenn anstelle
der Auswertung der Kreuzkorrelationsfunktion zur Sprachentscheidung der nomierte
mittlere quadratische Fehler zwischen den erkannten Perioden benutzt wird.

[0020] Die Verwendung dieses Fehlerkriteriums führt bei ungestörter Sprache zu ähnlichen
Ergebnissen, wie die Bildung der KKF (k . N
p). Unterschiede ergeben sich jedoch bei gestörtem Sprachsignal. Bei Bildung der KKF
(k . N
p) führt die Unterscheidung zwischen Sprache und Störung anhand des Korrelationskoeffizientens
häufiger zu Fehlentscheidungen als die Bildung 1-Δf². Sowohl KKF (k . N
p) als auch 1-Δf² können Werte im Bereich von 0 bis 1 annehmen. Überschreitet der Wert
von KKF (k . N
p) bzw. von 1-Δf² einen Wert von beispielsweise 0,7, so wird das Eingangssignal als
Sprache markiert. Untersuchungen haben gezeigt, daß die Wahl der Schwelle unkritisch
ist, sie kann auch im Bereich von 0,3 bis 0,9 gewählt werden.
[0021] Der entscheidende Vorteil dieses Verfahrens zur Sprachdetektion ist die Erkennungszeit.
Im ungünstigsten Fall, d. h. wenn der Sprecher eine Stimmgrundfrequenz von 80 Hz hat
und bei einer Detektion von drei Perioden beträgt die Detektionszeit 37,5 ms.
[0022] Bei ungestörten Signalen ergibt die Analyse nach dem eingangs beschriebenen vereinfachten
Verfahren annähernd die gleichen Ergebnisse, wie das Auswerteverfahren mit Kreuzkorrelation
oder nach Ermittlung des mittleren quadratischen Fehlers. Die Erkennungsrate liegt
im Mittel 5 % unter der Erkennungsrate des zuvor beschriebenen Verfahrens, kann aber
auch je nach Störschallsituation höhere Werte annehmen. Unterschiede zu dem vorgenannten
Verfahren werden bei Störung der Sprachsequenz deutlich. Bei den gewählten Parametern
kann die Periodenerkennung, abhängig vom jeweiligen Störgeräusch, für einige Störschallsituationen
eine erhöhte Anzahl von Fehlentscheidungen liefern. Insbesondere bei Störung durch
impulshaltige Signale werden Reflektionen des Störsignals, wenn sie die Kriterien
für das Vorhandensein von Sprache erfüllen, als Sprache erkannt und führen zu Fehlentscheidungen.
Die Detektion von sinusförmigen Störanteilen im Bereich der Sprachgrundfrequenz ist
nur anhand der zeitlichen Dauer und Frequenzkonstanz dieses Störsignals möglich.
[0023] Die Auswahl des anzuwendenden Verfahrens zur Sprachdetektion wird im wesentlichen
von den zu erwartenden Nutz-/Störleistungsverhältnissen sowie den Störgeräuschen bestimmt.
Bei Nutz-/Störleistungsverhältnissen von größer 12 dB kann bereits das vereinfachte
Detektionsverfahren ohne Rechenvorgänge angewandt werden. Sämtliche Verfahren haben
jedoch nur eine kurze Signalverzögerung im Bereich der Detektionszeit (9 bis 37 ms)
zur Folge, so daß Anfangssilben nicht unterdrückt werden.
[0024] Die Realisierung des vorgestellten Verfahrens kann beispielsweise mit Hilfe eines
Signalprozessors SP (s. Fig. 2) erfolgen. Das analoge Signal des Mikrofons M wird
über den Analog/Digitalwandler W1 abgetastet und digitalisiert. Die so gewonnenen
Abtastwerte können gemäß dem erfindungsgemäßen Verfahren zur Sprachdetektion durch
den Signalprozessor herangezogen werden. Wird Sprache erkannt, so kann das Mikrofonsignal
um einen festgelegten Betrag auf Veranlassung des Signalprozessors SP durch den Regelverstärker
RV1 verstärkt werden.
[0025] Eine derartige Anordnung ist beispielsweise für Mikrofone geeignet, welche sich in
einem Raum mit einem großen Störgeräuschen befinden. Durch die Verstärkung der Sprachsignale
wird auf diese Weise eine bessere Verständlichkeit erzielt.
[0026] Bei dem in Fig. 2 gezeigten Anwendungsbeispiel ist eine Freisprecheinrichtung vorhanden,
wobei bei dieser bei Vorhandensein eines Sprachsignals im Signal des Mikrofons M der
Regelverstärker RV2 durch den Signalprozessor SP veranlaßt wird, das Signal für den
Lautsprecher LS entsprechend zu dämpfen, um auf diese Weise eine akustische Rückkopplung
zwischen Lautsprecher LS und Mikrofon M zu verhindern. Umgekehrt könnte auch bei
Vorliegen von Sprachsignalen für den Lautsprecher LS der Regelverstärker RV2 auf
Veranlassung des Signalprozessors SP derart beeinflußt werden, daß diese das Eingangssignal
höher verstärkt, um auf diese Weise eine bessere Verständlichkeit des Lautsprechersignals
LS zu erreichen.
[0027] Der Signalprozessor erhält an seinen Eingängen SE und EE Datenworte, welche die Abtastwerte
der Signale darstellen. Ebenso werden an den Ausgängen SA und EA des Signalprozessors
SP Datenworte an die angeschlossenen Leitungen angelegt. Zur Vermeidung der Unterdrückung
von Anfangssilben können die Eingangssignale mit Hilfe des Signalprozessors SP um
eine Zeit verzögert werden, welche im Bereich der Erkennungszeit (5-37ms) liegen.
Ebenso kann durch den Signalprozessor SP eine Abfallzeit für die die Regelverstärker
RV beinflussenden Steuersignale erzeugt werden, die in einer Größenordnung von 200
bis 900 ms liegt und zur Überbrückung von stimmlosen Lauten und kurzen Sprachpausen
zwischen Wörtern und Sätzen dient. Die Funktion der Tiefpaßfilterung mit einer Grenzfrequenz
von 400 Hz kann ebenfalls durch den Signalprozessor SP vorgenommen werden.
[0028] Eine andere Anwendung des erfindungsgemäßen Verfahrens ist auch im Rahmen einer Gegensprechanlage
denkbar, wobei in Abhängigkeit von Sprachsignalen in der einen Richtung die andere
Richtung auf Veranlassung des Signalprozessors entsprechend gedämpft wird.
[0029] Auf den Aufbau eines Signalprozessors wird im Rahmen dieser Beschreibung nicht weiter
eingegangen, derartige Signalprozessoren werden jedoch beispielsweise von der Firma
Texas Instruments unter der Bezeichnung TMS 320 oder von der Firma Fujitsu unter der
Bezeichnung MB 8764 vertrieben. Ein solchen Signalprozessor ist derart zu programmieren,
daß die beschriebenen Verfahrensschritte selbstätig ablaufen. Zur Umsetzung der analogen
Signale in digitale Signale zur Signalverarbeitung in dem Signalprozessor SP dienen
die Analog/Digital-Wandler W1 und W4, während die Umsetzung der an den Ausgängen
SA und EA auftretenden digitalen Signale in analoge Signale durch die Digital/Analog-Wandler
W2 und W3 erfolgt.
[0030] Im Gegensatz zu dem in Fig. 2 gezeigten Blockschaltbild kann auch auf die Regelverstärker
RV1 und RV2 verzichtet werden, wenn die Funktion der Verstärkung der Signale durch
den Signalprozessor SP selbst übernommen wird, der auch als geeigneter Mikroprozessor
ausgebildet sein kann. Ebenso ist die Durchführung des erfindungsgemäßen Verfahrens
durch eine entsprechende diskret aufgebaute analoge Schaltungsanordnung oder auch
einen entsprechend ausgebildeten Kundenschaltkreis denkbar.
1. Verfahren zur Erkennung von Sprachsignalen, wobei diese zunächst einem Tiefpaß
zugeführt werden, dessen Durchlaßbereich im Bereich der Sprachgrundfrequenz liegt,
dadurch gekennzeichnet,
daß die am Ausgang des Tiefpaßfilters auftretenden Signale auf Amplitude und Dauer
einer bestimmten Amplitude überprüft werden und daß dann ein Sprachsignal erkannt
wird, wenn mindestens drei aufeinanderfolgende Amplituden im Bereich der Sprachgrundfrequenz
aufgetreten sind.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß das Tiefpaßfilter eine obere Grenzfrequenz von höchstens 400 Hz aufweist.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die Dauer der Überprüfung einer Amplitude über ein Zeitfenster (ZF) erfolgt, dessen
Länge kleiner ist, als die Hälfte der kürzesten Periode der Sprachgrundfrequenz.
4. Verfahren nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet,
daß sowohl positive als auch negative Amplituden überprüft werden.
5. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die Überprüfung der folgenden Amplituden über ein Amplitudenfenster (AF) erfolgt,
dessen Amplitudenbereich in Abhängigkeit von dem ersten erkannten Amplitudenhöchstwert
festgelegt wird.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet,
daß das Amplitudenfenster einen Amplitudenbereich von + 20 bis -20 % des Amplitudenhöchstwertes
aufweist.
7. Verfahren nach einem der Ansprüche 1 oder 5,
dadurch gekennzeichnet,
daß der Zeitraum zwischen dem ersten erkannten Amplitudenhöchstwert und dem folgenden
im Amplitudenfenster (AF) liegenden Amplitude innerhalb eines vorgegebenen Zeitrahmens
gemessen wird.
8. Verfahren nach Anspruch 7,
dadurch gekennzeichnet,
daß der Zeitrahmen (PF) zwischen 3 und 12,5 ms liegt.
9. Verfahren nach Anspruch 7,
dadurch gekennzeichnet,
daß der dritte Amplitudenhöchstwert (A3) in einem Zeitfenster ( F) liegen muß, dessen
Lage durch den Abstand zwischen dem ersten (A1) und dem zweiten (A2) Amplitudenhöchstwert
bestimmt wird und innerhalb einer Toleranz von ± 7,5 % desselben liegt.
10. Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet,
daß die erste Periode und die zweite Periode bzw. die erste Periode und die dritte
Periode zur Bestimmung der Kreuz-Korrelationsgrade benutzt wird.
11. Verfahren nach einem der Ansprüche 1 bis 10,
dadurch gekennzeichnet,
daß aus den gemessenen Zeiträumen der ersten und der zweiten bzw. der ersten und der
dritten Periode der normierte mittlere quadratische Fehler ermittelt wird.
12. Verfahren nach einem der Ansprüche 10 oder 11,
dadurch gekennzeichnet,
daß die ermittelten Werte mit Hilfe einer wählbaren Schwelle überprüft werden und
daß bei Überschreiten der Schwelle durch einen ermittelten Wert ein Sprachsignal
erkannt wird.
13. Verfahren nach einem der Ansprüche 1 bis 12,
dadurch gekennzeichnet,
daß das analoge Sprachsignal einem Analog/Digital-Wandler zugeführt wird.
14. Verfahren nach einem der Ansprüche 1 bis 13,
dadurch gekennzeichnet,
daß das digitalisierte Sprachsignal einem Signalprozessor (SP) zugeführt wird, welcher
ein, das Vorliegen eines Sprachsignals kennzeichnendes Ausgangssignal liefert.
15. Verfahren für eine Mikrofonverstärkerschaltung mit einem Regelverstärker nach
einem der Ansprüche 1 bis 14 ,
dadurch gekennzeichnet,
daß bei Vorliegen eines Sprachsignals das Eingangssignal des Regelverstärkers (RV)
auf Veranlassung des Signalprozessors um einen vorgegebenen Wert verstärkt wird.
16. Verfahren für eine Freisprecheinrichtung mit je einem Regelverstärker, für das
Mikrofon- und das Lautsprechersignal nach einem der Ansprüche 1 bis 15,
dadurch gekennzeichnet,
daß bei Vorliegen eines Sprachsignals des Mikrofons (M) das Lautsprechersignal um
einen vorgegebenen Wert durch den zugeordneten Regelverstärker (RV2) auf Veranlassung
des Signalprozessors (SP) gedämpft wird.
17.Verfahren nach einem der Ansprüche 14 bis 16,
dadurch gekennzeichnet,
daß durch den Signalprozessor (SP) das Mikrofonsignal um den Betrag der Erkennungszeit
von Sprachsignalen verzögert wird.
18.Verfahren für eine Gegensprecheinrichtung mit je einem in jeder der beiden Richtungen
liegenden Regelverstärker nach einem der Ansprüche 1 bis 17,
dadurch gekennzeichnet,
daß durch den Signalprozessor (SP) bei Vorliegen eines Sprachsignals der betreffende
Regelverstärker aufgesteuert und der andere Regelverstärker gedämpft wird.
19. Verfahren nach einem der Ansprüche 1 bis 18,
dadurch gekennzeichnet,
daß das Steuersignal für den bzw. die Regelverstärker nach Ausbleiben eines Sprachsignals
für eine bestimmte Zeit aufrechterhalten wird.
20. Verfahren nach einem der Ansprüche 1 bis 19,
dadurch gekennzeichnet,
daß die Funktion der Regelverstärker (Rv1, Rv2) durch den Signalprozessor (SP) übernommen
wird.