[0001] Die vorliegende Erfindung betrifft ein Verfahren zur Erfassung der Grenzen von Signalen,
die vor einem Hintergrundsignalgemisch auftreten, insbesondere von Signalgrenzen für
die Sprachverarbeitung von vor einem Hintergrundgeräusch gesprochenen Wörtern, wobei
als Unterscheidungskriterium zwischen einem interessierenden Signal und dem Hintergrundsignal
oder Hintergrundsignalgemisch deren Amplitudenverhalten herangezogen wird.
[0002] Bisherige Lösungen zur Wortgrenzendetektion reichen von einfachen Signalamplituden-Betrachtungen
bis zur Analyse des Zeitsignals mit nachfolgender Erkennung und Klassifikation in
Pause und Sprache.
[0003] Die Beurteilung der mittleren Amplitude von Hintergrundsignalen bzw. des Amplitudenverhaltens
allgemein reicht jedoch in zahlreichen Anwendungsfällen nicht aus. Eine, vollständige
Analyse hinsichtlich beispielsweise des Frequenzverhaltens - ausgedrückt durch Parameter
- und/oder des Amplitudenverhaltens, wie aus dem Stand der Technik bekannt, ist jedoch
für zahlreiche Anwendungsfälle zu aufwendig, und zwar betreffend die Hardware als
auch die Software.
[0004] Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren der eingangs
genannten Art zu schaffen, das kostengünstig, und zwar bezüglich der Hardware als
auch der Software, durchzuführen ist, jedoch verhältnismäßig genau arbeitet und von
bestimmten irrelevanten Signalstörungen (zum Beispiel das Geräusch einer schlagenden
Tür, Straßenlärm, die Stimmen einer Vielzahl von Menschen usw.) unbeeinflußt bleibt.
[0005] Die der vorliegenden Erfindung zugrundeliegende Aufgabe wird durch ein Verfahren
der eingangs genannten Art bzw. gemäß des Oberbegriff des Patentanspruchs 1 gelöst,
das durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale charakterisiert
ist.
[0006] Vorteilhafte Weiterbildungen der Erfindung sind durch die in den Unteransprüchen
angegebenen Merkmale gekennzeichnet.
[0007] Die vorliegende Erfindung wird im folgenden anhand mehrerer, Ausführungsbeispiele
für die Erfindung betreffender Figuren im einzelnen erläutert.
[0008]
Figur 1 zeigt ein schematisches Blockschaltbild, aus dem das Grundprinzip der Vorverarbeitung
des Zeitsignals eines an eine Eingangsklemme einer entsprechenden Einrichtung zur
Durchführung des Verfahrens gelegten Eingangssignals hervorgeht.
Figur 2 zeigt ein Ablaufdiagramm von Schritten zur wortgrenzendetektion gemäß der
vorliegenden Erfindung.
Figur 3 zeigt ein schematisches Blockschaltbild, aus dem Einrichtungen und deren Zusammenwirken
zur Durchführung eines ersten Verfahrensschrittes hervorgehen.
Figur 4 zeigt ein Blockschaltbild, aus dem Einrichtungen und deren Zusammenwirkung
zur Durchführung einer "Beginn-Detektion" hervorgehen.
Figur 5 zeigt eine Diagrammdarstellung eines Beispiels für die "Beginn-Detektion"
des gesprochenen Wortes "Stop".
Figur 6 zeigt ein Blockschaltbild, aus dem Einrichtungen und deren Zusammenwirkung
für eine "Ende-Detektion" hervorgehen.
Figur 7 zeigt eine Diagrammdarstellung eines Beispiels für die "Ende-Detektion" des
gesprochenen Wortes "Stop".
Figur 8 zeigt eine Diagrammdarstellung eines Beispiels für eine gesamte Wortgrenzenerkennung
für das gesprochene Wort "Stop".
[0009] Wie bereits eingangs ausgeführt benutzt das Verfahren gemäß der vorliegenden Erfindung
als Unterscheidungskriterium zwischen einem interessierenden Signal und dem Hintergrundsignal
oder Hintergrundsignalgemisch deren Amplitudenverhalten. Dazu wird in einem ersten
Schritt ein aufgenommenes und anschließend vorverarbeitetes Signal oder Signalgemisch,
nämlich eine Eingangsgröße E, hinsichtlich seiner mittleren Amplitude A und seiner
auf eine Referenzgröße R bezogenen ersten Druchgangshäufigkeit und deren Schwankungsbreite
dN innerhalb eines vorgegebenen Zeitintervalls beobachtet, wobei die Durchgangshäufigkeit
N aus Einzeldurchgangshäufigkeiten ermittelt wird und wobei die Schwankungsbreite
durch die maximale Abweichung der Einzeldurchgangshäufigkeiten bestimmt ist. Zu diesem
Zweck wird das aufgenommene Signal bzw. Signalgemisch Z (t) zunächst verstärkt, dann
mittels eines Bandpassfilters gefiltert und anschließend einer Analog/ Digital-Wandlung
unterzogen, wodurch sich die genannte Eingangsgröße E ergibt, vergleiche Figur 1.
Aus den betreffenden gewonnenen Größen werden Hilfsgrößen S1, N2 abgeleitet, vergleiche
Figur 3.
[0010] In eines zweiten Schritt innerhalb eines für eine ausreichende Auflösung benötigten
Zeitrasters wird die aktuelle Durchgangshäufigkeit N1 bezogen auf die Referenzgröße
R bestimmt. In Abhängigkeit von der beobachteten abgeleiteten Durchgangshäufigkeit
N2 mit ihrer Schwankungsbreite dN und der aktuellen Durchgangshäufigkeit N1 wird eine
der zuvor abgeleiteten Hilfsgrößen S1 oder S2 einer Bewertungsgröße S zugeordnet.
Anhand dieser Bewertungsgröße S wird die aktuelle Eingangsgröße E gemessen. Dazu wird
eine von der Lage der Eingangsgröße E relativ zu der Bewertungsgröße S abhängige Operation
01 durchgeführt. Aufgrund der Art des interessierenden Signals werden zwei Grenzwerte
UG, OG1 festgelegt. Das Ergebnis der Operation 01 wird durch den ersten Grenzwert
nach unten begrenzt. Bei Erreichen des zweiten, oberen Grenzwertes OG1 wird das Vorhandensein
eines interessierenden Signals erkannt. Der exakte Signalbeginn SB liegt dabei um
einen definierten Zeitabschnitt vor dem betreffenden Erkennungszeitpunkt ZE1, vergleiche
Figur 4 und Figur 5.
[0011] In einem dritten Schritt wird durch eine weitere Operation 02 die Lage der Eingangsgröße
E relativ zu der Bewertungsgröße S in der Art ausgewertet, daß bei Erreichen eines
zweiten aufgrund der Art des interessierenden Signals zuvor festgelegten Grenzwertes
OG2 das Nichtvorhandensein des in dem zweiten Schritt erfaßten interessierenden Signals
festgestellt wird. Das exakte Signalende SE liegt um einen definierten Zeitabschnitt
vor dem betreffenden Erkennungszeitpunkt ZE2, vergleiche Figur 6 und Figur 7.
[0012] Gemäß einer vorteilhaften Weiterbildung der Erfindung ist die genannte Operation
01 als ein Integrationsvorgang vorgesehen.
[0013] Der exakte Signalbeginn SB ist durch die zeitliche Position des letzten Wertes des
Integrationsergebnisses gleich dem unteren Grenzwert UG vor dem betreffenden Erkennungszeitpunkt
ZE1 festgelegt.
[0014] Vorteilhafterweise kann der erste Schritt, wie er zuvor beschrieben wurde, für den
Fall wiederholt werden, daß die Eingangsgröße E eine dem Hintergrundsignalgemisch
angepaßte Schwelle überschreitet. Außerdem ist zweckmäßigerweise zwischen dem ersten
Schritt und dem zweiten Schritt eine Karenzzeit eingeschoben.
[0015] Die zuvor genannten Hilfsgrößen sind wie folgt definiert:
S1 = a*A + c
S2 = b*A + c
N2 = N/d,
wobei die Größen a, b, c und d Konstanten sind, die durch Erfahrungswerte bzw. durch
die Art des interessierenden Signals bestimmt sind.
[0016] Die Bewertungsgröße S ist wie folgt definiert:

[0017] Die erste Operation ist wie folgt definiert:

[0018] Die zweite Operation ist wie folgt definiert:

[0019] Die erfindungsgemäßen Verarbeitungs- und Bewertungsvorgänge können mittels digitaler
Schaltkreise durchgeführt werden, sind jedoch zweckmäßigerweise mittels eines Mikroprozessors
und entsprechender Programme dafür durchzuführen.
[0020] Figur 2 zeigt, wie bereits erläutert, ein Ablaufdiagramm für eine Wortgrenzendetektion.
In diesem Ablaufdiagramm sind die genannten Schritte, nämlich der erste Schritt, der
zweite Schritt und der dritte Schritt nochmals verdeutlichend dargestellt.
[0021] Figur 8 zeigt, wie bereits eingangs erläutert, eine Diagrammdarstellung für eine
gesamte Wortgrenzenerkennung des gesprochenen Wortes "Stop", wobei in dem oberen Diagrammteil
ein Schwingungsverlauf des betreffenden Zeitsignals mit zugeordneten oberen und unteren
Schwellwerten, dem mittleren Teil des Diagramms ein erzeugtes digitales Anzeigesignal
für den Zustand "interessierendes Wort liegt vor" und in dem unteren Teil der Diagrammdarstellung
der Vorgang der Wortbeginn- und Wortende-Erkennung gezeigt ist.
[0022] Das erfindungsgemäße Verfahren bietet im Zusammenhang mit dem Erkennen der Grenzen
von gesprochenen Wörtern folgende Vorteile:
1. Signale mit dem Frequenzverhalten des Umweltgeräusches werden mit einer hohen Schwelle
verglichen, können also auch dann, wenn sie lauter werden, nur in seltenen Fällen
zu einer fälschlichen "Wortbeginn"-Meldung führen.
2. Signale mit anderem Frequenzverhalten werden mit einer niedrigen Schwelle verglichen,
das heißt, sie können auch bei kleiner Amplitude erkannt werden.
3. Bei Signalen, deren überwiegender Anteil unter der jeweiligen Schwelle liegt, kann
das Integral über die "geclippten" Werte einen bestimmten vorgegebenen-Betrag nicht
erreichen. Dadurch werden Störungen wie etwa das Geräusch einer schlagenden Tür, Fabrikmaschinenlärm
usw. oder schwacher Signale, wie Sprache oder Musik, aus weiterer Entfernung unterdrückt.
4. Durch das integrierende Verfahren werden auch Sprachsignale mit schwachen Anfangsfrikativen
korrekt detektiert.
[0023] In den meisten Fällen wird das Umweltgeräusch dominierende Frequenzanteile im Bereich
der Vokal-Formanten aufweisen. Diese Formanten haben jedoch meist relativ große Amplituden,
so daß sie auch bei einer hohen Schwelle detektiert werden können.
[0024] Die durch die Vorverarbeitung (Bandpaßfilterung) stark bedämpften stimmlosen Laute
mit einem großen Anteil hoher Frequenzen unterscheiden sich dagegen meist nur durch
ihre Nulldurchgangsrate von der Umgebung. Dies wird durch die Wahl der niedrigen Schwelle
berücksichtigt.
[0025] Das erfindungsgemäße Verfahren ist selbstverständlich nicht auf die beschriebenen
Ausführungsbeispiele beschränkt. So kann es beispielsweise auch für Uberwachungszwecke
zum Auffinden bestimmter typischer Signalverläufe innerhalb eines Signalgemisches,
beispielsweise für Funk- überwachungszwecke, verwendet werden.
1. Verfahren zur Erfassung der Grenzen von Signalen, die vor einem Hintergrundsignalgemisch
auftreten, insbesondere von Signalgrenzen für die Sprachverarbeitung von vor eines
Hintergrundgeräusch gesprochenen Wörtern, wobei als Unterscheidungskriterium zwischen
einem interessierenden Signal und dem Hintergrundsignal oder Hintergrundsignalgemisch
deren Amplitudenverhalten herangezogen wird, dadurch gekennzeichnet,
- daß in einem ersten Schritt ein aufgenommenes und anschließend vorverarbeitetes
Signal oder Signalgemisch, nämlich eine Eingangsgröße (E), hinsichtlich seiner mittleren
Amplitude (A) und seiner auf eine Referenzgröße (R) bezogenen ersten Durchgangshäufigkeit
(N) und deren Schwankungsbreite (dN) innerhalb eines vorgegebenen Zeitinvervalls beobachtet
wird, wobei die Durchgangshäufigkeit (N) aus Einzeldurchgangshäufigkeiten gemittelt
wird und wobei die Schwanküngsbreite durch die maximale Abweichung der Einzeldurchgangshäufigkeiten
bestimmt ist,
- daß aus den betreffenden gewonnenen Größen Hilfsgrößen (S1, S2, N2) abgeleitet werden,
- daß in einem zweiten Schritt innerhalb eines für eine ausreichende Auflösung benötigten
Zeitrasters die aktuelle Durchgangshäufigkeit (N1) bezogen auf eine Referenzgröße
(R) bestimmt wird,
- daß in Abhängigkeit von der beobachteten abgeleiteten Durchgangshäufigkeit (N2)
mit ihrer Schwankungsbreite (dN) und der aktuellen Durchgangshäufigkeit (N1) eine
der zuvor abgeleiteten Hilfsgrößen (S1 oder S2) einer Bewertungsgröße (S) zugeordnet
wird,
- daß anhand dieser Bewertungsgröße (S) die aktuelle Eingangsgröße (E) gemessen wird,
- daß eine von der Lage der Eingangsgröße (E) relativ zu der Bewertungsgröße (S) abhängige
Operation (01) durchgeführt wird,
- daß aufgrund der Art des interessierenden Signals zwei Grenzwerte (UG, OG1) festgelegt
werden,
- daß das Ergebnis der Operation (01) durch den ersten Grenzwert (UG) nach unten begrenzt
wird,
- daß bei Erreichen des zweiten, oberen Grenzwertes (OG1) das Vorhandensein eines
interessierenden Signals erkannt wird,
- daß der exakte Signalbeginn (SB) um einen definierten Zeitabschnitt vor dem betreffenden
Erkennungszeitpunkt (ZE1) liegt,
- daß in einem dritten Schritt durch eine weitere Operation (02) die Lage der Eingangsgröße
(E) relativ zu der Bewertungsgröße (S) in der Art ausgewertet wird, daß bei Erreichen
eines zweiten, aufgrund der Art des interessierenden Signals zuvor festgelegten Grenzwertes
(OG2) das Nichtvorhandensein des im zweiten Schritt erfaßten interessierenden Signals
festgestellt wird und
- daß das exakte Signalende (SE) um einen definierten Zeitabschnitt vor dem betreffenden
Erkennungszeitpunkt (ZE2) liegt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Operation (01) ein
Integrationsvorgang ist.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der exakte Signalbeginn
(SB) durch die zeitliche Position des letzten Wertes des Integrationsergebnisses gleich
dem unteren Grenzwert (UG) vor dem betreffenden Erkennungszeitpunkt (ZE1) festgelegt
ist.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Vorverarbeitung eine
Verstärkung und eine Bandpassfilterung und eine Betragsbildung beinhaltet.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Vorverarbeitung eine
A/D-Wandlung beinhaltet.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß der erste Schritt wiederholt
wird, falls die Eingangsadresse (E) eine dem Hintergrundsignalgesisch angepaßte Schwelle
überschreitet.
7. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß zwischen dem ersten Schritt
und den zweiten Schritt eine Karenzzeit eingeschoben wird.
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Hilfsgrößen wie folgt
definiert sind:
S1 = a*A + c
S2 = b*A + c
N2 = N/d,
wobei die Größen a, b, c, d Konstanten sind, die durch Erfahrungswerte bzw. durch
die Art des interessierenden Signals bestimmt sind.
9. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Bewertungsgröße wie
folgt definiert ist:
10. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die erste Operation wie
folgt definiert ist:
11. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die zweite Operation wie
folgt definiert ist:

12. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Verarbeitungs- und
Bewertungsvorgänge mittels digitaler Schaltkreise durchgeführt werden.
13. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Verarbeitungs- und
Bewertungsvorgänge mittels eines Mikroprozessors durchgeführt werden.