(19)
(11) EP 0 161 423 A1

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
21.11.1985  Patentblatt  1985/47

(21) Anmeldenummer: 85103259.9

(22) Anmeldetag:  20.03.1985
(51) Internationale Patentklassifikation (IPC)4G10L 3/00
(84) Benannte Vertragsstaaten:
AT CH DE FR GB IT LI

(30) Priorität: 28.03.1984 DE 3411485

(71) Anmelder: SIEMENS AKTIENGESELLSCHAFT
80333 München (DE)

(72) Erfinder:
  • Kämmerer, Berhard, Dipl.-Ing.
    D-8000 München 83 (DE)
  • Müller, Ulrich, Dipl.-Ing.
    D-8080 Fürstenfeldbruck (DE)


(56) Entgegenhaltungen: : 
   
       


    (54) Verfahren zur Erfassung der Grenzen von Signalen, die vor einem Hintergrundsignalgemisch auftreten


    (57) Ein Verfahren zur Erfassung der Grenzen von Signalen, die vor einem Hintergrundsignalgemisch auftreten bei dem als Unterscheidungskriterium zwischen einem interessierenden Signal und dem Hintergrundsignal oder Hintergrundsignalgemisch deren Amplitudenverhalten herangezogen wird, wozu eine Eingangsgröße (E) hinsichtlich ihrer mittleren Amplitude (A) und ihrer auf eine Referenzgröße bezogenen ersten Durchgangshäufigkeit und deren Schwankungsbreite (dN) innerhalb eines vorgegebenen Zeitintervalls beobachtet wird, wobei die Durchgangshäufigkeit aus Einzeldurchgangshäufigkeiten gemittelt wird und wobei die Schwankungsbreite durch die maximale Abweichung der Einzeldurchgangshäufigkeiten bestimmt ist, wozu aus den betreffenden gewonnenen Größen Hilfsgrößen (S1, S2, N2) abgeleitet werden, wozu eine der zuvor abgeleiteten Hilfsgrößen (S1 oder S2) einer Bewertungsgröße zugeordnet wird, wozu anhand dieser Bewertungsgröße die aktuelle Eingangsgröße (E) gemessen wird, wozu aufgrund der Art des interessierenden Signals zwei Grenzwerte festgelegt werden, wozu bei Erreichen des oberen Grenzwertes das Vorhandensein eines interessierenden Signals erkannt wird und wozu bei Erreichen eines weiteren, aufgrund der Art des interessierenden Signals zuvor festgelegten Grenzwertes das Nichtvorhandensein des erfaßten interessierenden Signals festgestellt wird.




    Beschreibung


    [0001] Die vorliegende Erfindung betrifft ein Verfahren zur Erfassung der Grenzen von Signalen, die vor einem Hintergrundsignalgemisch auftreten, insbesondere von Signalgrenzen für die Sprachverarbeitung von vor einem Hintergrundgeräusch gesprochenen Wörtern, wobei als Unterscheidungskriterium zwischen einem interessierenden Signal und dem Hintergrundsignal oder Hintergrundsignalgemisch deren Amplitudenverhalten herangezogen wird.

    [0002] Bisherige Lösungen zur Wortgrenzendetektion reichen von einfachen Signalamplituden-Betrachtungen bis zur Analyse des Zeitsignals mit nachfolgender Erkennung und Klassifikation in Pause und Sprache.

    [0003] Die Beurteilung der mittleren Amplitude von Hintergrundsignalen bzw. des Amplitudenverhaltens allgemein reicht jedoch in zahlreichen Anwendungsfällen nicht aus. Eine, vollständige Analyse hinsichtlich beispielsweise des Frequenzverhaltens - ausgedrückt durch Parameter - und/oder des Amplitudenverhaltens, wie aus dem Stand der Technik bekannt, ist jedoch für zahlreiche Anwendungsfälle zu aufwendig, und zwar betreffend die Hardware als auch die Software.

    [0004] Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren der eingangs genannten Art zu schaffen, das kostengünstig, und zwar bezüglich der Hardware als auch der Software, durchzuführen ist, jedoch verhältnismäßig genau arbeitet und von bestimmten irrelevanten Signalstörungen (zum Beispiel das Geräusch einer schlagenden Tür, Straßenlärm, die Stimmen einer Vielzahl von Menschen usw.) unbeeinflußt bleibt.

    [0005] Die der vorliegenden Erfindung zugrundeliegende Aufgabe wird durch ein Verfahren der eingangs genannten Art bzw. gemäß des Oberbegriff des Patentanspruchs 1 gelöst, das durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale charakterisiert ist.

    [0006] Vorteilhafte Weiterbildungen der Erfindung sind durch die in den Unteransprüchen angegebenen Merkmale gekennzeichnet.

    [0007] Die vorliegende Erfindung wird im folgenden anhand mehrerer, Ausführungsbeispiele für die Erfindung betreffender Figuren im einzelnen erläutert.

    [0008] 

    Figur 1 zeigt ein schematisches Blockschaltbild, aus dem das Grundprinzip der Vorverarbeitung des Zeitsignals eines an eine Eingangsklemme einer entsprechenden Einrichtung zur Durchführung des Verfahrens gelegten Eingangssignals hervorgeht.

    Figur 2 zeigt ein Ablaufdiagramm von Schritten zur wortgrenzendetektion gemäß der vorliegenden Erfindung.

    Figur 3 zeigt ein schematisches Blockschaltbild, aus dem Einrichtungen und deren Zusammenwirken zur Durchführung eines ersten Verfahrensschrittes hervorgehen.

    Figur 4 zeigt ein Blockschaltbild, aus dem Einrichtungen und deren Zusammenwirkung zur Durchführung einer "Beginn-Detektion" hervorgehen.

    Figur 5 zeigt eine Diagrammdarstellung eines Beispiels für die "Beginn-Detektion" des gesprochenen Wortes "Stop".

    Figur 6 zeigt ein Blockschaltbild, aus dem Einrichtungen und deren Zusammenwirkung für eine "Ende-Detektion" hervorgehen.

    Figur 7 zeigt eine Diagrammdarstellung eines Beispiels für die "Ende-Detektion" des gesprochenen Wortes "Stop".

    Figur 8 zeigt eine Diagrammdarstellung eines Beispiels für eine gesamte Wortgrenzenerkennung für das gesprochene Wort "Stop".



    [0009] Wie bereits eingangs ausgeführt benutzt das Verfahren gemäß der vorliegenden Erfindung als Unterscheidungskriterium zwischen einem interessierenden Signal und dem Hintergrundsignal oder Hintergrundsignalgemisch deren Amplitudenverhalten. Dazu wird in einem ersten Schritt ein aufgenommenes und anschließend vorverarbeitetes Signal oder Signalgemisch, nämlich eine Eingangsgröße E, hinsichtlich seiner mittleren Amplitude A und seiner auf eine Referenzgröße R bezogenen ersten Druchgangshäufigkeit und deren Schwankungsbreite dN innerhalb eines vorgegebenen Zeitintervalls beobachtet, wobei die Durchgangshäufigkeit N aus Einzeldurchgangshäufigkeiten ermittelt wird und wobei die Schwankungsbreite durch die maximale Abweichung der Einzeldurchgangshäufigkeiten bestimmt ist. Zu diesem Zweck wird das aufgenommene Signal bzw. Signalgemisch Z (t) zunächst verstärkt, dann mittels eines Bandpassfilters gefiltert und anschließend einer Analog/ Digital-Wandlung unterzogen, wodurch sich die genannte Eingangsgröße E ergibt, vergleiche Figur 1. Aus den betreffenden gewonnenen Größen werden Hilfsgrößen S1, N2 abgeleitet, vergleiche Figur 3.

    [0010] In eines zweiten Schritt innerhalb eines für eine ausreichende Auflösung benötigten Zeitrasters wird die aktuelle Durchgangshäufigkeit N1 bezogen auf die Referenzgröße R bestimmt. In Abhängigkeit von der beobachteten abgeleiteten Durchgangshäufigkeit N2 mit ihrer Schwankungsbreite dN und der aktuellen Durchgangshäufigkeit N1 wird eine der zuvor abgeleiteten Hilfsgrößen S1 oder S2 einer Bewertungsgröße S zugeordnet. Anhand dieser Bewertungsgröße S wird die aktuelle Eingangsgröße E gemessen. Dazu wird eine von der Lage der Eingangsgröße E relativ zu der Bewertungsgröße S abhängige Operation 01 durchgeführt. Aufgrund der Art des interessierenden Signals werden zwei Grenzwerte UG, OG1 festgelegt. Das Ergebnis der Operation 01 wird durch den ersten Grenzwert nach unten begrenzt. Bei Erreichen des zweiten, oberen Grenzwertes OG1 wird das Vorhandensein eines interessierenden Signals erkannt. Der exakte Signalbeginn SB liegt dabei um einen definierten Zeitabschnitt vor dem betreffenden Erkennungszeitpunkt ZE1, vergleiche Figur 4 und Figur 5.

    [0011] In einem dritten Schritt wird durch eine weitere Operation 02 die Lage der Eingangsgröße E relativ zu der Bewertungsgröße S in der Art ausgewertet, daß bei Erreichen eines zweiten aufgrund der Art des interessierenden Signals zuvor festgelegten Grenzwertes OG2 das Nichtvorhandensein des in dem zweiten Schritt erfaßten interessierenden Signals festgestellt wird. Das exakte Signalende SE liegt um einen definierten Zeitabschnitt vor dem betreffenden Erkennungszeitpunkt ZE2, vergleiche Figur 6 und Figur 7.

    [0012] Gemäß einer vorteilhaften Weiterbildung der Erfindung ist die genannte Operation 01 als ein Integrationsvorgang vorgesehen.

    [0013] Der exakte Signalbeginn SB ist durch die zeitliche Position des letzten Wertes des Integrationsergebnisses gleich dem unteren Grenzwert UG vor dem betreffenden Erkennungszeitpunkt ZE1 festgelegt.

    [0014] Vorteilhafterweise kann der erste Schritt, wie er zuvor beschrieben wurde, für den Fall wiederholt werden, daß die Eingangsgröße E eine dem Hintergrundsignalgemisch angepaßte Schwelle überschreitet. Außerdem ist zweckmäßigerweise zwischen dem ersten Schritt und dem zweiten Schritt eine Karenzzeit eingeschoben.

    [0015] Die zuvor genannten Hilfsgrößen sind wie folgt definiert:

    S1 = a*A + c

    S2 = b*A + c

    N2 = N/d,


    wobei die Größen a, b, c und d Konstanten sind, die durch Erfahrungswerte bzw. durch die Art des interessierenden Signals bestimmt sind.

    [0016] Die Bewertungsgröße S ist wie folgt definiert:



    [0017] Die erste Operation ist wie folgt definiert:



    [0018] Die zweite Operation ist wie folgt definiert:



    [0019] Die erfindungsgemäßen Verarbeitungs- und Bewertungsvorgänge können mittels digitaler Schaltkreise durchgeführt werden, sind jedoch zweckmäßigerweise mittels eines Mikroprozessors und entsprechender Programme dafür durchzuführen.

    [0020] Figur 2 zeigt, wie bereits erläutert, ein Ablaufdiagramm für eine Wortgrenzendetektion. In diesem Ablaufdiagramm sind die genannten Schritte, nämlich der erste Schritt, der zweite Schritt und der dritte Schritt nochmals verdeutlichend dargestellt.

    [0021] Figur 8 zeigt, wie bereits eingangs erläutert, eine Diagrammdarstellung für eine gesamte Wortgrenzenerkennung des gesprochenen Wortes "Stop", wobei in dem oberen Diagrammteil ein Schwingungsverlauf des betreffenden Zeitsignals mit zugeordneten oberen und unteren Schwellwerten, dem mittleren Teil des Diagramms ein erzeugtes digitales Anzeigesignal für den Zustand "interessierendes Wort liegt vor" und in dem unteren Teil der Diagrammdarstellung der Vorgang der Wortbeginn- und Wortende-Erkennung gezeigt ist.

    [0022] Das erfindungsgemäße Verfahren bietet im Zusammenhang mit dem Erkennen der Grenzen von gesprochenen Wörtern folgende Vorteile:

    1. Signale mit dem Frequenzverhalten des Umweltgeräusches werden mit einer hohen Schwelle verglichen, können also auch dann, wenn sie lauter werden, nur in seltenen Fällen zu einer fälschlichen "Wortbeginn"-Meldung führen.

    2. Signale mit anderem Frequenzverhalten werden mit einer niedrigen Schwelle verglichen, das heißt, sie können auch bei kleiner Amplitude erkannt werden.

    3. Bei Signalen, deren überwiegender Anteil unter der jeweiligen Schwelle liegt, kann das Integral über die "geclippten" Werte einen bestimmten vorgegebenen-Betrag nicht erreichen. Dadurch werden Störungen wie etwa das Geräusch einer schlagenden Tür, Fabrikmaschinenlärm usw. oder schwacher Signale, wie Sprache oder Musik, aus weiterer Entfernung unterdrückt.

    4. Durch das integrierende Verfahren werden auch Sprachsignale mit schwachen Anfangsfrikativen korrekt detektiert.



    [0023] In den meisten Fällen wird das Umweltgeräusch dominierende Frequenzanteile im Bereich der Vokal-Formanten aufweisen. Diese Formanten haben jedoch meist relativ große Amplituden, so daß sie auch bei einer hohen Schwelle detektiert werden können.

    [0024] Die durch die Vorverarbeitung (Bandpaßfilterung) stark bedämpften stimmlosen Laute mit einem großen Anteil hoher Frequenzen unterscheiden sich dagegen meist nur durch ihre Nulldurchgangsrate von der Umgebung. Dies wird durch die Wahl der niedrigen Schwelle berücksichtigt.

    [0025] Das erfindungsgemäße Verfahren ist selbstverständlich nicht auf die beschriebenen Ausführungsbeispiele beschränkt. So kann es beispielsweise auch für Uberwachungszwecke zum Auffinden bestimmter typischer Signalverläufe innerhalb eines Signalgemisches, beispielsweise für Funk- überwachungszwecke, verwendet werden.


    Ansprüche

    1. Verfahren zur Erfassung der Grenzen von Signalen, die vor einem Hintergrundsignalgemisch auftreten, insbesondere von Signalgrenzen für die Sprachverarbeitung von vor eines Hintergrundgeräusch gesprochenen Wörtern, wobei als Unterscheidungskriterium zwischen einem interessierenden Signal und dem Hintergrundsignal oder Hintergrundsignalgemisch deren Amplitudenverhalten herangezogen wird, dadurch gekennzeichnet,

    - daß in einem ersten Schritt ein aufgenommenes und anschließend vorverarbeitetes Signal oder Signalgemisch, nämlich eine Eingangsgröße (E), hinsichtlich seiner mittleren Amplitude (A) und seiner auf eine Referenzgröße (R) bezogenen ersten Durchgangshäufigkeit (N) und deren Schwankungsbreite (dN) innerhalb eines vorgegebenen Zeitinvervalls beobachtet wird, wobei die Durchgangshäufigkeit (N) aus Einzeldurchgangshäufigkeiten gemittelt wird und wobei die Schwanküngsbreite durch die maximale Abweichung der Einzeldurchgangshäufigkeiten bestimmt ist,

    - daß aus den betreffenden gewonnenen Größen Hilfsgrößen (S1, S2, N2) abgeleitet werden,

    - daß in einem zweiten Schritt innerhalb eines für eine ausreichende Auflösung benötigten Zeitrasters die aktuelle Durchgangshäufigkeit (N1) bezogen auf eine Referenzgröße (R) bestimmt wird,

    - daß in Abhängigkeit von der beobachteten abgeleiteten Durchgangshäufigkeit (N2) mit ihrer Schwankungsbreite (dN) und der aktuellen Durchgangshäufigkeit (N1) eine der zuvor abgeleiteten Hilfsgrößen (S1 oder S2) einer Bewertungsgröße (S) zugeordnet wird,

    - daß anhand dieser Bewertungsgröße (S) die aktuelle Eingangsgröße (E) gemessen wird,

    - daß eine von der Lage der Eingangsgröße (E) relativ zu der Bewertungsgröße (S) abhängige Operation (01) durchgeführt wird,

    - daß aufgrund der Art des interessierenden Signals zwei Grenzwerte (UG, OG1) festgelegt werden,

    - daß das Ergebnis der Operation (01) durch den ersten Grenzwert (UG) nach unten begrenzt wird,

    - daß bei Erreichen des zweiten, oberen Grenzwertes (OG1) das Vorhandensein eines interessierenden Signals erkannt wird,

    - daß der exakte Signalbeginn (SB) um einen definierten Zeitabschnitt vor dem betreffenden Erkennungszeitpunkt (ZE1) liegt,

    - daß in einem dritten Schritt durch eine weitere Operation (02) die Lage der Eingangsgröße (E) relativ zu der Bewertungsgröße (S) in der Art ausgewertet wird, daß bei Erreichen eines zweiten, aufgrund der Art des interessierenden Signals zuvor festgelegten Grenzwertes (OG2) das Nichtvorhandensein des im zweiten Schritt erfaßten interessierenden Signals festgestellt wird und

    - daß das exakte Signalende (SE) um einen definierten Zeitabschnitt vor dem betreffenden Erkennungszeitpunkt (ZE2) liegt.


     
    2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Operation (01) ein Integrationsvorgang ist.
     
    3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der exakte Signalbeginn (SB) durch die zeitliche Position des letzten Wertes des Integrationsergebnisses gleich dem unteren Grenzwert (UG) vor dem betreffenden Erkennungszeitpunkt (ZE1) festgelegt ist.
     
    4. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Vorverarbeitung eine Verstärkung und eine Bandpassfilterung und eine Betragsbildung beinhaltet.
     
    5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Vorverarbeitung eine A/D-Wandlung beinhaltet.
     
    6. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß der erste Schritt wiederholt wird, falls die Eingangsadresse (E) eine dem Hintergrundsignalgesisch angepaßte Schwelle überschreitet.
     
    7. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß zwischen dem ersten Schritt und den zweiten Schritt eine Karenzzeit eingeschoben wird.
     
    8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Hilfsgrößen wie folgt definiert sind:

    S1 = a*A + c

    S2 = b*A + c

    N2 = N/d,


    wobei die Größen a, b, c, d Konstanten sind, die durch Erfahrungswerte bzw. durch die Art des interessierenden Signals bestimmt sind.
     
    9. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Bewertungsgröße wie folgt definiert ist:


     
    10. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die erste Operation wie folgt definiert ist:


     
    11. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die zweite Operation wie folgt definiert ist:




     
    12. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Verarbeitungs- und Bewertungsvorgänge mittels digitaler Schaltkreise durchgeführt werden.
     
    13. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß die Verarbeitungs- und Bewertungsvorgänge mittels eines Mikroprozessors durchgeführt werden.
     




    Zeichnung













    Recherchenbericht