(19)
(11) EP 0 110 467 A1

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
13.06.1984  Patentblatt  1984/24

(21) Anmeldenummer: 83201638.0

(22) Anmeldetag:  17.11.1983
(51) Internationale Patentklassifikation (IPC)3G10L 3/00
(84) Benannte Vertragsstaaten:
BE DE FR GB IT SE

(30) Priorität: 23.11.1982 DE 3243231

(71) Anmelder:
  • Philips Kommunikations Industrie AG
    90411 Nürnberg (DE)

    DE 
  • Philips Electronics N.V.
    5621 BA Eindhoven (NL)

    BE FR GB IT SE 

(72) Erfinder:
  • Selbach, Bernd, Dipl.-Ing.
    D-8501 Eckental (DE)
  • Vary, Peter, Dr. Ing.
    D-8522 Herzogenaurach-Niederndorf (DE)

(74) Vertreter: Peuckert, Hermann, Dipl.-Ing. et al
Philips Patentverwaltung GmbH, Röntgenstrasse 24
22335 Hamburg
22335 Hamburg (DE)


(56) Entgegenhaltungen: : 
   
       


    (54) Anordnung zur Erkennung von Sprachpausen


    (57) Die beschriebene Anordnung zur Erkennung von Pausen in einem Sprachsignal ermöglicht die Pausenerkennung auch dann, wenn dem Sprachsignal ein langsam veränderliches Störsignal überlagert ist. Zur Pausenerkennung werden aus den Abtastproben des gestörten Sprachsignales laufend an einen Takt gebundene sogenannte Kurzzeitmittelwerte bestimmt, die ein Maß für die mittlere Leistung von etwa 100 ms langen Abschnitten des gestörten Sprachsignales sind. Die Folge dieser Kurzzeitmittelwerte wird sodann durch lineare Filterung oder durch ein Medianfilter geglättet. Parallel zum Glättungsvorgang wird aus der Folge der Kurzzeitmittelwerte ein Schätzwert für die über einige Sekunden gemittelte Leistung des Störsignales gewonnen. Ist der geglättete Kurzzeitmittelwert einmal oder mehrmals kleiner als eine zum erwähnten Schätzwert proportionale Schwelle, so wird auf Sprachpause entschieden.




    Beschreibung


    [0001] Die Erfindung betrifft eine Anordnung zur Erkennung von Sprachpausen in einem Sprachsignal, das von Störsignalen überlagert sein kann.

    [0002] Derartige Anordnungen sind z.B. die Voraussetzung für die Unterdrückung von Störsignalen beim Telefonieren aus akustisch gestörter Umgebung. Während der Sprachpause werden charakteristische Parameter des Störsignales gemessen und dazu verwendet, die Störungen vor der Übertragung möglichst vollständig aus dem zu übertragenden Signal mit adaptiven Filtern herauszufiltern.

    [0003] Aus der DE-AS 24 55 47, Spalte 10 ist eine Anordnung in analoger Technik zur Erkennung von Sprachpausen bekannt, der folgende Wirkungsweise zugrunde liegt: Das Sprachsignal wird in gleich lange Abschnitte zerlegt und für jeden Abschnitt wird durch Gleichrichtung und Mittelwertbildung ein Spannungswert gewonnen, der zur mittleren Lautstärke des Abschnittes proportional ist. Schließlich wird durch Mittelwertbildung über mehrere Sprachabschnitte ein weiterer Spannungswert bestimmt, der zur mittleren Gesprächslautstärke proportional ist. Durch einen Vergleich der beiden Mittelwerte wird entschieden, ob ein Abschnitt einer Sprachpause angehört oder nicht.

    [0004] Bei dieser Pausenerkennung ist unter anderem nicht berücksichtigt, daß z.B. stimmlose Laute zu einem Leistungseinbruch im Sprachsignal führen und die betreffenden Sprachabschnitte deshalb fälschlicherweise als Sprachpausen angesehen werden. Derartige Fehlentscheidungen treten bei der bekannten Anordnung- um so häufiger auf, je stärker das Sprachsignal von Störsignalen überlagert ist.

    [0005] Es ist deshalb Aufgabe der Erfindung, eine Anordnung zur Erkennung der Pausen in einem gestörten Sprachsignal anzugeben, bei der Fehlentscheidungen im oben erläuterten Sinne vermieden werden. Die Anordnung soll darüberhinaus eine Sprachpausenerkennung auch dann ermöglichen, wenn sich die mittlere Geräuschleistung nur langsam verändert.

    [0006] Diese Aufgabe wird durch die im Kennzeichen des Anspruches 1 angegebenen Merkmale gelöst. Vorteilhafte Ausgestaltungen geben die Unteransprüche an.

    [0007] Anhand der Figuren soll die Erfindung näher erläutert werden.

    [0008] Es zeigt:

    Figur 1 ein Blockschaltbild der erfindungsgemäßen Anordnung

    Figur 2, 3 und 4 Diagramme zur Erläuterung der Wirkungsweise der erfindungsgemäßen Anordnung



    [0009] Im Blockschaltbild nach Fig.l werden aus dem an einer Klemme E angelegten,gestörten Sprachsignal durch einen Analog-Digital-Umsetzer A/D zu Abtastzeitpunkten kTo Abtastwerte x(k) gewonnen, wobei k eine natürliche Zahl und l/T die Abtastfrequenz darstellt. Die Abtastwerte werden an einen Mittelwertbildner M weitergegeben.

    [0010] Der Mittelwertbildner M erzeugt zu allen Taktzeitpunkten T(n) mit dem zeitlichen Abstand mT aus den Beträgen von m aufeinanderfolgenden Abtastwerten einen sogenannten Kurzzeitmittelwert.



    [0011] Als Mittelwert ist das arithmetische Mittel aus den Beträgen der Abtastwerte verwendet, da zu dessen Bestimmung der Bausteineaufwand geringer ist als z.B. zur Bildung des quadratischen Mittels. Jeder Kurzzeitmittelwert G(n) ist näherungsweise ein Maß für die mittlere Leistung des gestörten Sprachsignales über einen Zeitraum von etwa 100 ms. Durch diese Angabe und durch die Abtastfrequenz ist auch die Zahl m der Abtastwerte festgelegt, die zur Bestimmung eines der Kurzzeitmittelwerte G(n) erforderlich sind. Wird z.B. das gestörte Sprachsignal mit 10 kHz abgetastet, so muß m etwa 1000 betragen. Jede der Größen G(1), G(2)... ergibt sich also aus etwa tausend aufeinanderfolgenden Abtastwerten.

    [0012] Die Einheit GL der Fig. 1 führt eine Glättung der Folge der Kurzzeitmittelwerte G(n) durch. Näheres über den Zweck und die Art und Weise der Glättung wird weiter unten angegeben.

    [0013] Parallel zur Glättung wird durch den Block PA der Fig. 1 aus den Kurzzeitmittelwerten ein Schätzwert P(n) für die mittlere Geräuschleistung, d.h. für die mittlere Leistung des Störsignales bestimmt. Genaueres über den Schätzwert P(n) wird ebenfalls weiter unten ausgeführt. Ein Vergleicher V in Fig. 1 vergleicht eine vom Schätzwert P(n) abhängige Schwelle S mit den geglätteten Kurzzeitmittelwerten GG(n). Ist der geglättete Kurzzeitmittelwert GG(n) kleiner als die Schwelle S, wird ein Signal an eine Einheit EN weitergeleitet. Hat die Einheit EN z.B. zu zwei aufeinanderfolgenden Taktzeitpunkten T(n-1) und T(n) ein derartiges Signal erhalten, so läßt sie ihrerseits durch ein eigenes Signal an einer Klemme A das Vorliegen einer Sprachpause erkennen.

    [0014] Das Diagramm a) der Fig. 2 zeigt ein mögliches Ausgangssignal AM des Mittelwertbildners M, d.h. eine mögliche Folge der Kurzzeitmittelwerte G(l), G(2) ... In dem Diagramm a) ist das Ausgangssignal AM so normiert, daß sein absolutes Maximum den Wert 1 annimmt. Bei den eingetragenen Amplitudenschwellen handelt es sich um den Schätzwert P (n) (untere Schwelle, unterbrochen gezeichnet) und die Schwelle S (obere Schwelle, durchgezogen). Im Diagramm b) ist schematisch das zugehörige Sprachsignal S mit seinen wahren Pausen P abgebildet. Würde eine Pausenbestimmung aufgrund der Unterschreitung der oberen Amplitudenschwelle im Diagramm a) - diese Pausenbestimmung ist im Diagramm c) abgebildet - vorgenommen werden, so würde sich eine Vielzahl von Fehlentscheidungen ergeben, wie ein Vergleich der Diagramme b) und c) zeigt. Eine Verschiebung der oberen Schwelle nach unten würde zwar dazu führen, daß die im Diagramm c) enthaltenen Leistungseinbrüche, die nicht auf Sprachpausen beruhen, auch nicht angezeigt würden, jedoch würde dann die Aussage über die Pausenlängen erheblich verfälscht werden.

    [0015] Daher ist bei der erfindungsgemäßen Anordnung vor der Entscheidung auf Pause eine Glättung des Ausgangsignales AM vorgesehen, und zwar entweder mit Hilfe eines linearen Digitalfilters, durch das aus drei aufeinanderfolgenden Kurzzeitmittelwerten G(n), G(n-l) und G(n-2) ein Wert GG(n) des geglätteten Signales erhalten wird, oder mit Hilfe eines Median-Filters.

    [0016] Bei der linearen Filterung hat sich ein Filter mit den Koeffizienten 1/4, 1/2 und 1/4 als günstig erwiesen.

    [0017] Bei der Medianfilterung werden z.B. fünf aufeinanderfolgende Kurzzeitmittelwerte G(n) ... G(n-4) der Größe nach geordnet und dann der mittlere Wert als Ausgangswert GG(n) des Filters ausgelesen. Wie das Ausgangssignal des Mittelwertbildners M nach der Glättung mit einem linearen Digitalfilter aussieht, ist dem Diagramm a) der Fig. 3 zu entnehmen. Im Diagramm b) sind wiederum schematisch die wahren Sprachabschnitte und die wahren Pausen des Sprachsignales aufgetragen, und das Diagramm c) zeigt die Sprachabschnitte und Sprachpausen,wie sie sich analog zum Diagramm c) in Fig. 1 ergeben. Durch die lineare Glättung ist die Zahl der Fehlentscheidungen erheblich zurückgegangen, wie der Vergleich von Fig. 2 und Fig. 3 zeigt. Auch bei Glättung mit einem Median-Filter verringert sich - wie dem Diagramm c) der Fig. 4 zu entnehmen ist - die Zahl der Fehlentscheidungen.

    [0018] Eine weitere Maßnahme, kürzere Leistungseinbrüche im gestörten Sprachsignal nicht als Pausen zu mißdeuten, besteht darin, z.B. einen Leistungseinbruch erst bei zweimaligem Unterschreiten der oberen Amplitudenschwelle in der Fig. 2, 3 oder 4 als Sprachpause anzusehen.

    [0019] Die in der Fig. 2, 3 und 4 eingezeichneten Amplitudenschwellen werden - wie oben schon angedeutet - von der Einheit PA in Fig. 1 ermittelt, und zwar wird zunächst für jeden Zeitpunkt T(n) der Schätzwert P(n) der Geräuschleistung bestimmt. Diese Größe soll ein ungefähres Maß für die mittlere Leistung des Störsignales sein, wobei die Mittelungszeit in der Größenordnung einer Sekunde liegt.

    [0020] Weil der Schätzwert P(n) der Geräuschleistung während längerer Sprachpausen - auf deren Erkennung wird weiter unten eingegangen - auf einen aktuellen Wert gebracht wird, liefert die erfindungsgemäße Anordnung auch dann noch gute Ergebnisse, wenn sich die oben erwähnte mittlere Leistung des Störsignales nur langsam verändert, d.h.,wenn sie in Zeitintervallen der Größe ein bis zwei Sekunden als stationär anzusehen ist.

    [0021] Fällt der Zeitpunkt T(n) in eine längere Sprachpause, so wird der Schätzwert P(n) als Linearkombination aus dem vorangegangenen Schätzwert P(n-l) und dem Kurzzeitmittelwert G(n) nach der Gleichung

    neu bestimmt. Der Wert der in dieser Gleichung auftretenden Konstante a liegt zwischen Null und Eins. Ein typischer Wert für a ist 0,5. Liegt keine längere Sprachpause vor, so wird der vorangegangene Schätzwert beibehalten, d.h. es wird P(n) = P(n-1) gesetzt. Zu Beginn der Pausenerkennung Mird der Schätzwert zu Null gewählt.

    [0022] Um die längeren Sprachpausen zu erkennen, wird laufend geprüft, ob die Differenz zweier aufeinanderfolgender Kurzzeitmittelwerte betragsmäßig unter eine Schwelle D fällt. Ist z.B. K mal nacheinander die Ungleichung

    erfüllt, so wird dieser Umstand als Vorliegen einer längeren Sprachpause gewertet und der neue Schätzwert P(n) nach der oben angegebenen Gleichung bestimmt. Die Schwelle D ist proportional zum Kurzzeitmittelwert G(n) gewählt, um zu gleichen Aussagen zu gelangen, wenn z.B. die Pegel aller Signale verdoppelt würden. Der Proportionalitätsfaktor y und die Anzahl K sind experimentell so zu bestimmen, daß durch die Anordnung möglichst wenige Fehlentscheidungen gefällt werden. Typische Werte sind K = 10 und y = 1,1.

    [0023] Ein anderer Weg, einen möglichst guten Schätzwert P(n) für eine langsam veränderliche Geräuschleistung zu erhalten, besteht darin, zu jedem Taktzeitpunkt T(n) eine Vergrößerung des schon vorhandenen Schätzwertes P(n-l) um einen festen Betrag c vorzunehmen, wenn der Schätzwert P(n-l) kleiner als der Kurzzeitmittelwert G(n) ist. Jedes Mal also, wenn die Ungleichung P (n-1) < G(n) erfüllt ist, wird P(n) = P(n-l) + c gesetzt.

    [0024] Die Konstante c ist so zu wählen, daß der Schätzwert bei ungehinderter Vergrößerung in ein bis zwei Sekunden die Aussteuerungsgrenze erreicht hat. Liegt andererseits der schon vorhandene Schätzwert P(n-1) über dem augenblicklichen Kurzzeitmittelwert G(n), so wird der neue Schätzwert P(n) gegenüber dem vorhandenen erniedrigt, und zwar gemäß der Gleichung

    die den neuen Schätzwert als Linearkombination des vorangegangenen Schätzwertes und des augenblicklichen Kurzzeitmittelwertes G(n) darstellt. Die Erniedrigung des Schätzwertes läßt sich am deutlichsten erkennen, wenn die Konstante β zu Eins gewählt wird. Dann ergibt sich nämlich P(n) = G(n) < P(n-1). Werte um 0,5 haben sich jedoch für die Konstante β als günstiger erwiesen.

    [0025] Die Schwelle S, die zur Pausenentscheidung herangezogen wird, ist proportional zum Schätzwert P(n). Typisch für den Zusammenhang zwischen der Schwelle S und dem Schätzwert P(n) ist die Gleichung S = 1,1 P(n).


    Ansprüche

    1. Anordnung zur Erkennung von Sprachpausen in einem Sprachsignal, das von Störsignalen überlagert sein kann, dadurch gekennzeichnet,

    a) daß zu jedem Taktzeitpunkt T(n) eines Taktes mit einer Periodendauer von etwa 100 ms

    -- durch einen Mittelwertbildner (M) ein Kurzzeitmittelwert G(n) bestimmt wird, der ein Mittel der Beträge oder der Betragsquadrate aller Abtastwerte des gestörten Sprachsigales darstellt, die zwischen den Taktzeitpunkten T(n-1) und T(n) liegen,

    -- durch einen Block (PA) ein Schätzwert P(n) der Geräuschleistung ermittelt wird, der sich als Funktion des Schätzwertes P(n-1) zum vorangegangenen Taktzeitpunkt und des Kurzzeitmittelwertes G(n) ergibt,

    -- durch eine Einheit (GL) ein geglätteter Kurzzeitmittelwert GG(n)gewonnen wird, der sich aus dem momentanen Kurzzeitmittelwert G(n) sowie aus vorangegangenen Kurzzeitmittelwerten ergibt,

    b) daß zu jedem Taktzeitpunkt T(n) von einem Vergleicher (V) geprüft wird, ob der geglättete Kurzzeitmittelwert GG(n) unter eine vom Schätzwert P(n) abhängige erste Schwelle (S) fällt und - wenn diese Bedingung einmal oder mehrmals lückenlos nacheinander erfüllt wurde

    - ein Signal für das Vorliegen einer Sprachpause abgegeben wird.


     
    2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß als Kurzzeitmittelwert G(n) das arithmetische Mittel aus den Beträgen der Abtastwerte verwendet wird.
     
    3. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur dann nach der Gleichung

    mit a als einer ersten Konstanten bestimmt wird, wenn die Differenz der Kurzzeitmittelwerte G(n) - G(n-1) betragsmäßig unter einer zweiten Schwelle (D) liegt und dieser Fall lückenlos für eine Anzahl K vorangegangener Taktzeitpunkte eingetreten ist, und daß anderenfalls der Schätzwert P(n) gleich dem vorangegangenen Schätzwert P(n-1) gesetzt wird.
     
    4. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur dann nach der Gleichung

    mit c als einer zweiten Konstanten bestimmt wird, wenn die Ungleichung

    erfüllt ist, und daß anderenfalls der Schätzwert P(n) mit einer dritten Konstanten β zu

    gewählt wird.
     
    5. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die erste Schwelle (S) proportional zum Schätzwert P(n) gewählt wird.
     
    6. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die für die Glättung vorgesehene Einheit (GL) drei Kurzzeitmittelwerte G(n), G(n-1) und G(n-2) nach der Formel

    glättet, wobei die Konstanten co, c1, c2 alle größer oder gleich Null sind und ihre Summe den Wert Eins hat.
     
    7. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die für die Glättung vorgesehene Einheit (GL) als Median-Filter ausgebildet ist.
     
    8. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die zweite Schwelle (D) proportional zum Kurzzeitmittelwert G(n) gewählt wird.
     




    Zeichnung
















    Recherchenbericht