(19)
(11) EP 0 111 947 A1

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
27.06.1984  Patentblatt  1984/26

(21) Anmeldenummer: 83201642.2

(22) Anmeldetag:  17.11.1983
(51) Internationale Patentklassifikation (IPC)3G10L 1/04
(84) Benannte Vertragsstaaten:
BE DE FR GB IT SE

(30) Priorität: 23.11.1982 DE 3243232

(71) Anmelder:
  • Philips Kommunikations Industrie AG
    90411 Nürnberg (DE)

    DE 
  • Philips Electronics N.V.
    5621 BA Eindhoven (NL)

    BE FR GB IT SE 

(72) Erfinder:
  • Selbach, Bernd, Dipl.-Ing.
    D-8501 Eckental (DE)
  • Vary, Peter, Dr. Ing.
    D-8522 Herzogenaurach-Niederndorf (DE)

(74) Vertreter: Peuckert, Hermann, Dipl.-Ing. et al
Philips Patentverwaltung GmbH, Röntgenstrasse 24
22335 Hamburg
22335 Hamburg (DE)


(56) Entgegenhaltungen: : 
   
       


    (54) Anordnung zur Erkennung von Sprachpausen


    (57) Die beschriebene Anordnung zur Erkennung von Pausen in einem Sprachsignal ermöglicht die Pausenerkennung auch dann, wenn dem Sprachsignal ein langsam veränderliches Störsignal überlagert ist. Zur Pausenerkennung werden aus Kurzzeit-Fourier-Koeffizienten des gestörten Sprachsignales Mittelwerte bestimmt, die ein ungefähres Maß für die mittlere Leistung von etwa 100ms langen Abschnitten des gestörten Sprachsignales sind. Die Folge dieser Kurzzeitmittelwerte wird dann durch lineare Filterung oder durch ein Medianfilter geglättet. Parallel zum Glättungsvorgang wird aus der Folge der Kurzzeitmittelwerte ein Schätzwert für die über einige Sekunden gemittelte Leistung des Störsignales gewonnen. Ist der geglättete Kurzzeitmittelwert mehrmals kleiner als eine zum erwähnten Schätzwert proportionale Schwelle, so wird auf Sprachpause entschieden.


    Beschreibung


    [0001] Die Erfindung betrifft eine Anordnung zur Erkennung von Sprachpausen aus dem Kurzzeitspektrum eines Sprachsignales, das von Störsignalen überlagert sein kann.

    [0002] Eine derartige Anordnung ist z.B. die Voraussetzung für die Unterdrückung von Störsignalen beim Telefonieren aus einer akustisch gestörten Umgebung. Während der Sprachpausen werden charakteristische Parameter des Störsignales gemessen und dazu verwendet, die Störungen vor der Übertragung möglichst vollständig aus dem zu übertragenden Signal mit adaptiven Filtern herauszufiltern.

    [0003] Aus der DE-AS 24 55 447, Spalte 10 ist eine Anordnung in analoger Technik zur Erkennung von Sprachpausen bekannt, der folgende IrJirkungsvreise zugrunde liegt: Das Sprachsignal wird in gleich lange Abschnitte zerlegt und für jeden Abschnitt wird durch Gleichrichtung und Mittelwertbildung ein Spannungswert gewonnen, der zur mittleren Lautstärke des Abschnittes proportional ist. Schließlich wird durch Mittelwertbildung über mehrere Sprachabschnitte ein weiterer Spannungswert bestimmt, der zur mittleren Gesprächslautstärke proportional ist. Durch einen Vergleich der beiden Mittelwerte wird entschieden, ob ein Abschnitt einer Sprachpause angehört oder nicht.

    [0004] Bei dieser Sprachpausenerkennung ist unter anderem nicht berücksichtigt, daß z.B. stimmlose Laute zu einem Leistungseinbruch im Sprachsignal führen und die betreffenden Sprachabschnitte deshalb fälschlicherweise als Sprachpausen angesehen werden. Derartige Fehlentscheidungen treten bei der bekannten Anordnung um so häufiger auf, je stärker das Sprachsignal von Störsignalen überlagert ist.

    [0005] Es ist deshalb Aufgabe der Erfindungeine Anordnung der eingangs genannten Art anzugeben, bei der Fehlentscheidungen im oben erläuterten Sinne vermieden werden. Die Anordnung soll darüberhinaus eine Sprachpausenerkennung auch dann ermöglichen, wenn sich die mittlere Geräuschleistung langsam verändert.

    [0006] Diese Aufgabe wird durch die im Kennzeichen des Anspruches 1 angegebenen Merkmale gelöst. Die erfindungsgemäße Anordnung ist dann besonders vorteilhaft anzuwenden, wenn - vgl. das eingangs erwähnte Anwendungsbeispiel - zur Geräuschunterdrückung eine Anordnung eingesetzt wird, die auf einer Kurzzeit-Fourier-Analyse des gestörten Sprachsignales basiert. Die in der erfindungsgemäßen Anordnung erwähnte Filterbank braucht dann nicht gesondert vorgesehen zu werden.

    [0007] Vorteilhafte Ausgestaltungen der Erfindung geben die Unteransprüche an.

    [0008] Anhand der Figuren soll die Erfindung näher erläutert werden.

    [0009] Es zeigt:

    Fig.1 ein Blockschaltbild der erfindungsgemäßen Anordnung,

    Fig.2 Diagramme zur Erläuterung der UirkunosMeise der erfindunosoemäßen Anordnung.



    [0010] Im Blockschaltbild nach Fig.1 wird das gestörte Sprachsignal an einer Eingangsklemme E angelegt. Ein Analog-Digital-Umsetzer A/D erzeugt aus dem analogen Eingangssignal eine Folge von digitalisierten Abtastwerten. Die Abtastwerte werden einer Filterbank FB zugeführt, durch die zu Zeitpunkten T (n) eines - im folgenden Zentraltakt genannten - Taktes ein Satz W(n) von M Fourier-Koeffizienten Yl(n), Y2(n)...YM(n) des Kurzzeitspektrums bestimmt wird.

    [0011] Von der erfindungsgemäßen.ßnordnung werden nur Fourier-Koeffizienten bestimmt, deren zugehörige Frequenzen im Frequenzbereich zwischen 0 Hz und etwa 3000 Hz liegen, da dieser Bereich der Bereich größter spektraler Energiedichte der Sprache ist. Dadurch wird die Sprachpausenerkennung verbessert, wenn das Spektrum des Störsignales einen größeren Frequenzbereich überdeckt.

    [0012] Aus dem Satz W(n) der Fourier-Koeffizienten Y1(n), Y2(n)... YM(n) und aus den vorangegangenen Sätzen von Fourier-Koeffizienten bestimmt ein Mittelwertbildner MB einen Kurzzeitmittelwert G(n), der näherungsweise ein Maß für die mittlere Leistung des gestörten Sprachsignales darstellt, wobei die Mittelungszeit in der Größenordnung von 100ms liegt. Auf den genauen Mittelungsvorgang wird weiter unten eingegangen. Eine Einheit GL glättet die Folge der Kurzzeitmittelwerte G(n), damit bei der endgültigen Entscheidung auf Sprachpause kurzzeitige, durch stimmlose Laute verursachte Leistungseinbrüche im Sprachsignal nicht als Pausen mißdeutet werden. Eine Einheit PA in Fig.1 bestimmt einen Schätzwert P(n) der Geräuschleistung, d.h., der Leistung des Störsignales, sowie eine davon abhängige erste Schwelle S, auf deren Bestimmung ebenfalls weiter unten eingegangen wird. Liegt die Folge GG(n) der geglätteten Kurzzeitmittelwerte unter der Schwelle S, so gibt ein Vergleicher V ein Signal an eine Einheit EN ab.

    [0013] Hat die Einheit EN z.B. 25 Mal nacheinander ein Signal vom Vergleicher V erhalten, so wird durch ihr Ausgangssignal an einer Klemme A das Vorliegen einer Sprachpause angezeigt.

    [0014] Die Filterbank FB bestimmt z.B. alle 4 ms einen Satz W(n) von M " 30 Fourier-Koeffizienten des Kurzzeitspektrums, d.h. unter anderem, die Periodendauer des Zentraltaktes beträgt 4 ms. Die Bestimmung des Kurzzeitmittelwertes G(n) zu den Taktzeitpunkten T (n) stellt sowohl eine Mittelung über alle Fourier-Koeffizienten Y1(n) ... YM(n) zu einem festen Zeitpunkt T(n) als auch eine Mittelung über die Koeffizienten zu verschiedenen Taktzeitpunkten dar. Zur formelhaften Beschreibung des Mittelungsvorganges werde eine Hilfsgröße H(n) eingeführt, die sich durch Mittelung nur derjenigen Fourier-Koeffizienten ergibt, die zum Zeitpunkt T(n) bestimmt werden, d.h.,

    oder

    je nachdem, ob man das arithmetische Mittel der Beträge oder der Betragsquadrate verwenden will. Da der Bauteileaufwand bei der Verwendung der Beträge geringer ist, wird man im allgemeinen die erste Möglichkeit für die Hilfsgröße H(n) vorziehen.

    [0015] Der Kurzzeitmittelwert G(n) ergibt sich erfindungsgemäß nun durch Mittelung über die Größe H zu verschiedenen Zeitpunkten:



    [0016] Die Zahl N der berücksichtigten Zeitpunkte liegt bei 25.

    [0017] Günstiger, da zur Realisierung der Bauteileaufwand geringer wird, ist die rekursive Mittelung

    nach der sich der Kurzzeitmittelwert G(n) zum Taktzeitpunkt τ(n) als Linearkombination des Kurzzeitmittelwertes G(n-1) zum Taktzeitpunkt T (n-1) und der Hilfsgröße H(n) ergibt. Ein typischer Wert der Konstante 6 ist 0,1.

    [0018] Aus der Folge der Kurzzeitmittelwerte G(n) werden erfindungsgemäß nun zu jedem Taktzeitpunkt T(n) zwei weitere Größen ermittelt, nämlich ein geglätteter Kurzzeitmittelwert GG(n) und ein Schätzwert P(n) für die mittlere Geräuschleistung. Der geglättete Wert GG(n) läßt sich z.B. mit Hilfe eines linearen Digitalfilters gewinnen, bei dem sich als Ausgangsgröße GG(n) das gewichtete Mittel von drei aufeinanderfolgenden Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) ergibt. Die Gewichte (Filter-Koeffizienten) 1/4, 1/2 und 1/4 haben sich dabei als günstig erwiesen.

    [0019] Eine andere Möglichkeit ist die Medianfilterung. Bei ihr werden z.B. fünf aufeinanderfolgende Werte G(n)... G(n-4) der Größe nach angeordnet und dann der dritte Wert als Ausgangswert GG(n) des Filters ausgelesen.

    [0020] Die fortlaufende Bestimmung des Schätzwertes P(n) kann ebenfalls auf zwei Arten erfolgen. Entweder wird zunächst eine längere Sprachpause ermittelt und dann mit einem Kurzzeitmittelwert G(n), der in diese Sprachpause fällt, der Wert von P(n) aktualisiert. Durch die ständige Aktualisierung des Schätzwertes P(n) ist bei der erfindungsgemäßen Anordnung die Sprachpausenerkennung auch dann noch möglich, wenn sich der Geräuschpegel langsam verändert.

    [0021] Eine längere Pause wird dadurch erkannt, daß die Ungleichung

    K Mal nacheinander erfüllt ist. Die Differenz zweier aufeinanderfolgender Kurzzeitmittelwerte G(n) und G(n-1) muß also K Mal unter eine Schranke D fallen. Die Schranke D wird proportional zum Kurzzeitmittelwert G(n) gewählt, um zu gleichen Aussagen zu gelangen, wenn z.B. die Pegel aller Signale verdoppelt würden.

    [0022] Als günstig haben sich die Werte K = 30 und Y = 1,1 erwiesen. Ist also G(n) z.B. der dreißigste Wert, für den die oben angegebene Ungleichung erfüllt ist, so wird der Schätzwert P(n) erneuert und zwar nach der Gleichung

    d.h., der neue Schätzwert P(n) ist eine.Linearkombination aus dem alten Schätzwert P(n-1) und dem zuletzt bestimmten, in eine längere Pause fallenden Kurzzeitmittelwert G(n). Für die Konstante « ist 0,5 ein günstiger Wert. Liegt-keine längere Pause vor, so wird der alte Schätzwert beibehalten, d.h., es wird P(n) = P(n-1) gesetzt.

    [0023] Ein anderer Weg, einen möglichst guten Schätzwert P(n) für eine langsam veränderliche Geräuschleistung zu erhalten, besteht darin, zu jedem Taktzeitpunkt z(n) eine Vergrößerung des schon vorhandenen Schätzwertes P(n-1) um einen festen Betrag c vorzunehmen, wenn der Schätzwert P(n-1) kleiner als der Kurzzeitmittelwert G(n) ist. Jedes Mal also, wenn die Ungleichung P(n-1)< G(n) erfüllt ist, wird

    gesetzt.

    [0024] Die Konstante c ist so zu wählen, daß der Schätzwert bei ungehinderter Vergrößerung in ein bis zwei Sekunden die Aussteuerungsgrenze erreicht hat. Liegt andererseits der schon vorhandene Schätzwert P(n-1) über dem augenblicklichen Kurzzeitmittelwert G(n), so wird der neue Schätzwert P(n) gegenüber dem vorhandenen erniedrigt, und zwar gemäß der Gleichung

    die den neuen Schätzwert als Linearkombination des vorangegangenen Schätzwertes und des augenblicklichen Kurzzeitmittelwertes G(n) darstellt. Die Erniedrigung des Schätzwertes läßt sich am deutlichsten erkennen, wenn die Konstante β zu eins gewählt wird. Dann ergibt sich nämlich P(n) = G(n)<P(n-1). Werte um 0,5 haben sich jedoch für die Konstante β als günstiger erwiesen.

    [0025] Die Schwelle S, die zur Pausenentscheidung herangezogen wird, ist größer als der Schätzwert P(n). Typisch für den Zusammenhang zwischen der Schwelle S und dem Schätzwert P(n) ist die Gleichung S = 1,15P(n), wenn für die Bestimmung der Kurzzeitmittelwerte die Beträge der Fourier-Koeffizienten verwendet werden. Bei Verwendung der Betragsquadrate ist der Zusammenhang S = 1,3P(n) typisch.

    [0026] Diagramm a) der Fig.2 zeigt ein Beispiel für die Folge der geglätteten (und auf Eins normierten) Kurzzeitmittelwerte GG(1), GG(2) ... eines ungestörten Sprachsignales. Die Folge der GG(n) ist gegen die Zeit aufgetragen. Das betrachtete Zeitintervall hat eine Länge von etwa 5 Sekunden. Die Lage der Sprachpausen ist daran zu erkennen, daß dort die Größen GG(n) den Wert 0 annehmen.

    [0027] Im Diagramm b) ist diejenige Folge der GG(n) aufgetragen, die aus einem gestörten Sprachsignal gewonnen - wurde. Die den Diagrammen a) und b) zugrunde liegenden Sprachsignale sind identisch. Die punktiert eingezeichnete Kurve im Diagramm b) ist die Folge der Schätzwerte P(n), die nach der zweiten der oben aufgezeigten Möglichkeiten ermittelt wurde. Das Ergebnis der Sprachpausenbestimmung ist im Diagramm c) dargestellt. Das Vorliegen einer Sprachpause ist in diesem Diagramm dadurch erkennbar gemacht, daß die Ordinate während der Sprachpause den Wert 1 und außerhalb der Sprachpause den Wert 0 annimmt.


    Ansprüche

    1. Anordnung zur Erkennung von Sprachpausen aus dem Kurzzeitspektrum eines Sprachsignales, das von Störsignalen überlagert sein kann, dadurch gekennzeichnet, daß zu jedem Taktzeitpunkt 7(n) eines Zentraltaktes

    a) eine Filterbank (FB) aus Abtastproben des gestörten Sprachsignales einen Satz W(n) aus M Fourier-Koeffizienten Y1(n), Y2(n) ... YM(n) des Kurzzeitspektrums bestimmt,

    b) ein Mittelwertbildner (MB) aus allen M Fourier-Koeffizienten des Satzes W(n) wie aus den NM Fourier-Koeffizienten der Sätze W(n-1), W(n-2) ... W(n-N) einen Kurzzeitmittelwert G(n) bestimmt, der ein Mittel der Beträge oder der Betragsquadrate aller berücksichtigten Fourier-Koeffizienten darstellt,

    c) eine erste Einheit (PA) einen Schätzwert P(n) der Geräuschleistung ermittelt, der eine Funktion des Schätzwertes P(n-1) zum vorangegangenen Taktzeitpunkt und des Kurzzeitmittelwertes G(n) ist,

    d) eine zweite Einheit (GL) einen geglätteten Kurzzeitmittelwert GG(n) bestimmt, der eine Funktion des Kurzzeitmittelwertes G(n) sowie weiterer Kurzzeitmittelwerte zu vorangegangenen Taktzeitpunkten ist,

    e) ein Vergleicher (V) ein Signal an eine nachgeschaltete Einheit (EN) abgibt, wenn der geglättete Kurzzeitmittelwert GG(n) unter eine vom Schätzwert P(n) abhängige erste Schwelle (S) fällt und die nachgeschaltete Einheit (EN) dann das Vorliegen einer Sprachpause anzeigt, wenn sie mehrmals lückenlos nacheinander das Signal vom Vergleicher (V) empfangen hat.


     
    2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß als Kurzzeitmittelwert G(n) das arithmetische Mittel aus den Beträgen der Fourier-Koeffizienten verwendet wird.
     
    3. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Kurzzeitmittelwert G(n) rekursiv nach der Gleichung G(n) =(l-J)G(n-l)+cfH(n) bestimmt wird, wobei H(n) ein Mittel aller zum Zeitpunkten) erhaltenen Fourier Koeffizienten darstellt und eine erste Konstante bedeutet.
     
    4. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur dann nach der Gleichung

    mitv(-als einer zweiten Konstanten bestimmt wird, wenn die Differenz der Kurzzeitmittelwerte G(n)-G(n-1) betragsmäßig unter einer zweiten Schwelle (D) liegt und dieser Fall lückenlos für eine Anzahl K vorangegangener Taktzeitpunkte eingetreten ist, und daß anderenfalls der Schätzwert P(n) gleich dem vorangegangenen SchätzwertP(n-1) gesetzt wird.
     
    5. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur dann nach der Gleichung

    mit c als einer dritten Konstanten bestimmt wird, wenn die Ungleichung

    erfüllt ist und daß anderenfalls der Schätzwert P(n) mit einer vierten Konstanten β zu

    gewählt wird.
     
    6. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die erste Schwelle (S) proportional zum Schätzwert P(n) gewählt wird.
     
    7. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der geglättete Kurzzeitmittelwert GG(n) aus den drei Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) nach der Formel

    gewonnen wird, wobei die Konstanten co, c1, c2 alle größer oder gleich 0 sind und ihre Summe den Wert 1 hat.
     
    8. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der geglättete Kurzzeitmittelwert GG(n) durch Glättung mit einem Median-Filter gewonnen wird.
     
    9. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die zweite Schwelle (D) proportional zum Kurzzeitmittelwert G(n) gewählt wird.
     




    Zeichnung







    Recherchenbericht