[0001] Die Erfindung betrifft eine Anordnung zur Erkennung von Sprachpausen aus dem Kurzzeitspektrum
eines Sprachsignales, das von Störsignalen überlagert sein kann.
[0002] Eine derartige Anordnung ist z.B. die Voraussetzung für die Unterdrückung von Störsignalen
beim Telefonieren aus einer akustisch gestörten Umgebung. Während der Sprachpausen
werden charakteristische Parameter des Störsignales gemessen und dazu verwendet, die
Störungen vor der Übertragung möglichst vollständig aus dem zu übertragenden Signal
mit adaptiven Filtern herauszufiltern.
[0003] Aus der DE-AS 24 55 447, Spalte 10 ist eine Anordnung in analoger Technik zur Erkennung
von Sprachpausen bekannt, der folgende IrJirkungsvreise zugrunde liegt: Das Sprachsignal
wird in gleich lange Abschnitte zerlegt und für jeden Abschnitt wird durch Gleichrichtung
und Mittelwertbildung ein Spannungswert gewonnen, der zur mittleren Lautstärke des
Abschnittes proportional ist. Schließlich wird durch Mittelwertbildung über mehrere
Sprachabschnitte ein weiterer Spannungswert bestimmt, der zur mittleren Gesprächslautstärke
proportional ist. Durch einen Vergleich der beiden Mittelwerte wird entschieden, ob
ein Abschnitt einer Sprachpause angehört oder nicht.
[0004] Bei dieser Sprachpausenerkennung ist unter anderem nicht berücksichtigt, daß z.B.
stimmlose Laute zu einem Leistungseinbruch im Sprachsignal führen und die betreffenden
Sprachabschnitte deshalb fälschlicherweise als Sprachpausen angesehen werden. Derartige
Fehlentscheidungen treten bei der bekannten Anordnung um so häufiger auf, je stärker
das Sprachsignal von Störsignalen überlagert ist.
[0005] Es ist deshalb Aufgabe der Erfindungeine Anordnung der eingangs genannten Art anzugeben,
bei der Fehlentscheidungen im oben erläuterten Sinne vermieden werden. Die Anordnung
soll darüberhinaus eine Sprachpausenerkennung auch dann ermöglichen, wenn sich die
mittlere Geräuschleistung langsam verändert.
[0006] Diese Aufgabe wird durch die im Kennzeichen des Anspruches 1 angegebenen Merkmale
gelöst. Die erfindungsgemäße Anordnung ist dann besonders vorteilhaft anzuwenden,
wenn - vgl. das eingangs erwähnte Anwendungsbeispiel - zur Geräuschunterdrückung eine
Anordnung eingesetzt wird, die auf einer Kurzzeit-Fourier-Analyse des gestörten Sprachsignales
basiert. Die in der erfindungsgemäßen Anordnung erwähnte Filterbank braucht dann nicht
gesondert vorgesehen zu werden.
[0007] Vorteilhafte Ausgestaltungen der Erfindung geben die Unteransprüche an.
[0008] Anhand der Figuren soll die Erfindung näher erläutert werden.
[0009] Es zeigt:
Fig.1 ein Blockschaltbild der erfindungsgemäßen Anordnung,
Fig.2 Diagramme zur Erläuterung der UirkunosMeise der erfindunosoemäßen Anordnung.
[0010] Im Blockschaltbild nach Fig.1 wird das gestörte Sprachsignal an einer Eingangsklemme
E angelegt. Ein Analog-Digital-Umsetzer A/D erzeugt aus dem analogen Eingangssignal
eine Folge von digitalisierten Abtastwerten. Die Abtastwerte werden einer Filterbank
FB zugeführt, durch die zu Zeitpunkten
T (n) eines - im folgenden Zentraltakt genannten - Taktes ein Satz W(n) von M Fourier-Koeffizienten
Yl(n), Y2(n)...YM(n) des Kurzzeitspektrums bestimmt wird.
[0011] Von der erfindungsgemäßen.ßnordnung werden nur Fourier-Koeffizienten bestimmt, deren
zugehörige Frequenzen im Frequenzbereich zwischen 0 Hz und etwa 3000 Hz liegen, da
dieser Bereich der Bereich größter spektraler Energiedichte der Sprache ist. Dadurch
wird die Sprachpausenerkennung verbessert, wenn das Spektrum des Störsignales einen
größeren Frequenzbereich überdeckt.
[0012] Aus dem Satz W(n) der Fourier-Koeffizienten Y1(n), Y2(n)... YM(n) und aus den vorangegangenen
Sätzen von Fourier-Koeffizienten bestimmt ein Mittelwertbildner MB einen Kurzzeitmittelwert
G(n), der näherungsweise ein Maß für die mittlere Leistung des gestörten Sprachsignales
darstellt, wobei die Mittelungszeit in der Größenordnung von 100ms liegt. Auf den
genauen Mittelungsvorgang wird weiter unten eingegangen. Eine Einheit GL glättet die
Folge der Kurzzeitmittelwerte G(n), damit bei der endgültigen Entscheidung auf Sprachpause
kurzzeitige, durch stimmlose Laute verursachte Leistungseinbrüche im Sprachsignal
nicht als Pausen mißdeutet werden. Eine Einheit PA in Fig.1 bestimmt einen Schätzwert
P(n) der Geräuschleistung, d.h., der Leistung des Störsignales, sowie eine davon abhängige
erste Schwelle S, auf deren Bestimmung ebenfalls weiter unten eingegangen wird. Liegt
die Folge GG(n) der geglätteten Kurzzeitmittelwerte unter der Schwelle S, so gibt
ein Vergleicher V ein Signal an eine Einheit EN ab.
[0013] Hat die Einheit EN z.B. 25 Mal nacheinander ein Signal vom Vergleicher V erhalten,
so wird durch ihr Ausgangssignal an einer Klemme A das Vorliegen einer Sprachpause
angezeigt.
[0014] Die Filterbank FB bestimmt z.B. alle 4 ms einen Satz W(n) von M
" 30 Fourier-Koeffizienten des Kurzzeitspektrums, d.h. unter anderem, die Periodendauer
des Zentraltaktes beträgt 4 ms. Die Bestimmung des Kurzzeitmittelwertes G(n) zu den
Taktzeitpunkten T (n) stellt sowohl eine Mittelung über alle Fourier-Koeffizienten
Y1(n) ... YM(n) zu einem festen Zeitpunkt
T(n) als auch eine Mittelung über die Koeffizienten zu verschiedenen Taktzeitpunkten
dar. Zur formelhaften Beschreibung des Mittelungsvorganges werde eine Hilfsgröße H(n)
eingeführt, die sich durch Mittelung nur derjenigen Fourier-Koeffizienten ergibt,
die zum Zeitpunkt
T(n) bestimmt werden, d.h.,

oder

je nachdem, ob man das arithmetische Mittel der Beträge oder der Betragsquadrate verwenden
will. Da der Bauteileaufwand bei der Verwendung der Beträge geringer ist, wird man
im allgemeinen die erste Möglichkeit für die Hilfsgröße H(n) vorziehen.
[0015] Der Kurzzeitmittelwert G(n) ergibt sich erfindungsgemäß nun durch Mittelung über
die Größe H zu verschiedenen Zeitpunkten:

[0016] Die Zahl N der berücksichtigten Zeitpunkte liegt bei 25.
[0017] Günstiger, da zur Realisierung der Bauteileaufwand geringer wird, ist die rekursive
Mittelung

nach der sich der Kurzzeitmittelwert G(n) zum Taktzeitpunkt τ(n) als Linearkombination
des Kurzzeitmittelwertes G(n-1) zum Taktzeitpunkt
T (n-1) und der Hilfsgröße H(n) ergibt. Ein typischer Wert der Konstante 6 ist 0,1.
[0018] Aus der Folge der Kurzzeitmittelwerte G(n) werden erfindungsgemäß nun zu jedem Taktzeitpunkt
T(n) zwei weitere Größen ermittelt, nämlich ein geglätteter Kurzzeitmittelwert GG(n)
und ein Schätzwert P(n) für die mittlere Geräuschleistung. Der geglättete Wert GG(n)
läßt sich z.B. mit Hilfe eines linearen Digitalfilters gewinnen, bei dem sich als
Ausgangsgröße GG(n) das gewichtete Mittel von drei aufeinanderfolgenden Kurzzeitmittelwerten
G(n), G(n-1) und G(n-2) ergibt. Die Gewichte (Filter-Koeffizienten) 1/4, 1/2 und 1/4
haben sich dabei als günstig erwiesen.
[0019] Eine andere Möglichkeit ist die Medianfilterung. Bei ihr werden z.B. fünf aufeinanderfolgende
Werte G(n)... G(n-4) der Größe nach angeordnet und dann der dritte Wert als Ausgangswert
GG(n) des Filters ausgelesen.
[0020] Die fortlaufende Bestimmung des Schätzwertes P(n) kann ebenfalls auf zwei Arten erfolgen.
Entweder wird zunächst eine längere Sprachpause ermittelt und dann mit einem Kurzzeitmittelwert
G(n), der in diese Sprachpause fällt, der Wert von P(n) aktualisiert. Durch die ständige
Aktualisierung des Schätzwertes P(n) ist bei der erfindungsgemäßen Anordnung die Sprachpausenerkennung
auch dann noch möglich, wenn sich der Geräuschpegel langsam verändert.
[0021] Eine längere Pause wird dadurch erkannt, daß die Ungleichung

K Mal nacheinander erfüllt ist. Die Differenz zweier aufeinanderfolgender Kurzzeitmittelwerte
G(n) und G(n-1) muß also K Mal unter eine Schranke D fallen. Die Schranke D wird proportional
zum Kurzzeitmittelwert G(n) gewählt, um zu gleichen Aussagen zu gelangen, wenn z.B.
die Pegel aller Signale verdoppelt würden.
[0022] Als günstig haben sich die Werte K = 30 und Y = 1,1 erwiesen. Ist also G(n) z.B.
der dreißigste Wert, für den die oben angegebene Ungleichung erfüllt ist, so wird
der Schätzwert P(n) erneuert und zwar nach der Gleichung

d.h., der neue Schätzwert P(n) ist eine.Linearkombination aus dem alten Schätzwert
P(n-1) und dem zuletzt bestimmten, in eine längere Pause fallenden Kurzzeitmittelwert
G(n). Für die Konstante « ist 0,5 ein günstiger Wert. Liegt-keine längere Pause vor,
so wird der alte Schätzwert beibehalten, d.h., es wird P(n) = P(n-1) gesetzt.
[0023] Ein anderer Weg, einen möglichst guten Schätzwert P(n) für eine langsam veränderliche
Geräuschleistung zu erhalten, besteht darin, zu jedem Taktzeitpunkt z(n) eine Vergrößerung
des schon vorhandenen Schätzwertes P(n-1) um einen festen Betrag c vorzunehmen, wenn
der Schätzwert P(n-1) kleiner als der Kurzzeitmittelwert G(n) ist. Jedes Mal also,
wenn die Ungleichung P(n-1)< G(n) erfüllt ist, wird

gesetzt.
[0024] Die Konstante c ist so zu wählen, daß der Schätzwert bei ungehinderter Vergrößerung
in ein bis zwei Sekunden die Aussteuerungsgrenze erreicht hat. Liegt andererseits
der schon vorhandene Schätzwert P(n-1) über dem augenblicklichen Kurzzeitmittelwert
G(n), so wird der neue Schätzwert P(n) gegenüber dem vorhandenen erniedrigt, und zwar
gemäß der Gleichung

die den neuen Schätzwert als Linearkombination des vorangegangenen Schätzwertes und
des augenblicklichen Kurzzeitmittelwertes G(n) darstellt. Die Erniedrigung des Schätzwertes
läßt sich am deutlichsten erkennen, wenn die Konstante β zu eins gewählt wird. Dann
ergibt sich nämlich P(n) = G(n)<P(n-1). Werte um 0,5 haben sich jedoch für die Konstante
β als günstiger erwiesen.
[0025] Die Schwelle S, die zur Pausenentscheidung herangezogen wird, ist größer als der
Schätzwert P(n). Typisch für den Zusammenhang zwischen der Schwelle S und dem Schätzwert
P(n) ist die Gleichung S = 1,15P(n), wenn für die Bestimmung der Kurzzeitmittelwerte
die Beträge der Fourier-Koeffizienten verwendet werden. Bei Verwendung der Betragsquadrate
ist der Zusammenhang S = 1,3P(n) typisch.
[0026] Diagramm a) der Fig.2 zeigt ein Beispiel für die Folge der geglätteten (und auf Eins
normierten) Kurzzeitmittelwerte GG(1), GG(2) ... eines ungestörten Sprachsignales.
Die Folge der GG(n) ist gegen die Zeit aufgetragen. Das betrachtete Zeitintervall
hat eine Länge von etwa 5 Sekunden. Die Lage der Sprachpausen ist daran zu erkennen,
daß dort die Größen GG(n) den Wert 0 annehmen.
[0027] Im Diagramm b) ist diejenige Folge der GG(n) aufgetragen, die aus einem gestörten
Sprachsignal gewonnen - wurde. Die den Diagrammen a) und b) zugrunde liegenden Sprachsignale
sind identisch. Die punktiert eingezeichnete Kurve im Diagramm b) ist die Folge der
Schätzwerte P(n), die nach der zweiten der oben aufgezeigten Möglichkeiten ermittelt
wurde. Das Ergebnis der Sprachpausenbestimmung ist im Diagramm c) dargestellt. Das
Vorliegen einer Sprachpause ist in diesem Diagramm dadurch erkennbar gemacht, daß
die Ordinate während der Sprachpause den Wert 1 und außerhalb der Sprachpause den
Wert 0 annimmt.
1. Anordnung zur Erkennung von Sprachpausen aus dem Kurzzeitspektrum eines Sprachsignales,
das von Störsignalen überlagert sein kann, dadurch gekennzeichnet, daß zu jedem Taktzeitpunkt
7(n) eines Zentraltaktes
a) eine Filterbank (FB) aus Abtastproben des gestörten Sprachsignales einen Satz W(n)
aus M Fourier-Koeffizienten Y1(n), Y2(n) ... YM(n) des Kurzzeitspektrums bestimmt,
b) ein Mittelwertbildner (MB) aus allen M Fourier-Koeffizienten des Satzes W(n) wie
aus den NM Fourier-Koeffizienten der Sätze W(n-1), W(n-2) ... W(n-N) einen Kurzzeitmittelwert
G(n) bestimmt, der ein Mittel der Beträge oder der Betragsquadrate aller berücksichtigten
Fourier-Koeffizienten darstellt,
c) eine erste Einheit (PA) einen Schätzwert P(n) der Geräuschleistung ermittelt, der
eine Funktion des Schätzwertes P(n-1) zum vorangegangenen Taktzeitpunkt und des Kurzzeitmittelwertes
G(n) ist,
d) eine zweite Einheit (GL) einen geglätteten Kurzzeitmittelwert GG(n) bestimmt, der
eine Funktion des Kurzzeitmittelwertes G(n) sowie weiterer Kurzzeitmittelwerte zu
vorangegangenen Taktzeitpunkten ist,
e) ein Vergleicher (V) ein Signal an eine nachgeschaltete Einheit (EN) abgibt, wenn
der geglättete Kurzzeitmittelwert GG(n) unter eine vom Schätzwert P(n) abhängige erste
Schwelle (S) fällt und die nachgeschaltete Einheit (EN) dann das Vorliegen einer Sprachpause
anzeigt, wenn sie mehrmals lückenlos nacheinander das Signal vom Vergleicher (V) empfangen
hat.
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß als Kurzzeitmittelwert G(n)
das arithmetische Mittel aus den Beträgen der Fourier-Koeffizienten verwendet wird.
3. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Kurzzeitmittelwert G(n)
rekursiv nach der Gleichung G(n) =(l-J)G(n-l)+cfH(n) bestimmt wird, wobei H(n) ein
Mittel aller zum Zeitpunkten) erhaltenen Fourier Koeffizienten darstellt und eine
erste Konstante bedeutet.
4. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur
dann nach der Gleichung

mitv(-als einer zweiten Konstanten bestimmt wird, wenn die Differenz der Kurzzeitmittelwerte
G(n)-G(n-1) betragsmäßig unter einer zweiten Schwelle (D) liegt und dieser Fall lückenlos
für eine Anzahl K vorangegangener Taktzeitpunkte eingetreten ist, und daß anderenfalls
der Schätzwert P(n) gleich dem vorangegangenen SchätzwertP(n-1) gesetzt wird.
5. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur
dann nach der Gleichung

mit c als einer dritten Konstanten bestimmt wird, wenn die Ungleichung

erfüllt ist und daß anderenfalls der Schätzwert P(n) mit einer vierten Konstanten
β zu

gewählt wird.
6. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die erste Schwelle (S) proportional
zum Schätzwert P(n) gewählt wird.
7. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der geglättete Kurzzeitmittelwert
GG(n) aus den drei Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) nach der Formel

gewonnen wird, wobei die Konstanten c
o, c
1, c
2 alle größer oder gleich 0 sind und ihre Summe den Wert 1 hat.
8. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der geglättete Kurzzeitmittelwert
GG(n) durch Glättung mit einem Median-Filter gewonnen wird.
9. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die zweite Schwelle (D)
proportional zum Kurzzeitmittelwert G(n) gewählt wird.