[0001] Die Erfindung betrifft eine Anordnung zur Erkennung von Sprachpausen in einem Sprachsignal,
gemäß dem Oberbegriff des Patentanspruchs 1.
[0002] Derartige Anordnungen sind z.B. die Voraussetzung für die Unterdrückung von Störsignalen
beim Telefonieren aus akustisch gestörter Umgebung. Während der Sprachpause werden
charakteristische Parameter des Störsignales gemessen und dazu verwendet, die Störungen
vor der Übertragung möglichst vollständig aus dem zu übertragenden Signal mit adaptiven
Filtern herauszufiltem.
[0003] Aus der US-A-4,357,491 ist eine Schaltungsanordnung zur Erkennung von Sprachpausen
in einem Sprachsignal bekannt, bei welcher ein Kurzzeitmittelwert zu bestimmten Taktzeitpunkten
eines Taktes bestimmt wird. Die daraus bekannte Schaltungsanordnung weist eine feste
Schwelle und zwei adaptiv nachgeführte Schwellen auf, wobei bei der Nachführung der
Schwellen das Vorzeichen der jeweiligen Steigung im Sprachsignal ausgenutzt wird.
Die adaptiven Rauschschwellen werden um konstante Beträge verändert, so daß diese
nicht in Abhängigkeit von eigenen Werten zu vorangegangenen Taktzeitpunkten bestimmt
werden. Vorzugsweise wird eine solche Schaltungsanordnung zur Erkennung von Sprachpausen
in einem Sprachsignal verwendet, welchem nur schwache Störsignale überlagert sind.
[0004] Aus der DE-A-26 23 025 ist ein Verfahren zur Analyse eines Signals bekannt, bei dem
der Schätzwert der Kanalsignal-Kurzzeitleistung sowohl mit zwei konstanten Schwellwertpegeln
ptm und ptl als auch mit dem um die Zeitdauer At verzögerten Schätzwert selbst verglichen
wird.
[0005] Eine Anregung zur adaptiven Nachführung einer Rauschschwelle istder DE-OS 26 23 025
nicht zu entnehmen.
[0006] Aus der DE-B-2 455 477 Spalte 10 ist eine Anordnung in analoger Technik zur Erkennung
von Sprachpausen bekannt, der folgende Wirkungsweise zugrunde liegt : Das Sprachsignal
wird in gleich lange Abschnitte zerlegt und für jeden Abschnitt wird durch Gleichrichtung
und Mittelwertbildung ein Spannungswert gewonnen, der zur mittleren Lautstärke des
Abschnittes proportional ist. Schließlich wird durch Mittelwertbildung über mehrere
Sprachabschnitte ein weiterer Spannungswert bestimmt, der zur mittleren Gesprächslautstärke
proportional ist. Durch einen Vergleich der beiden Mittelwerte wird entschieden, ob
ein Abschnitt einer Sprachpause angehört oder nicht.
[0007] Bei dieser Pausenerkennung ist unter anderem nicht berücksichtigt, daß z.B. stimmlose
Laute zu einem Leistungseinbruch im Sprachsignal führen und die betreffenden Sprachabschnitte
deshalb fälschlicherweise als Sprachpausen angesehen werden. Derartige Fehlentscheidungen
treten bei der bekannten Anordnung um so häufiger auf, je stärker das Sprachsignal
von Störsignalen überlagert ist.
[0008] Es ist deshalb Aufgabe der Erfindung, eine Anordnung zur Erkennung der Pausen in
einem gestörten Sprachsignal anzugeben, bei der Fehlentscheidungen im oben erläuterten
Sinne vermieden werden. Die Anordnung soll darüberhinaus eine Sprachpausenerkennung
auch dann ermöglichen, wenn sich die mittlere Geräuschleistung nur langsam verändert.
[0009] Diese Aufgabe wird durch die im Kennzeichen des Anspruches 1 angegebenen Merkmale
gelöst. Vorteilhafte Ausgestaltungen geben die Unteransprüche an.
[0010] Anhand der Figuren soll die Erfindung näher erläutert werden.
[0011] Es zeigt :
Figur 1 ein Blockschaltbild der erfindungsgemäßen Anordnung
Figur 2, 3 und 4 Diagramme zur Erläuterung der Wirkungsweise der erfindungsgemäßen
Anordnung
[0012] Im Blockschaltbild nach Fig. 1 werden aus dem an einer Klemme E angelegten, gestörten
Sprachsignal durch einen Analog-Digital-Umsetzer A/D zu Abtastzeitpunkten kTo Abtastwerte
x(k) gewonnen, wobei k eine natürliche Zahl und IlT
o die Abtastfrequenz darstellt. Die Abtastwerte werden an einen Mittelwertbildner M
weitergegeben.
[0013] Der Mittelwertbildner M erzeugt zu allen Takzeitpunkten T(n) mit dem zeitlichen Abstand
mT
o aus den Beträgen von m aufeinanderfolgenden Abtastwerten einen sogenannten Kurzzeitmittelwert.

n = 1, 2, 3,... usw.
[0014] Als Mittelwert ist das arithmetische Mittel aus den Beträgen der Abtastwerte verwendet,
da zu dessen Bestimmung der Bausteineaufwand geringer ist als z.B. zur Bildung des
quadratischen Mittels. Jeder Kurzzeitmittelwert G(n) ist näherungsweise ein Maß für
die mittlere Leistung des gestörten Sprachsignales über einen Zeitraum von etwa 100
ms. Durch diese Angabe und durch die Abtastfrequenz ist auch die Zahl m der Abtastwerte
festgelegt, die zur Bestimmung eines der Kurzzeitmittelwerte G(n) erforderlich sind.
Wird z.B. das gestörte Sprachsignal mit 10 kHz abgetastet, so muß m etwa 1000 betragen.
Jede der Größen G(1), G(2)... ergibt sich also aus etwa tausend aufeinanderfolgenden
Abtastwerten.
[0015] Die Einheit GL der Fig. 1 führt eine Glättung der Folge der Kurzzeitmittelwerte G(n)
durch. Näheres über den Zweck und die Art und Weise der Glättung wird weiter unten
angegeben.
[0016] Parallel zur Glättung wird durch den Block PA der Fig. 1 aus den Kurzzeitmittelwerten
ein Schätzwert P(n) für die mittlere Geräuschleistung, d.h. für die mittlere Leistung
des Störsignales bestimmt. Genaueres über den Schätzwert P(n) wird ebenfalls weiter
unten ausgeführt. Ein VergleicherV in Fig. 1 vergleicht eine vom Schätzwert P(n) abhängige
Schwelle S mit den geglätteten Kurzzeitmittelwerten GG(n). Ist der geglättete Kurzzeitmittelwert
GG(n) kleiner als die Schwelle S, wird ein Signal an eine Einheit EN weitergeleitet.
Hat die Einheit EN z.B. zu zwei aufeinanderfolgenden Taktzeitpunkten T(n - 1) und
T(n) ein derartiges Signal erhalten, so läßt sie ihrerseits durch ein eigenes Signal
an einer Klemme A das Vorliegen einer Sprachpause erkennen.
[0017] Das Diagramm a) der Fig. 2 zeigt ein mögliches Ausgangssignal AM des Mittelwertbildners
M, d.h. eine mögliche Folge der Kurzzeitmittelwerte G(1), G(2)... In dem Diagramm
a) ist das Ausgangssignal AM so normiert, daß sein absolutes Maximum den Wert 1 annimmt.
Bei den eingetragenen Amplitudenschwellen handelt es sich um den Schätzwert P(n) (untere
Schwelle, unterbrochen gezeichnet) und die Schwelle S (obere Schwelle, durchgezogen).
Im Diagramm b) ist schematisch das zugehörige Sprachsignal S mit seinen wahren Pausen
P abgebildet. Würde eine Pausen bestimmung aufgrund der Unterschreitung der oberen
Amplitudenschwelle im Diagramm a) - diese Pausenbestimmung ist im Diagramm c) abgebildet-
vorgenommen werden, so würde sich eine Vielzahl von Fehlentscheidungen ergeben, wie
ein Vergleich der Diagramme b) und c) zeigt. Eine Verschiebung der oberen Schwelle
nach unten würde zwar dazu führen, daß die im Diagramm c) enthaltenen Leistungseinbrüche,
die nicht auf Sprachpausen beruhen, auch nicht angezeigt würden, jedoch würde dann
die Aussage über die Pausenlängen erheblich verfälscht werden.
[0018] Daher ist bei der erfindungsgemäßen Anordnung vor der Entscheidung auf Pause eine
Glättung des Ausgangsignales AM vorgesehen, und zwar entweder mit Hilfe eines linearen
Digitalfilters, durch das aus drei aufeinander folgenden Kurzzeitmittelwerten G(n),
G(n -1) und G(n - 2) ein Wert GG(n) des geglätteten Signales erhalten wird, oder mit
Hilfe eines Median-Filters.
[0019] Bei der linearen Filterung hat sich ein Filter mit den Koeffizienten 1/4, 1/2 und
1/4 als günstig erwiesen.
[0020] Bei der Medianfilterung werden z.B. fünf aufeinanderfolgende Kurzzeitmittelwerte
G(n)... G(n - 4) der Größe nach geordnet und dann der mittlere Wert als Ausgangswert
GG(n) des Filters ausgelesen. Wie das Ausgangssignal des Mittelwertbildners M nach
der Glättung mit einem linearen Digitalfilter aussieht, ist dem Diagramm a) der Fig.
3 zu entnehmen. Im Diagramm b) sind wiederum schematisch die wahren Sprachabschnitte
und die wahren Pausen des Sprachsignales aufgetragen, und das Diagramm c) zeigt die
Sprachabschnitte und Sprachpausen wie sie sich analog zum Diagramm c) in Fig. 1 ergeben.
Durch die lineare Glättung ist die Zahl der Fehlentscheidungen erheblich zurückgegangen,
wie der Vergleich von Fig. 2 und Fig. 3 zeigt. Auch bei Glättung mit einem Median-Filter
verringert sich - wie dem Diagramm c) der Fig. 4 zu entnehmen ist- die Zahl der Fehlentscheidungen.
[0021] Eine weitere Maßnahme, kürzere Leistungseinbrüche im gestörten Sprachsignal nicht
als Pausen zu mißdeuten, besteht darin, z.B. einen Leistungseinbruch erst bei zweimaligem
Unterschreiten der oberen Amplitudenschwelle in der Fig. 2, 3 oder 4 als Sprachpause
anzusehen.
[0022] Die in der Fig. 2, 3 und 4 eingezeichneten Amplitudenschwellen werden - wie oben
schon angedeutet - von der Einheit PA in Fig. 1 ermittelt, und zwar wird zunächst
für jeden Zeitpunkt T(n) der Schätzwert P(n) der Geräuschleistung bestimmt. Diese
Größe soll ein ungefähres Maß für die mittlere Leistung des Störsignales sein, wobei
die Mittelungszeit in der Größenordnung einer Sekunde liegt.
[0023] Weil der Schätzwert P(n) der Geräuschleistung während längerer Sprachpausen - auf
deren Erkennung wird weiter unten eingegangen - auf einen aktuellen Wert gebracht
wird, liefert die erfindungsgemäße Anordnung auch dann noch gute Ergebnisse, wenn
sich die oben erwähnte mittlere Leistung des Störsignales nur langsam verändert, d.h.,
wenn sie in Zeitintervallen der Größe ein bis zwei Sekunden als stationär anzusehen
ist.
[0024] Fällt der Zeitpunkt T(n) in eine längere Sprachpause, so wird der Schätzwert P(n)
als Linearkombination aus dem vorangegangenen Schätzwert (P(n - 1) und dem Kurzzeitmittelwert
G(n) nach der Gleichung

neu bestimmt. Der Wert der in dieser Gleichung auftretenden Konstante a liegt zwischen
Null und Eins. Ein typischer Wert für a ist 0,5. Liegt keine längere Sprachpause vor,
so wird der vorangegangene Schätzwert beibehalten, d.h. es wird P(n) = P (n - 1) gesetzt.
Zu Beginn der Pausenerkennung wird der Schätzwert zu Null gewählt.
[0025] Um die längeren Sprachpausen zu erkennen, wird laufend geprüft, ob die Differenz
zweier aufeinanderfolgender Kurzzeitmittelwerte betragsmäßig unter eine Schwelle D
fällt. Ist z.B. K mal nacheinander die Ungleichung

erfüllt, so wird dieser Umstand als Vorliegen einer längeren Sprachpause gewertet
und der neue Schätzwert P(n) nach der oben angegebenen Gleichung bestimmt. Die Schwelle
D ist proportional zum Kurzzeitmittelwert G(n) gewählt, um zu gleichen Aussagen zu
gelangen, wenn z.B. die Pegel aller Signale verdoppelt würden. Der Proportionalitätsfaktor
y und die Anzahl Ksind experimentell so zu bestimmen, daß durch die Anordnung möglichst
wenige Fehlentscheidungen gefällt werden. Typische Werte sind

[0026] Ein anderer Weg, einen möglichst guten Schätzwert P(n) für eine langsam veränderliche
Geräuschleistung zu erhalten, besteht darin, zu jedem Taktzeitpunkt T(n) eine Vergrößerung
des schon vorhandenen Schätzwertes P(n - 1) um einen festen Betrag c vorzunehmen,
wenn der Schätzwert P(n - 1) kleiner als der Kurzzeitmittelwert G(n) ist. Jedes Mal
also, wenn die Ungleichung P(n - 1) < G(n) erfüllt ist, wird P(n) = P(n - 1) + c gesetzt.
[0027] Die Konstante c ist so zu wählen, daß der Schätzwert bei ungehinderter Vergrößerung
in ein bis zwei Sekunden die Aussteuerungsgrenze erreicht hat. Liegt andererseits
der schon vorhandene Schätzwert P(n - 1) über dem augenblicklichen Kurzzeitmittelwert
G(n), so wird der neue Schätzwert P(n) gegenüber dem vorhandenen erniedrigt, und zwar
gemäß der Gleichung

die den neuen Schätzwert als Linearkombination des vorangegangenen Schätzwertes und
des augenblicklichen Kurzzeitmittelwertes G(n) darstellt. Werte um 0,5 haben sich
für die Konstante β als günstig erwiesen.
[0028] Die Schwelle S, die zur Pausenentscheidung herangezogen wird, ist proportional zum
Schätzwert P(n). Typisch für den Zusammenhang zwischen der Schwelle S und dem Schätzwert
P(n) ist die Gleichung S = 1,1 P(n).
1. Anordnung zur Erkennung von Sprachpausen in einem Sprachsignal, das von Störsignalen
überlagert sein kann, und bei welcher zu jedem Taktzeitpunkt T(n) eines Taktes durch
einen Mittelwertbildner (M) ein Kurzzeitmittelwert G(n) bestimmt wird, der ein Mittel
der Beträge oder Betragsquadrate aller Abtastwerte des gestörten Sprachsignals darstellt,
die zwischen den Taktzeitpunkten T(n - 1) und T(n) liegen, wodurch ein Schätzwert
P(n) der Geräuschleistung ermittelt werden kann, welcher sich als Funktion des Kurzzeitmittelwertes
G(n) ergibt, dadurch gekennzeichnet, daß die Periodendauer des Taktes etwa 100 ms
beträgt, daß durch einen Block (PA) ein Schätzwert P(n) der Geräuschleistung ermitteltwird,
der sich als Funktion des Kurzzeitmittelwertes G(n) und des Schätzwertes P(n - 1)
zum vorangegangenen Taktzeitpunkt ergibt, daß durch eine Einheit (GL) ein geglätteter
Kurzzeitmittelwert GG(n) gewonnen wird, der sich aus dem momentanen Kurzzeitmittelwert
G(n) sowie aus vorangegangenen Kurzzeitmittelwerten ergibt, daß zu jedem Taktzeitpunkt
T(n) von einem Vergleicher (V) geprüft wird, ob der geglättete Kurzzeitmittelwert
GG(n) unter eine vom Schätzwert P(n) abhängige erste Schwelle (S) fällt und daß, wenn
diese Bedingung einmal oder mehrmals lückenlos nacheinander erfüllt wurde, ein Signal
für das Vorliegen einer Sprachpause abgegeben wird.
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß als Kurzzeitmittelwert G(n)
das arithmetische Mittel aus den Beträgen der Abtastwerte verwendet wird.
3. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur
dann nach der Gleichung

mit a als einer ersten Konstanten bestimmt wird, wenn die Differenz der Kurzzeitmittelwerte
G(n)-G(n-1) betragsmäßig unter einer zweiten Schwelle (D) liegt und dieser Fall lückenlos
für eine Anzahl K vorangegangener Taktzeitpunkte eingetreten ist, und daß anderenfalls
der Schätzwert P(n) gleich dem vorangegangenen Schätzwert P(n -1) gesetzt wird.
4. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) nur
dann nach der Gleichung

mit c als einer zweiten Konstanten bestimmt wird, wenn die Ungleichung

erfüllt ist, und daß anderenfalls der Schätzwert P(n) mit einer dritten Konstanten
β zu

gewählt wird.
5. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die erste Schwelle (S) proportional
zum Schätzwert P(n) gewählt wird.
6. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die für die Glättung vorgesehene
Einheit (GL) drei Kurzzeitmittelwerte G(n), G(n - 1) und G(n-2) nach der Formel

glättet, wobei die Konstanten c
o,
C1' Cz alle größer oder gleich Null sind und ihre Summe den Wert Eins hat.
7. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die für die Glättung vorgesehene
Einheit (GL) als Median-Filter ausgebildet ist.
8. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die zweite Schwelle (D)
proportional zum Kurzzeitmittelwert G(n) gewählt wird.
1. An arrangement for recognizing speech pauses in a speech signal which may have
noise signals superposed on it, and in which at each clock instant T(n) of a clock
signal a short-time mean-value G(n) is determined by means of a mean-value producer
(M), which represents an an average of the values or of the square values of all the
sampling values of the disturbed speech signal which are located between the clock
instants T(n -1) and T(n), as a result of which an estimate P(n) of the noise power
produced as a function of the short-time mean-value G(n) can be determined, characterized
in that the period of the clock signal is approximately 100 ms, in that with the aid
of a block (PA) an estimate P(n) of the noise power is determined, which is a function
of the short-time mean-value G(n) and the estimate P(n - 1) at the preceding clock
instant, that a smoothed short-time mean-value GG(n) is taken via a unit (GL) which
is obtained from the instantaneous short-time mean-value G(n) as well as from preceding
short-time mean-values, that at each clock instant T(n) a comparator (V) checks whether
the smoothed short-time mean-value GG(n) is below a first threshold (S) which is dependent
on the estimate P(n), and in that, when this condition is satisfied, once or several
time consecutively a signal indicating the presence of a speech pause is produced.
2. An arrangement as claimed in Claim 1, characterized in that the arithmetic mean-value
of the amounts of the sampling values is used as a short-time mean-value G(n).
3. An arrangement as claimed in Claim 1, characterized in that the estimate P(n) is
only determined in accordance with the equation

where a is a first constant, when the difference between the short-time mean-values
G(n) - G(n - 1) is, as regards its value, below a second threshold (D) and when this
case has occurred uninterruptedly for a number of K preceding clock instants, and
that if these condiditions are not satisfied, the estimate P(n) is made equal to the
preceding estimate P(n - 1).
4. An arrangement as claimed in Claim 1, characterized in that the estimate P(n) is
only determined in accordance with the equation

where c is a second constant when the unequation

is satisfied, and that if this is not the case the estimate P(n) is chosen with a
third constant p to form
5. An arrangement as claimed in Claim 1, characterized in that the first threshold
(S) is chosen proportionally to the estimate P(n).
6. An arrangement as claimed in Claim 1, characterized in that the unit (GL) provided
for the smoothing operation smooths three short-time mean-values G(n), G(n-1) and
G(n - 2) in accordance with the formula

where the constants C
o, C
1, C
2 are all greater than or equal to zero and their sum has the value 1.
7. An arrangement as claimed in Claim 1, characterized in that the smoothing unit
(GL) is in the form of a median filter.
8. An arrangement as claimed in Claim 3, characterized in that the second threshold
(D) is chosen proportionally to the short-time mean-value G(n).
1. Dispositif pour la détection des silences dans un signal de parole sur lequel peuvent
être superposés des signaux parasites, dans lequel, à chaque moment d'impulsion T(n)
d'une cadence, un formateur de valeur moyenne (M) détermine une valeur moyenne à court
terme G(n) qui représente une moyenne des grandeurs ou des grandeurs au carré de toutes
les valeurs d'échantillonnage du signal de parole perturbé qui sont situées entre
les moments d'impulsions T(n - 1) et T(n), grâce à quoi peut être déterminée une estimation
P(n) de la puissance de bruit qui est fonction de la valeur moyenne à court terme
G(n), caractérisé en ce que la periode de la cadence a une durée d'environs 100 ms,
qu'un bloc (PA) détermine une estimation P(n) de la puissance de bruit qui est fonction
de la valeur moyenne à court terme G(n) et de l'estimation P(n - 1) au moment d'impulsion
précédent, qu'une unité (GL) fournit une valeur moyenne à court terme lissée GG(n)
qui est obtenue à partir de la valeur moyenne à court terme G(n) du moment et de valeurs
moyennes à court terme précédentes, qu'à chaque moment d'impulsion T(n), un comparateur
(V) vérifie si la valeur moyenne à court terme lissée GG(n) tombe en dessous d'un
premier seuil (S) dépendant de l'estimation P(n) et que, lorsque cette condition a
été remplie une fois ou plusieurs fois successivement sans discontinuité, un signal
de présence d'un silence est fourni.
2. Dispositif suivant la revendication 1, caractérisé en ce qu'à titre de valeur moyenne
à court terme G(n), la moyenne arithmétique des grandeurs des valeurs d'échantillonnage
est utilisée.
3. Dispositif suivant la revendication 1, caractérisé en ce que l'estimation P(n)
n'est déterminée d'après l'équation

avec une première constante a, que si la différence des valeurs moyennes à court terme
G(n) - G(n - 1) se situe en valeur absolue en dessous d'un deuxième seuil (D) et que
ce cas s'est présenté sans discontinuité pour un nombre (K) de moments d'impulsions
précédents, et qu'au cas contraire, l'estimation P(n) est prise égale à l'estimation
précédente P(n - 1).
4. Dispositif suivant la revendication 1, caractérisé en ce que l'estimation P(n)
n'est déterminée d'après l'équation

avec une deuxième constante c, que si l'inégalité

est satisfaite, et qu'au cas contraire, l'estimation P(n) est choisie sous la forme

avec une troisième constante p.
5. Dispositif suivant la revendication 1, caractérisé en ce que le premier seuil (S)
est choisi proportionnel à l'estimation P(n).
6. Dispositif suivant la revendication 1, caractérisé en ce que l'unité (GL) prévue
pour le lissage lisse trois valeurs moyennes à court terme G(n), G(n - 1) et G(n -
2) selon la formule

où les constantes c
o, c
l, c
2 sont toutes supérieures ou égales à zéro et leur somme vaut un.
7. Dispositif suivant la revendication 1, caractérisé en ce que l'unité (GL) prévue
pour le lissage a la forme d'un filtre à médiane.
8. Dispositif suivant la revendication 3, caractérisé en ce que le second seuil (D)
est choisi proportionnel à la valeur moyenne à court terme G(n).