[0001] Die Erfindung betrifft ein Verfahren und eine Schaltungsanordnung zur automatischen
Sprachaktivitätserkennung nach dem Oberbegriff des Patentanspruchs 1 bzw. 5.
[0002] Für den digitalen Mobilfunk oder Sprachspeichersysteme und eine große Anzahl anderer
Anwendungen ist es vorteilhaft, eine diskontinuierliche Übertragung der Sprachcodierungsparameter
vorzunehmen. Dadurch kann während der Sprachpausen oder Zeitintervallen, die im wesentlichen
durch Hintergrundgeräusche dominiert werden, die Bitrate deutlich gesenkt werden.
Vorteile ergeben sich daraus unter anderem durch einen niedrigen Energieverbrauch
in mobilen Endgeräten, durch eine höhere mittlere Bitrate für simultane Dienste, wie
Datenübertragung oder durch eine höhere Speicherkapazität auf Speicherchips. Das Ausmaß
der Vorteile hängt vom Anteil der Pausen im Sprachsignal sowie von der Güte des automatischen
Sprachaktivitätserkenners ab, der zur Detektion solcher Intervalle nötig ist. Zum
einen ist eine niedrige Sprachaktivitätsrate vorteilhaft, zum anderen sollte aktive
Sprache nicht abgeschnitten werden, um die Sprachqualität nicht zu beeinträchtigen.
Dieses Problem ist das grundsätzliche Problem von automatischen Sprachaktivitätserkennern,
besonders bei der Präsenz von Hintergrundgeräuschen hohen Pegels.
[0003] Bekannte Verfahren zur automatischen Sprachaktivitätserkennung benutzen in der Regel
Entscheidungsparameter, die auf Zeitmittelwerten über Fenster konstanter Länge basieren.
Als Beispiel hierfür werden die Autokorrelationskoeffizienten, Nulldurchgangsrate
oder Sprachgrundperiode genannt, wobei diese Parameter nur eine beschränkte Flexibilität
in der Auswahl der Zeit-/Frequenzbereichsauflösung besitzen, welche normalerweise
durch die Rahmenlänge des zugehörigen Sprachcodierers/-decodierers fest vorgegeben
ist. Im Gegensatz dazu berechnet die bekannte Wavelet-Transformation eine Zerlegung
in den Zeit-/Frequenzbereich der zu niedriger Frequenz- aber hoher Zeitbereichsauflösung
bei hohen Frequenzen und zu niedriger Zeit- aber hoher Frequenzbereichsauflösung bei
niedrigen Frequenzen führt. Für die Analyse von Sprachsignalen sind diese Eigenschaften
gut geeignet und deshalb zur Klassifizierung von aktiver Sprache in die Klassen stimmhaft,
stimmlos und Übergänge bereits genutzt worden, wie in der Offenlegungsschrift DE 195
38 852 A1 "Verfahren und Anordnung zur Klassifizierung von Sprachsignalen", 1997,
ausgeführt wird.
[0004] Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren und eine Schaltungsanordnung
zur Sprachaktivitätserkennung auf Basis der Wavelet-Transformation zu schaffen, wobei
entschieden werden soll, ob für das zu betrachtende Zeitsegment überhaupt Sprache
oder Sprachlaute vorliegen.
[0005] Die erfindungsgemäße Lösung des Verfahrens ist im Kennzeichen des Patentanspruchs
1 charakterisiert.
[0006] Weitere Ausgestaltungen des erfindungsgemäßen Verfahrens ergeben sich aus den Patentansprüchen
2 bis 4.
[0007] Die Lösung für die erfindungsgemäße Schaltungsanordnung ist in den Kennzeichen des
Patentanspruchs 5 charakterisiert.
[0008] Weitere Merkmale bzw. Ausgestaltungen der Schaltungsanordnungen sind im Patentanspruch
6 charakterisiert.
[0009] Das vorliegende Verfahren zur automatischen Sprachaktivitätserkennung für Sprachcodierer/-decodierer
zur quellengesteuerten Reduktion der mittleren Übertragungsrate zeichnet sich dadurch
aus, daß nach der Segmentierung des Sprachsignals für jeden Rahmen eine Wavelet-Transformation
berechnet wird, aus der ein Satz Parameter ermittelt wird, aus denen mit Hilfe fester
Schwellen ein Satz binärer Entscheidungsvariablen berechnet wird, die eine Entscheidungslogik
steuern, deren Resultat nach zeitlicher Glättung für jeden Rahmen eine Aussage "Sprache
vorhanden / keine Sprache vorhanden" liefert. Dadurch, daß hiermit festgestellt wird,
ob für das zu betrachtende Zeitsegment überhaupt Sprache vorliegt, wird eine quellengesteuerte
Reduktion der mittleren Übertragungsrate erreicht.
[0010] Weitere Vorteile des Verfahrens zur Sprachaktivitätserkennung sowie der entsprechenden
Schaltungsanordnung werden anhand von Ausführungsbeispielen, die im folgenden näher
beschrieben werden, aufgezeigt.
[0011] In der Beschreibung, in den Patentansprüchen, in der Zusammenfassung und in der Zeichnung
werden die in der hinten angeführten Liste der Bezugszeichen verwendeten Begriffe
und Bezugszeichen verwendet.
[0012] Die Erfindung wird nun anhand von Ausführungsbeispielen, die in den Zeichnungen dargestellt
sind, beschrieben.
[0013] In der Zeichnung bedeuten:
- Fig. 1
- ein Blockschaltbild für die Sprachaktivitätserkennung als Vorstufe für einen variabelratigen
Sprachcodierer-/decodierer und
- Fig. 2
- ein Blockschaltbild eines automatischen Sprachaktivitätserkenners.
[0014] Durch das Verfahren wird entschieden, ob für das zu betrachtende Zeitsegment überhaupt
Sprache vorliegt. Dadurch kann es zur Funktionssteuerung oder allgemein als Vorstufe
für einen Sprachcodierer-/decodierer mit variabler Bitrate verwendet werden. In Fig.
1 ist ein Blockschaltbild für die Sprachaktivitätserkennung als Vorstufe für einen
variabelratigen Sprachcodierer-/decodierer gezeigt, der auf seinem Eingang 1 die jeweilige
Eingangssprache empfängt. Über Leitungen 2 und 3 wird die Eingangssprache sowohl auf
einen Umschalter 4 als auch auf den Eingang einer Sprachaktivitätserkennungsschaltung
bzw. ein -modul 5 gegeben. Der Umschalter 4 leitet die Eingangssprache abhängig vom
Ausgangssignal der Sprachaktivitätserkennungsschaltung 5, die zur Steuerung des Umschalters
4 über eine Rückmeldeleitung 6 mit ihm verbunden ist, entweder auf die Leitung 7 oder
auf die Leitung 8. Die Leitung 7 führt auf einen Sprachcodierer 9 und die Leitung
8 auf einen Hintergrundgeräuschcodierer 10. Der Bitstrom des Sprachcodierers 9 wird
über eine Leitung 11 auf den einen Eingang eines Umschalters 13 gegeben und der Bitstrom
des Hintergrundgeräuschcodierers 10 über eine Leitung 12 auf den anderen Eingang des
Umschalters 13. Der Umschalter 13 empfängt über eine Leitung 14 auch die Ausgangssignale
der Sprachaktivitätserkennungsschaltung 5, wodurch der Umschalter 13 gesteuert wird.
Der Ausgang des Umschalters 13 ist über eine Leitung 15 mit einem Übertragungskanal
16 verbunden, der eingangsseitig auch noch mit der Leitung 14 für die Ausgangssignale
des Sprachaktivitätserkennungsmoduls 5 verbunden ist. Der Ausgang des Übertragungskanals
16 gelangt einmal über eine Leitung 17 auf den Eingang eines weiteren Umschalters
19 und über eine Leitung 18 auf den Steuereingang des Umschalters 19 und den Steuereingang
eines Umschalters 26. Der Umschalter 19 ist über Ausgangsleitungen 20 und 21 mit einem
Sprachdekodierer 22 und mit einem Dekodierer für Hintergrundgeräusche 23 verbunden,
deren Ausgänge über Leitungen 24 bzw. 25 auf den Eingang des bereits genannten Umschalters
26 gelangen, der in Abhängigkeit der Steuersignale auf Leitung 18 am Ausgang 27 entweder
Signale für die decodierte Sprache oder die decodierten Hintergrundgeräusche bereitstellt.
[0015] In Fig. 2 ist ein Blockschaltbild eines automatischen Sprachaktivitätserkenners dargestellt,
der wiederum auf seinem Eingang 1 die Eingangssprache empfängt und an eine Segmentierungsschaltung
28 weiterleitet. Der Ausgang dieser Segmentierungsschaltung 28 wird über eine Leitung
29 an eine Wavelet-Transformationsschaltung 30 übertragen, die wiederum über eine
Leitung 31 mit dem Eingang eines Prozessors 32 zur Berechnung der Energiegrößen verbunden
ist. Der Ausgang des Prozessors 32 bzw. einer Rechenschaltung ist über eine Leitung
33 parallel mit einem Pausendetektor 34, mit einer Schaltung zur Berechnung eines
Stationaritätsmaßes 35, mit einem ersten Hintergrunddetektor 36 und mit einem zweiten
Hintergrunddetektor 37 verbunden. Die Ausgänge der genannten Schaltungen 34 bis 37
sind über entsprechende Leitungen 38 bis 41 mit einer Entscheidungslogik 42 verbunden,
deren Ausgang über eine Leitung 43 mit einer Glättungsschaltung 44 zur zeitlichen
Glättung verbunden ist, deren Ausgang 45 auch Ausgang des Sprachaktivitätserkenners
ist.
[0016] Anhand des Blockschaltbildes des automatischen Sprachaktivitätserkenners nach Fig.
2 wird nun das Verfahren zur automatischen Sprachaktivitätserkennung näher beschrieben.
Nach der Segmentierung des Eingangssignals in der Segmentierungsschaltung 28 wird
für jedes Segment die Wavelet-Transformation in der Wavelet-Transformationsschaltung
30 berechnet. Im Anschluß daran wird ein Satz von Energieparametern im Prozessor 32
aus den Transformationskoeffizienten ermittelt und mit festen Schwellwerten verglichen.
Dadurch entstehen binäre Entscheidungsvariablen, mit denen die Entscheidungslogik
42 gesteuert wird, die ein vorläufiges Resultat für jeden Rahmen ausgibt. Diese vorläufige
Entscheidung wird zum Abschluß noch mittels zeitlicher Glättung in der Schaltung 44
nachverarbeitet, wodurch das endgültige Resultat "Sprache oder keine Sprache" am Ausgang
45 für den aktuellen Rahmen zur Verfügung steht. Im nachfolgenden werden nun die einzelnen
Verarbeitungsschaltungen bzw. -blöcke des Blockdiagramms nach Fig. 2 näher beschrieben.
Die Wavelet-Transformationsschaltung 30 führt folgende Operationen aus: Die Eingangssprache
wird in Rahmen der Länge N Abtastwerte eingeteilt, wobei N an ein bestimmtes Sprachcodierverfahren
angepaßt werden kann. Für jeden Rahmen wird die diskrete Wavelet-Transformation berechnet.
Für viele Basisfunktionen der Wavelet-Transformation kann eine Filterbank mit jeweils
einem Hochpaßfilter oder einem Tiefpaßfilter abgeleitet werden, mit denen die Transformation
rekursiv durchgeführt werden kann. Auf die Klassen der Daubechies Wavelets und der
Spline Wavelets wird hingewiesen, die zu einer besonders effizienten Implementierung
der Transformation mittels Filter kurzer Länge führen. Im nachfolgenden werden zwei
Verfahren beschrieben, die sich zur Berechnung der Transformation eignen.
1. Im ersten Verfahren wird die Filterbank direkt auf den Eingangs-Sprachrahmen s=(s(O),...,s(N-1))T angewandt und die beiden Filterausgänge um den Faktor zwei unterabgetastet. Dadurch
entsteht am Tiefpaßfilterausgang ein Satz von Approximationskoeffizienten A1=(A1(O),...A1(N/2-1))T sowie am Hochpaßfilterausgang ein Satz von Detailkoeffizienten D1=(D1(O),...D1(N/2-1))T. Dieses Verfahren wird nun rekursiv immer auf die Approximationskoeffizienten der
vorherigen Stufe angewandt, wodurch sich in der letzten Stufe L als Ergebnis der Transformation
der Vektor DWT(s)=(D1T,D2T...,DLT,ALT)T mit insgesamt N Koeffizienten ergibt.
2. Die zweite Variante zur Berechnung der Transformation beruht wie die erste auf
einer Filterbankzerlegung. Der Unterschied besteht aber darin, daß die Filterausgänge
nicht mehr unterabgetastet werden. Dadurch entstehen nach jeder Stufe Vektoren der
Länge N und nach der letzten Stufe ein Ausgangsvektor mit insgesamt (L+1)N Koeffizienten.
Um die Auflösungseigenschaften der Wavelet-Transformation zu erhalten, müssen die
Filterimpulsantworten für jede Stufe durch Überabtastung um den Faktor zwei aus der
vorherigen Stufe gewonnen werden. In der ersten Stufe werden die gleichen Filter benutzt
wie für Variante 1. Durch den insgesamt höheren Aufwand - höhere Redundanz in der
Darstellung im Bildbereich - gegenüber Variante 1 kann eine Verbesserung der Leistungsfähigkeit
des Verfahrens erreicht werden.
[0017] Um Randeffekte aufgrund der Filterlänge M zu vermeiden, werden die M 2
L-2 vergangenen sowie die M 2
L-2 zukünftigen Abtastwerte des Sprachrahmens ebenfalls berücksichtigt und die Filter-Impulsantworten
- soweit wie möglich - um den zeitlichen Ursprung zentriert. Dadurch erhöht sich die
algorithmische Verzögerung des Verfahrens prinzipiell um M 2
L-2 Abtastwerte. Soll dies vermieden werden, so kann der Eingangsrahmen alternativ auch
periodisch oder symmetrisch fortgesetzt werden.
[0018] Zunächst werden die Rahmenenergien E
1...,E
L der Detailkoeffizienten
D1,...,
DL und die Rahmenenergie E
L+1 der Approximationskoeffizienten
AL vom Prozessor 32 berechnet.
[0019] Die Gesamtenergie des Rahmens E
tot kann man nun effizient durch Summation aller partieller Energien ermitteln, wenn
die zugrundeliegende Wavelet-Basis orthogonal ist. Alle Energiewerte werden im logarithmischen
Bereich repräsentiert.
[0020] Für die Pausendetektion in der Schaltung 34 wird die Rahmenenergie E
tot mit einer festen Schwelle T
1 verglichen, um Rahmen mit sehr niedriger Energie zu erkennen. Dazu wird eine binäre
Entscheidungsvariable f
sil gemäß der folgenden Formel gesetzt:

[0021] Um bei der Detektion von stationären Rahmen ein Maß für stationäre oder instationäre
Rahmen zu erhalten, wird für jeden Rahmen k das Differenzmaß


berechnet, in das die Rahmenenergien der
Detailkoeffizienten aller Stufen einfließen. Die binäre Entscheidungsvariable f
stat wird nun unter Verwendung der Schwelle T
2 unter Berücksichtigung der letzten K Rahmen gesetzt:

[0022] Bei der Detektion von Hintergrundrauschen in den Schaltungen 36 und 37 ist das Ziel,
ein Entscheidungskriterium zu erhalten, daß unempfindlich gegenüber dem momentanen
Pegel des Hintergrundgeräusches ist. Die Eigenschaften der DWT oder Wavelet-Transformationsschaltung
30 werden hierzu effizient ausgenutzt, indem die Detailkoeffizienten
DQ1 im groben Zeitintervall N und die Detailkoeffizienten
DQ2 im feineren Zeitintervall N/P betrachtet werden. Dabei bezeichnen P die Anzahl der
Subrahmen, Q1 eine Stufe für grobe und Q2 eine Stufe für feine Zeitauflösung, wobei
die Beziehungen Q1,Q2∈{1,L} sowie Q1>Q2 gelten müssen. Vorab wird für beide Stufen
ein Schätzwert B
1, i∈{Q1,Q2}, für den momentanen Pegel des Hintergrundgeräusches durch

berechnet, wobei die Zeitkonstante α durch 0<α<1 begrenzt ist. Danach werden die
P Subrahmenenergien

aus den Detailkoeffizienten
D2 bestimmt und mit Hilfe der festen Schwellen T
3 und T
4 jeweils eine binäre Entscheidungsvariable f
Q1 für die Stufe Q1 sowie f
Q2 für die Stufe Q2 gemäß den folgenden beiden Formeln bestimmt:


[0023] In der Entscheidungslogik 42 wird unter Verwendung der Gleichungen (1), (3), (5)
und (6) das vorläufige Resultat vad
(pre) des automatischen Sprachaktivitätserkenners durch die logische Verknüpfung

gewonnen, wobei '!,|,&' die logischen Operatoren 'nicht, oder, und' bezeichnen.
[0024] Es können auch weitere Stufen Q3, Q4,..., etc. definiert werden, für die eine Detektion
des Hintergrundrauschens in gleicher Weise vorgenommen werden kann. Es sind dann weitere
binäre Entscheidungsparamter f
Q3,f
Q4,... zu definieren, die ebenso in Gleichung (7) zu berücksichtigen sind.
[0025] Die zeitliche Glättung erfolgt in der Schaltung 44. Um die Langzeit-Stationarität
von Sprache in Betracht zu ziehen, wird die vorläufige Entscheidung der VAD in einer
nachverarbeitenden Stufe noch zeitlich geglättet. Übersteigt die Anzahl der letzten
zusammenhängend als aktiv gekennzeichneten Rahmen den Wert C
B, so werden, solange vad
(pre)=0, noch maximal C
H aktive Rahmen angehängt. Damit liegt die endgültige Entscheidung vad∈{0,1} des Sprachaktivitätserkenners
fest.
Liste der Bezugszeichen
[0026]
- 1
- Eingang
- 2,3
- Leitungen
- 4
- Umschalter
- 5
- Sprachaktivitätserkennungsmodul oder -schaltung
- 6
- Rückmeldeleitung
- 7,8
- Leitungen bzw. Ausgänge des Umschalters 4
- 9
- Sprachcodierer
- 10
- Hintergrundgeräuschcodierer
- 11,12
- Leitungen
- 13
- Umschalter
- 14,15
- Leitungen
- 16
- Übertragungskanal
- 17,18
- Leitungen
- 19
- Umschalter
- 20,21
- Leitungen
- 22
- Sprachdecodierer
- 23
- Hintergrundgeräuschdecodierer
- 24,25
- Leitungen
- 26
- Umschalter
- 27
- Ausgang
- 28
- Segmentierer
- 29,31,33
- Leitungen
- 30
- Wavelet-Transformationsschaltung
- 32
- Prozessor
- 34
- Phasendetektor
- 35
- Schaltung zur Ermittlung für das Stationaritätsmaß
- 36,37
- Hintergrunddetektor
- 38 - 41
- Leitungen
- 42
- Entscheidungslogik
- 43
- Leitung
- 44
- Glättungsschaltung
- 45
- Ausgang
1. Verfahren zur automatischen Sprachaktivitätserkennung auf Basis der Wavelet-Transformation,
dadurch gekennzeichnet,
daß zur quellengesteuerten Reduktion der mittleren Übertragungsrate eine Sprachaktivitätserkennungsschaltung
bzw. ein -modul (5) zur Steuerung eines Sprachcodierers (7) und eines Sprachdecodierers
(22) sowie zur Steuerung eines Hintergrundgeräuschcodierers (10) und eines Hintergrundgeräuschdecodierers
(23) dient, wobei nach der Segmentierung eines Sprachsignals für jeden Rahmen eine
Wavelet-Transformation berechnet wird, aus der ein Satz Parameter ermittelt wird,
aus denen mit Hilfe fester Schwellen ein Satz binärer Entscheidungsvariablen in einer
Rechenschaltung oder einem Prozessor (32) berechnet wird, die eine Entscheidungslogik
(42) steuern, deren Resultat nach zeitlicher Glättung für jeden Rahmen eine Aussage
"Sprache vorhanden / keine Sprache" liefert.
2. Verfahren zur Sprachaktivitätserkennung nach Patentanspruch 1,
dadurch gekennzeichnet,
daß nach der Wavelet-Transformation für jedes Segment ein Satz von Energieparametern
aus den Transformationskoeffizienten ermittelt und mit festen Schwellwerten verglichen
wird, wodurch binäre Entscheidungsvariablen entstehen, mit denen die Entscheidungslogik
(42) gesteuert wird, die ein vorläufiges Resultat für jeden Rahmen am Ausgang abgibt.
3. Verfahren zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 oder 2,
dadurch gekennzeichnet,
daß das vorläufige Resultat für jeden Rahmen, das von der Entscheidungslogik ermittelt
wird, mittels zeitlicher Glättung nachverarbeitet wird, wodurch das endgültige Resultat
"Sprache vorhanden oder keine Sprache" für den jeweils aktuellen Rahmen gebildet wird.
4. Verfahren zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 bis 3,
dadurch gekennzeichnet,
daß zur Detektion von Hintergrundrauschen Hintergrundgeräuschdetektoren (36 und 37) mit
Signalen gesteuert werden und die Detailkoeffizienten (D) im groben Zeitintervall
(N) und Detailkoeffizienten (D2) im feineren Zeitintervall (N/P) analysiert werden,
wobei P die Anzahl der Subrahmen darstellt und die Beziehungen Q1,Q2∈{1,L} sowie Q1>Q2
gelten.
5. Schaltungsanordnung zur Durchführung des Verfahrens zur Sprachaktivitätserkennung
nach einem der Patentansprüche 1 bis 4,
dadurch gekennzeichnet,
daß auf den Eingang (1) eines Umschalters (4) die Signale der Eingangssprache gelangen,
daß mit dem Eingang (1) eine Sprachaktivitätserkennungsschaltung bzw. ein -modul (5)
verbunden ist, deren Ausgang den genannten Umschalter (4), einen weiteren Umschalter
(13) steuert und außerdem mit einem Übertragungskanal (16) verbunden ist,
daß der Ausgang des Umschalters (4) über Leitungen (7 bzw. 8) mit einem Sprachcodierer
(9) bzw. mit einem Hintergrundgeräuschcodierer (10) verbunden ist, deren Ausgänge
über Leitungen (11 bzw. 12) mit den Eingängen des Umschalters (13) verbunden sind,
dessen Ausgang über eine Leitung (15) mit dem Eingang des Übertragungskanals (16)
verbunden ist, der einerseits mit einem weiteren Umschalter (19) und andererseits
über eine Leitung (18) zur Steuerung des Umschalters (19) und zur Steuerung eines
am Ausgang (27) angeordneten Umschalters (26) verbunden ist, und
daß zwischen den beiden Umschaltern (19 bzw. 26) ein Sprachdecodierer (22) und ein Decodierer
(23) für Hintergrundgeräusche angeordnet ist.
6. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Patentansprüche
1 bis 4,
dadurch gekennzeichnet,
daß der Eingang (1) mit einer Segmentierungsschaltung (28) verbunden ist, deren Ausgang
über eine Leitung (29) mit einer Wavelet-Transformationsschaltung (30) verbunden ist,
die mit dem Eingang einer Rechenschaltung bzw. eines Prozessors (32) zur Berechnung
der Energiegrößen verbunden ist,
daß der Ausgang des Prozessors (32) über eine Leitung (33) parallel mit einem Pausendetektor
(34), mit einer Schaltung zur Berechnung eines Stationaritätsmaßes (35), mit einem
ersten Hintergrunddetektor (36) und mit einem zweiten Hintergrunddetektor (37) verbunden
ist,
daß die Ausgänge der genannten Schaltungen (34 bis 37) mit einer Entscheidungslogik (42)
verbunden sind, deren Ausgang mit einer Glättungsschaltung (44) zur zeitlichen Glättung
verbunden ist, und
daß der Ausgang der Glättungsschaltung (44) auch der Ausgang (45) des Sprachaktivitätserkenners
ist.
1. Method for automatic voice activity detection on the basis of wavelet transformation,
characterized in that
for source-controlled reduction of the mean transmission rate, a voice activity detection
circuit or module (5) is used to control a voice coder (7) and a voice decoder (22)
as well as to control a background noise coder (10) and a background noise decoder
(23), wherein, after segmentation of a voice signal, for each frame a wavelet transformation
is computed from which is determined a set of parameters from which, with the aid
of fixed thresholds, a set of binary decision-making variables is computed in a computation
circuit or processor (32), said decision-making variables controlling a decision-making
logic (42), wherein, after smoothing with respect to time, the result of said decision-making
logic (42) supplies a statement "voice present / no voice" for each frame.
2. Method for voice activity detection according to claim 1,
characterized in that
after wavelet transformation, for each segment a set of energy parameters is determined
from the transformation coefficients and is compared with fixed threshold values,
this resulting in binary decision-making variables with which the decision-making
logic (42) is controlled, said decision-making logic (42) delivering a provisional
result for each frame at the output.
3. Method for voice activity detection according to any one of claims 1 or 2,
characterized in that
the provisional result for each frame as determined by the decision-making logic is
post-processed by means of smoothing with respect to time, this forming the final
result "voice present or no voice" for the current frame.
4. Method for voice activity detection according to any one of claims 1 to 3,
characterized in that
for the detection of background noise, background noise detectors (36 and 37) are
controlled with signals and the detail coefficients (D) are analyzed at the coarse
time interval (N) and the detail coefficients (D2) are analyzed at the finer time
interval (N/P), P representing the number of subframes and there applying the relations
Q1,Q2∈(1,L) as well as Q1>Q2.
5. Circuit arrangement for implementation of the method for voice activity detection
according to any one of claims 1 to 4,
characterized in that
the signals of the input voice are sent to the input (1) of a selector switch (4);
connected to the input (1) is a voice activity detection circuit or module (5), the
output of which controls the aforementioned selector switch (4), a further selector
switch (13) and is additionally connected to a transmission channel (16);
the output of the selector switch (4) is connected via lines (7 and 8) to a voice
coder (9) and to a background noise coder (10), the outputs of which are connected
via lines (11 and 12) to the inputs of the selector switch (13), the output of which
is connected via a line (15) to the input of the transmission channel (16), which
is connected on one side to a further selector switch (19) and on the other side via
a line (18) for controlling the selector switch (19) and for controlling a selector
switch (26) disposed at the output (27); and
disposed between the two selector switches (19 and 26) are a voice decoder (22) and
a decoder (23) for background noises.
6. Circuit arrangement for implementation of the method according to any one of claims
1 to 4,
characterized in that
the input (1) is connected to a segmentation circuit (28), the output of which is
connected via a line (29) to a wavelet transformation circuit (30), said wavelet transformation
circuit (30) being connected to the input of a computation circuit or processor (32)
for computing the energy variables;
the output of the processor (32) is connected via a line (33) in parallel to a pause
detector (34), to a circuit for computing a stationarity dimension (35), to a first
background detector (36) and to a second background detector (37);
the outputs of the aforementioned circuits (34 to 37) are connected to a decision-making
logic (42), the output of which is connected to a smoothing circuit (44) for smoothing
with respect to time; and
the output of the smoothing circuit (44) is also the output (45) of the voice activity
detector.
1. Procédé de détection automatique de l'activité vocale sur la base de la transformation
ondelette,
caractérisé en ce que
pour la réduction commandée à la source du débit de transmission moyen, un circuit
ou module de détection de l'activité vocale (5) sert à la commande d'un codeur vocal
(7) et d'un décodeur vocal (22) et à la commande d'un codeur de bruit de fond (10)
et d'un décodeur de bruit de fond (23), une transformation ondelette étant calculée
pour chaque trame après la segmentation d'un signal vocal, permettant de déterminer
un jeu de paramètres, à partir desquels est calculé dans un circuit de calcul ou un
processeur (32), à l'aide de seuils fixes, un jeu de variables binaires de décision,
lesquelles pilotent une logique de décision (42), dont le résultat donne pour chaque
trame, après égalisation temporelle, une information « voix / non voix ».
2. Procédé de détection automatique de l'activité vocale selon la revendication 1,
caractérisé en ce que
après la transformation ondelette un jeu de paramètres d'énergie est établi pour chaque
segment à partir des coefficients de transformation et est comparé avec des valeurs
seuils fixes, des variables de décision binaires en résultant, avec lesquelles la
logique de décision (42) est pilotée, laquelle donne un résultat provisoire pour chaque
trame à la sortie.
3. Procédé de détection automatique de l'activité vocale selon l'une des revendications
1 ou 2,
caractérisé en ce que
le résultat provisoire pour chaque trame, qui est obtenu par la logique de décision,
est soumis à une égalisation temporelle, le résultat définitif « voix / non voix »
étant ainsi obtenu pour la trame considérée.
4. Procédé de détection automatique de l'activité vocale selon l'une des revendications
1 à 3,
caractérisé en ce que
pour la détection de bruits de fond, des détecteurs de bruits de fond (36 et 37) sont
pilotés par des signaux et les coefficients détaillés (D) en gros intervalle de temps
(N) et les coefficients détaillés (D2) en petit intervalle de temps (N/P) sont analysés,
P représentant le nombre des sous-trames et les relations suivantes étant assurées
: Q1,Q2∈(1,L) et Q1>Q2.
5. Montage servant à assurer le procédé de détection de l'activité vocale selon l'une
des revendications 1 à 4,
caractérisé en ce que
les signaux du langage d'entrée parviennent à l'entrée (1) d'un commutateur (4),
un circuit ou module de détection de l'activité vocale (5) est relié à l'entrée (1),
sa sortie pilotant le commutateur (4) susmentionné et un autre commutateur (13) et
étant en outre reliée à un canal de transmission (16),
la sortie du commutateur (4) est reliée par des lignes (7 ou 8) à un codeur vocal
(9) ou à un codeur de bruit de fond (10), dont les sorties sont reliées par des lignes
(11 ou 12) aux entrées du commutateur (13), dont la sortie est reliée par une ligne
(15) à l'entrée du canal de transmission (16), qui est d'une part relié à un autre
commutateur (19) et d'autre part sur une ligne (18) pour le pilotage du commutateur
(19) et pour le pilotage d'un commutateur (26) mis en place à la sortie (27), et
qu'entre les deux commutateurs (19 et 26), un décodeur vocal (22) et un décodeur (23)
sont mis en place pour les bruits de fond.
6. Montage servant à assurer le procédé selon l'une des revendications 1 à 4,
caractérisé en ce que
l'entrée (1) est reliée à un circuit de segmentation (28) dont la sortie est reliée
par une ligne (29) à un circuit de transformation ondelette (30), qui est relié avec
l'entrée d'un circuit de calcul ou d'un processeur (32) pour le calcul des valeurs
d'énergie,
la sortie du processeur (32) est reliée parallèlement par une ligne (33) à un détecteur
de pause (34), à un circuit de mesure de stationnarité (35), à un premier détecteur
de fond (36) et à un deuxième détecteur de fond (37) ,
les sorties des circuits susmentionnés (34 à 37) sont reliés à une logique de décision
(42), dont la sortie est reliée à un circuit d'égalisation (44) pour l'égalisation
temporelle, et
la sortie du circuit d'égalisation (44) est en même temps la sortie (45) du détecteur
d'activité vocale.