ATBECHDEDKESFRGBGRITLILUNLSEMCPTIE......FI....CY..TR............................*JDIM360 (Ver 1.5 21 Nov 2005) - 2100000/01279168EUROPÄISCHE PATENTSCHRIFTB120070725EP01911752.22001030820021128dedede1002086320000428DE20070725200730200301292003052007072520073020070202

G10L 19/14 20060101AFI20011112BHEP

deVERFAHREN ZUR VERBESSERUNG DER SPRACHQUALITÄT BEI SPRACHÜBERTRAGUNGSAUFGABENenMETHOD FOR IMPROVING SPEECH QUALITY IN SPEECH TRANSMISSION TASKSfrPROCEDE POUR AMELIORER LA QUALITE SONORE DE TRANSMISSION DE LA PAROLEWO-A-00/13174US-A- 4 133 976HAGEN R ET AL: "AN 8 KBIT/S ACELP CODER WITH IMPROVED BACKGROUND NOISE PERFORMANCE" PHOENIX, AZ, MARCH 15 - 19, 1999,NEW YORK, NY: IEEE,US, 15. März 1999 (1999-03-15), Seiten 25-28, XP000898256 ISBN: 0-7803-5042-1FISCHER, Kyrill, AlexanderAm Bahnhof 1064347 GriesheimDEERDMANN, ChristophPontstr. 7052062 AachenDEDeutsche Telekom AG01891494P00038 EP.9PFriedrich-Ebert-Allee 14053113 BonnDEATBECHCYDEDKESFIFRGBGRIEITLILUMCNLPTSETREP200100260320010308deWO20010845412001110820014520030129200305

Die vorliegende Erfindung betrifft ein Verfahren gemäß des Oberbegriffs des Anspruchs 1.

Im Bereich der Sprachübertragung und im Bereich der digitalen Signal- und Sprachspeicherung ist die Anwendung spezieller digitaler Codierungsverfahren zu Datenkompressionszwecken weit verbreitet und aufgrund der hohen Datenaufkommen sowie der begrenzten Übertragungskapazitäten zwingend notwendig. Ein für die Übertragung von Sprache besonders geeignetes Verfahren ist das aus der US 4133976 bekannte Code Excited Linear Prediction (CELP)-Verfahren. Bei diesem Verfahren wird das Sprachsignal in kleinen zeitlichen Abschnitten ("Sprachrahmen", "Rahmen", "zeitlicher Ausschnitt", "zeitlicher Abschnitt") von jeweils ca. 5 ms bis 50 ms Länge codiert und übertragen. Jeder dieser zeitlichen Abschnitte wird nicht exakt, sondern nur durch eine Annäherung an die tatsächliche Signalform dargestellt. Die den Signalabschnitt beschreibende Approximation wird dabei im wesentlichen aus drei Komponenten gewonnen, die Decoder-Seitig zur Rekonstruktion des Signals verwendet werden: Erstens einem Filter, das die spektrale Struktur des jeweiligen Signalausschnittes annähernd beschreibt, zweitens einem sog. Anregungssignal, das durch dieses Filter gefiltert wird, und drittens einem Verstärkungsfaktor ("gain"), mit dem das Anregungssignal vor der Filterung multipliziert wird. Der Verstärkungsfaktor ist für die Lautstärke des jeweiligen Abschnitts des rekonstruierten Signals verantwortlich.

Das Ergebnis dieser Filterung, stellt dann die Approximation des zu übertragenden Signalstückes dar. Für jeden Abschnitt muß die Information über die Filtereinstellungen und die Information über das zu verwendende Anregungssignal und dessen Skalierung ("gain"), die die Lautstärke beschreibt, übertragen werden. Im allgemeinen werden diese Parameter aus verschiedenen, dem Encoder und Decoder in identischen Kopien vorliegenden Codebüchern gewonnen, so daß zur Rekonstruktion nur die Nummer der am besten geeigneten Codebucheinträge übertragen werden muß. Bei der Codierung eines Sprachsignals sind also für jeden Abschnitt diese am besten geeigneten Codebucheinträge zu bestimmen, wobei alle relevanten Codebucheinträge in allen relevanten Kombinationen durchsucht werden, und diejenigen Einträge ausgewählt werden, die die im Sinne eines sinnvollen Abstandsmaßes kleinste Abweichung zum Originalsignal liefern.

Es existieren verschiedene Verfahren zur Optimierung der Struktur der Codebücher (z.B. Mehrstufigkeit, Lineare Prädiktion basierend auf den vergangenen Werten, spezifische Abstandsmaße, optimierte Suchverfahren, etc.). Außerdem gibt es verschiedene Verfahren, die den Aufbau und das Durchsuchungsverfahren für die Bestimmung der Anregungsvektoren beschreiben.

Auch die Bestimmung des Verstärkungsfaktors (gain-Wertes) läßt sich auf verschiedene Weise sinnvoll realisieren. Der Verstärkungsfaktor kann im Prinzip mittels zweier nachfolgend beschriebener Methoden angenähert werden:

Methode 1: "waveform matching"

Bei dieser Methode wird der Verstärkungsfaktor unter Berücksichtigung der Wellenform des Anregungssignals aus dem Codebuch berechnet. Zur Berechnung wird die Abweichung E₁ zwischen ursprünglichem, d.h. zu übertragendem Signal x (in der Darstellung als Vektor und dem rekonstruierten Signal g H c minimiert. Dabei ist g der zu bestimmende Verstärkungsfaktor, H die die Filteroperation beschreibende Matrix und c der ebenfalls zu bestimmende bestgeeignetste Anregungscodebuchvektor, der die gleiche Dimension hat wie der Zielvektor x. $E_{1} = {‖ \underset{̲}{x} - g H \underset{̲}{c} ‖}^{2}$

Zur Berechnung wird im allgemeinen zunächst der optimale Codebuchvektor c-opt bestimmt. Danach wird der hierfür optimale Verstärkungsfaktor g zunächst berechnet und dann der hierzu passende Codebuchvektor g-opt bestimmt. Diese Berechnung liefert gute Werte immer dann, wenn die Wellenform des mit H gefilterten Anregungscodebuchvektors aus dem Codebuch möglichst gut mit der vorgegebenen Wellenform übereinstimmt. Dies ist z. B. bei klarer Sprache ohne Hintergrundgeräusche im allgemeinen häufiger der Fall als bei Sprachsignalen mit Hintergrundgeräuschen. Bei starken Hintergrundgeräuschen kann eine Verstärkungsfaktor-Berechnung nach Methode 1 daher zu störenden Effekten führen, die sich z. B. in Form von Lautstärkeschwankungen äußern können.

Eine Verstärkungsfaktor-Berechnung nach Methode 1 wird im Dokument' HAGEN ET AL: "AN 8 KBIT/S ACELP CODER WITH IMPROVED BACKGROUND NOISE PERFORMANCE" PHOENIX, AZ, MARCH 15 - 19, 1999, NEW YORK, 15. März 1999, Seiten 25-28, XP000898256 beschrieben.

Methode 2: "energy matching"

Bei dieser Methode wird der Verstärkungsfaktor g ohne Berücksichtigung der Wellenform des Sprachsignals berechnet. Bei der Berechnung wird die Abweichung E₂ minimiert: $E_{2} = {(‖ exc (g) ‖ - ‖ res ‖)}^{2}$

Dabei ist exc der skalierte Codebuchvektor, der von dem Verstärkungsfaktor g abhängt, res bezeichnet das "ideale" Anregungssignal. Außerdem können noch andere, vorher bestimmte konstante Codebucheinträge d hinzukommen: $exc (g) = c_opt * g + d$

Dieses Verfahren liefert gute Werte z. B. bei wenig periodischen Signalen, zu denen z. B. Sprachsignale gehören können, die einen hohen Hintergrund-Geräuschpegel aufweisen. Die nach Methode 2 berechneten Verstärkungs-Werte liefern andererseits bei geringen Hintergrundgeräuschen im allgemeinen schlechtere Werte als Methode 1.

Bei dem heute eingesetzten Verfahren wird zunächst der aus Methode 1 folgende optimale Codebucheintrag g_opt bestimmt, und dann der tatsächlich zu verwendenden quantisierte, d.h. im Codebuch gefundene Verstärkungsfaktor g_opt2 durch Minimierung der Größe E₃ bestimmt: $E_{3} (g - opt 2) = (1 - a) * {‖ c - opt ‖}^{2} * {(g - opt 2 - g - opt)}^{2} + a * {(‖ exg (g - opt 2) ‖ - ‖ res ‖)}^{2}$

Der Gewichtungsfaktor a kann dabei Werte zwischen 0 und 1 annehmen, und ist mittels geeigneter Algorithmen vorzugeben. Für den Extremfall a = 0 wird in dieser Gleichung nur der erste Summand beachtet. Die Minimierung von E₃ führt in diesem Fall stets auf g_opt2 = g_opt, so daß der zuvor nach Methode 1 berechnete Wert g_opt als Ergebnis der endgültigen Verstärkungsfaktor-Berechnung übernommen wird (reines "waveform matching"). Für den anderen Extremfall a = 1 wird dagegen nur der zweite Summand betrachtet. In diesem Falle wird dann für g_opt2 stets die gleiche Lösung resultieren wie bei Anwendung der Methode 2 (reines "energy matching,"). Im allgemeinen wird der Wert von a zwischen 0 und 1 liegen, und somit zu einem Ergebniswert für g_opt2 führen, der beide Methoden 1 "waveform matching" und 2 "energy matching" berücksichtigt.

Über den Gewichtungsfaktor a wird also gesteuert, in welchem Ausmaß das Ergebnis der Methode 1 bzw. das Ergebnis der Methode 2 verwendet werden soll. Der nach G1. (1) durch Minimierung von E₃ berechnete, quantisierte Wert gain-eff2 wird dann übertragen und auf der Decoderseite verwendet.

Das zugrunde liegende Problem besteht nun darin, für jeden zu codierenden Signalabschnitt den Gewichtungsfaktor a so zu bestimmen, daß die Berechnung nach G1. (1) oder einer anderen Minimierungsfunktion, bei der eine Gewichtung zwischen zwei Methoden Verwendung findet, möglichst sinnvolle Werte gefunden werden. "Sinnvolle Werte" sind im Sinne der Sprachqualität der Übertragung solche Werte, die der im aktuellen Signalabschnitt gegebenen Signalsituation möglichst gut angepaßt sind. Für z. B. störgeräuschfreie Sprache wäre z. B. a nahe 0 zu wählen. bei starken Hintergrundgeräuschen wäre a nahe 1 zu wählen.

Bei den heute verwendeten Verfahren wird der Wert des Gewichtungsfaktors a über ein Periodizitätsmaß gesteuert, indem der Prädiktionsgewinn als Grundlage für die Bestimmung der Periodizität des vorliegenden Signals genommen wird. Aus der den aktuellen Signalzustand beschreibenden Angabe des Periodizitätsmaßes, das mit p bezeichnet sei, wird der zu verwendende Wert von a über eine feste Kennlinie f(p) ermittelt. Diese Kennlinie ist so gestaltet, daß sie für stark periodische Signale einen niedrigeren Wert für a liefert. Das heißt, für stark periodische Signale wird die Methode 1 des "waveform matching," bevorzugt. Für weniger stark periodische Signale wird dagegen über f(p) ein höherer Wert für a, d. h. näher bei 1. vorgegeben.

Es zeigt sich jedoch in der Praxis, daß diese Methode bei bestimmten Signalen immer noch zu Artefakten führt. Hierzu zählen z. B. der Beginn stimmhafter Signalstücke, sog. Onsets, oder aber auch Rauschsignale ohne periodische Anteile.

Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren bereit zu stellen, mittels dem ein optimaler Gewichtungsfaktor a für die Berechnung eines möglichst optimalen Verstärkungsfaktors für nahezu alle Signale ermittelbar ist.

Diese Aufgabe wird erfindungsgemäß mit einem Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Weitere vorteilhafte Ausgestaltungen des Verfahrens ergeben sich durch die Merkmale der Unteransprüche.

Das erfindungsgemäße Verfahren sieht vor, nicht nur die Periodizität S₁ des Signals für die Bestimmung des Gewichtungsfaktors, sondern zusätzlich die Stationarität S₂ des Signals zu verwenden. In Abhängigkeit von der Güte des zu ermittelnden Gewichtungsfaktors a können weitere Parameter, welche charakteristisch für die vorliegenden Signale sind, wie es z.B. die kontinuierliche Schätzung des Störpegels, bei der Bestimmung des Gewichtungsfaktors Berücksichtigung finden. Der Gewichtungsfaktor a wird demnach vorteilhaft nicht nur anhand der Periodizität S1, sondern von einer Mehrzahl von Parametern ermittelt. Die Anzahl der zum Einsatz kommenden Parameter bzw. Maße sei mit N bezeichnet. Aus der Kombination der Ergebnisse der einzelnen Maße kann eine verbesserte, robustere Bestimmung von a vorgenommen werden. Damit wird der zu verwendende Wert von a nicht mehr von nur einem Maß abhängig gemacht, sondern er hängt über eine Vorschrift h von den den aktuellen Signalzustand beschreibenden Angaben aller N Maße S₁, S₂, ... S_N ab. Es ergibt sich der in Gl. (2) gezeigte Zusammenhang: $a = h (S_{1}, S_{2}, \dots S_{N})$

Eine beispielhafte erfindungsmässige Umsetzung wäre demnach in einem System zu sehen, daß einerseits ein Periodizitätsmaß S₁ und zusätzlich auch ein Stationaritätsmaß S2 verwendet. Durch die zusätzliche Berücksichtigung der Stationarität S₂ des Signals können z. B. die oben genannten Problemfälle (Onsets, Rauschen) besser behandelt werden. In einem Sprachcodiersystem, das daserfindungsgemäße Verfahren verwendet, werden dabei zunächst die Ergebnisse des Periodizitätsmaßes S₁ und des Stationaritätsmaßes S₂ berechnet. Dann werden gemäß G1. (2) aus den beiden Maßen der passende Wert für den Gewichtungsfaktor a berechnet. Dieser Wert wird dann in G1. (1) zur Bestimmung des besten Wertes für den Verstärkungsfaktor verwendet.

Eine konkrete Möglichkeit, die Zuordnungsvorschrift h(S₁) zu realisieren, besteht z. B. darin, eine Anzahl von K verschiedenen Kennlinienverläufen h₁(S₁) ... h_k(S₁) zu verwenden und den im vorliegenden Signalfall zu verwendenden Kennlinienverlauf h_i(S₁) über einen Parameter S₂ zu steuern:

Für K = 3 könnten dabei folgende Unterscheidungen vorgenommen werden:

verwende a = h₁(S₁), wenn S_2a < S₂ <= S_2b,
verwende a = h₂(S₁), wenn S_2b < S₂ <= S_2c,
verwende a = h₃(S₁) , wenn S_2c < S₂ <= S_2d,
wobei S_2a < S₂ < S_2d

Nachfolgend wird das erfinderische Verfahren am Beispiel für K=2 näher erläutert. Die verwendete Zuordnungsvorschrift h(.) sieht in diesem Fall zwei unterschiedliche Kennlinienverläufe h₁(S₁) und h₂(S₁) vor. Die Auswahl der jeweiligen Kennlinie erfolgt in Abhängigkeit von einem weiteren Parameter S₂ der entweder 0 oder 1 ist.

Der Parameter S1 beschreibt die Stimmhaftigkeit (Periodizität) des Signals. Die Information über die Stimmhaftigkeit ergibt sich aus der Kenntnis des Eingangssignals s(n) (n=0...L, L: Länge des betrachteten Signalabschnitts) sowie des Schätzwerts τ der Pitch (Dauer der Grundperiode des momentanen Sprachsegments). Zunächst ist ein stimmhaft/stimmlos Kriterium gemäss $χ = \frac{\sum_{i = 0}^{L - 1} s (i) \cdot s (i - τ)}{\sqrt{\sum_{i = 0}^{L - 1} s^{2} (i) \cdot \sum_{i = 0}^{L - 1} s^{2} (i - τ)}}$ zu berechnen. Den verwendeten Parameter S1 erhält man nun durch Bildung des kurzzeitigen Mittelwertes von χ über den letzten 10 Signalabschnitten (m_cur : Index des momentanen Signalabschnitts): $S_{1} = \frac{1}{10} \sum_{i = m_{cur} - 10}^{m_{cur}} χ_{i} .$

Die Figur 1 zeigt schematisch die Abhängigkeit des Gewichtungsfaktors a von S₁.

Die Form der Kennlinie hängt demnach von der Wahl der Schwellwerte a_l und a_h sowie s1_l und s1_h ab.

Die angegebene Auswahl der Kennlinie h₁ bzw. h₂ in Abhängigkeit von s₂ bedeutet, daß für unterschiedliche Werte von S₂ verschiedene Schwellwertkombinationen (a_l a_h, s1_l, s1_h) gewählt werden.

Der Parameter S₂ enthält eine Aussage über die Stationarität des vorliegenden Signalabschnitts. Konkret handelt es sich um eine zustandsinformation die angibt, ob im momentan betrachteten Signalabschnitt Sprachaktivität (s2 = 1) oder eine Sprachpause vorliegt (S₂ = 0).

Diese Information muß von einem Algorithmus zur Detektierung von Sprachpausen (engl. VAD = Voice Activity Detection) geliefert werden.

Da die Erkennung von Sprachpausen und stationären Signalabschnitten vom Prinzip her ähnlich sind, ist die VAD nicht auf eine exakte Bemessung der Sprachpausen (wie sonst üblich) sondern auf eine Klassifikation solcher Signalabschnitte hin optimiert, die hinsichtlich der Bestimmung des Verstärkungsfaktors als stationär gelten.

Da die Stationarität S₂ eines Signals keine eindeutig festgelegte Meßgröße ist, wird sie nachfolgend genauer definiert.

Betrachtet man zunächst das Frequenzspektrum eines Signalabschnitts, so weist es für den betrachteten Zeitraum eine charakteristische Form auf. Ist die Änderung der Frequenzspektren zeitlich aufeinanderfolgender Signalabschnitte hinreichend gering, d.h. die charakteristische Form der jeweiligen Spektren bleibt mehr oder weniger erhalten, so kann man von spektraler Stationarität sprechen.

Betrachtet man einen Signalabschnitt im Zeitbereich, so weist es einen für den betrachteten Zeitraum charakteristischen Amplituden- bzw. Energieverlauf auf. Bleibt die Energie zeitlich aufeinanderfolgender Signalabschnitte konstant, bzw. die Abweichung der Energie ist auf ein hinreichend kleines Toleranzintervall begrenzt, so kann man von zeitlicher Stationarität sprechen.

Sind zeitlich aufeinanderfolgende Signalabschnitte sowohl spektral als auch zeitlich stationär so werden sie allgemein als stationär bezeichnet. Die Bemessung spektraler und zeitlicher Stationarität erfolgt in zwei separaten Stufen. Zunächst wird die spektrale Stationarität untersucht:

Spektrale Stationarität (1. Stufe)

Zur Feststellung, ob spektrale Stationarität vorliegt, wird zunächst ein spektrales Abstandsmaß, die sog. spektrale Verzerrung SD (engl.: spectral distorsion) aufeinanderfolgender Signalabschnitte betrachtet. Die Berechnung ergibt sich gemäß: $S D = \sqrt{\frac{1}{2 π} \int_{- π}^{π} {(10 \log [\frac{1}{{|A (e^{j ω})|}^{2}}] - 10 \log [\frac{1}{{|A ʹ (e^{j ω})|}^{2}}])}^{2} ⅆ ω .}$

Dabei bezeichnet $10 \log [\frac{1}{{|A (e^{j ω})|}^{2}}]$ den logarithmierten Einhüllendenfrequenzgang des aktuellen Signalabschnitts und $10 \log [\frac{1}{{|Aʹ (e^{j ω})|}^{2}}]$ den logarithmierten Einhüllendenfrequenzgang des vorangegangenen Signalabschnitts. Zur Entscheidung wird sowohl SD selbst als auch sein kurzzeitlicher Mittelwert über den letzten 10 Signalabschnitten SD betrachtet. Liegen beide Maße SD und SD unterhalb eines für sie speziefischen Schwellwertes SD_g, bzw. SD_g, so wird spektrale Stationarität angenommen.

Konkret gilt:

SD_g = 2.6 dB
SD_g = 2.6 dB

Problematisch ist, daß auch extrem periodische (stimmhafte) Signalabschnitte diese spektrale Stationarität aufweisen. Sie werden über das Periodizitätsmaß s1 ausgeschlossen. Es gilt:

Falls s1 ≥ 0.7
oder s1 < 0.3

ist, wird der betrachteten Signalabschnitt als nicht spektral stationär angenommen.

Zeitliche Stationarität (2. Stufe):

Die Feststellung der zeitlichen Stationarität erfolgt in einer zweiten Stufe, deren Entscheidungsschwellen von der Detektion spektral stationärer Signalabschnitte der ersten Stufe abhängen. Ist der vorliegende Signalabschnitt von der ersten Stufe als spektral stationär klassifiziert worden, so wird sein Einhüllendenfrequenzgang $\frac{1}{{|A (e^{j ω})|}^{2}}$ gespeichert. Ebenfalls gespeichert wird die Referenz-Energie E_refernce des Restsignals d_reference, welches sich aus der Filterung des vorliegenden Signalabschnittes mit einem Filter ergibt, das den zu diesem Signalabschnitt inversen Frequenzgang |A(e^jω)|² besitzt. E_refernce ergibt sich durch $E_{reference} = \sum_{n = 0}^{L - 1} d_{reference}^{2} (n),$
wobei L der Länge des betrachteten Signalabschnitts entspricht.

Diese Energie dient als Referenzwert bis zur Detektion des nächsten spektral stationären Abschnitts. Alle folgenden Signalabschnitte werden nun mit demselben gespeicherten Filter gefiltert. Gemessen wird nun die Energie E_rest des nach Filterung entstandenen Restsignals d_rest . Sie ergibt sich entsprechend zu $E_{rest} = \sum_{n = 0}^{L - 1} d_{rest}^{2} (n) .$

Die endgültige Entscheidung, ob der betrachtete Signalabschnitt stationär ist folgt folgender Vorschrift:

Falls:: E_rest < E_reference + Toleranz
s2 = 1, Signal stationär,
sonst:: s2 = 0, Signal instationär

Es gilt dabei beispielhaft die in Fig. 2 dargestellte Zuordnung, wobei für

s2 = 1 (h1(s1), instationär): und
s2 = 0 (h2(s1), stationär/pause) → a = 1.0 für alle s1

Das bedeutet die Kennlinie ist flach und a hat unabhängig von s1 den Wert 1.

Natürlich ist auch einen Abhängigkeit denkbar, in der ein kontinuierlicher Parameter S₂ (0 ≤ s2 ≤1) eine Aussage über die Statationarität S₂ enthält. In diesem Fall tritt anstelle der unterschiedlichen Kennlinien h₁ und h₂ eine dreidimensionale Fläche h(s1, s2) durch die a bestimmt wird.

Es versteht sich von selbst, daß die Algorithmen zur Bestimmung der Stationarität und der Periodizität den jeweils gegebenen Umständen entsprechend angepaßt werden müssen bzw. können. Die einzelnen o.a. Schwellwerte und Funktionen sind lediglich exemplarisch und müssen in der Regel durch eigene Versuche herausgefunden werden.

Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal, wobei das Sprachsignal in kurze zeitliche Signalabschnitte unterteilt und die einzelnen Signalabschnitte getrennt voneinander codiert und übertragen werden, und zu jedem Signalabschnitt der Verstärkungsfaktor berechnet, übertragen und vom Decoder zur Rekonstruktion des Signals verwendet wird, wobei der Verstärkungsfaktor durch Minimierung der Größe E(g_opt2)=(1-a)*f₁(g_opt2)+a*f₂(g_opt2) bestimmt wird, wobei g_opt2 einen zu verwendeten quantisierten Verstärkungsfaktor darstellt, und f1 und f2 entsprechende Funktionen darstellen,
dadurch gekennzeichnet, daß die Bestimmung des Gewichtungsfaktors a unter Berücksichtigung sowohl eines Periodizität smaßes S₁ als auch eines Stätionarität smaßes S₂ des codierten Sprachsignals erfolgt.

Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Minimierung der Größe E(g_opt2) erfolgt mittels der Formel:

E (g_opt 2) = (1 - a) * {‖ c_opt ‖}^{2} * {(g_opt 2 - g_opt)}^{2} + a * {(‖ exg (g_opt 2) ‖ - ‖ res ‖)}^{2}

wobei c_opt, g_opt, exc und res einen optimalen Codebuchvektor, einen optimalen Verstärkungsfaktor, einen skalierten Codebuchvektor und ein ideales Anregungssignal darstellen.

Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß in Abhängigkeit des ermittelten Wertes für das Stationarität smaß S₂ des Sprachsignals eine bestimmte Funktion h_i(S₁) zur Bestimmung des Gewichtsfaktors a ausgewählt wird, wobei S₁ ein Maß für die Periodizität des Sprachsignals ist.

Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Stationarität smaß S₂ ein Maß für die Sprachaktivität eines Signalabschnittes ist.

Verfahren nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, daß das Stationarität smaß S₂ ein Maß für das Verhältnis von Sprachpegel zu Hintergrundgeräuschpegel des zu betrachtenden Sprachsignalabschnitts ist.

Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das Stationarität smaß S2 in Abhängigkeit von der spektralen Veränderung sowie der Energieveränderung, d.h. zeitliche Stationarität berechnet wird.

Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß zur Berechnung der spektralen Stationarität sowie der Energieveränderung d.h. zeitliche Stationarität, mindestens ein zeitlich vorangegangener Signalabschnitt berücksichtigt wird.

Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die ermittelten Werte der spektralen Veränderung die Bewertung der Energieveränderung, d. h. zeitlichen Stationarität, beeinflußt.

Method for calculating the gain, said gain codetermining the loudness, for a codedly transmitted speech signal, wherein the speech signal is divided into short time signal portions and the individual signal portions are separately coded and transmitted, wherein, for each signal portion, the gain is calculated, transmitted and used by the decoder to reconstruct the signal, the gain factor being determined by minimization of the quantity E(g_opt2) = (1-a)*f₁(g_opt2)+a*f₂(g_opt2), where g_opt2 represents a quantized gain to be used, and f1 and f2 represent corresponding functions,
characterized in that the weighting factor a is determined in consideration both of a periodicity factor S₁ and also of a stationarity factor S₂ of the coded speech signal.

Method according to claim 1, characterized in that the quantity E(g_opt2) is minimized by means of the formula:

E (g_opt 2) = (1 - a) * {‖ c_opt ‖}^{2} * {(g_opt 2 - g_opt)}^{2} + a * {(‖ exg (g_opt 2) ‖ - ‖ res ‖)}^{2},

where c_opt, g_opt, exc and res represent an optimum code book vector, an optimum gain, a scaled code book vector and an ideal excitation signal.

Method according to claim 1 or 2, characterized in that, depending on the determined value for the stationarity factor S₂ of the speech signal, a determined function h_i(S₁) is selected for determination of the weighting factor a, where S₁ is a measure of the periodicity of the speech signal.

Method according to claim 3, characterized in that the stationarity factor S₂ is a measure of the speech activity of a signal portion.

Method according to any one of claims 3 or 4, characterized in that the stationarity factor S₂ is a measure of the ratio of speech level to background noise level of the speech signal portion under consideration.

Method according to any one of the preceding claims, characterized in that the stationarity factor S2 is calculated as a function of the spectral change as well as the energy change, i.e. time stationarity.

Method according to claim 6, characterized in that, for calculation of the spectral stationarity as well as the energy change, i.e. time stationarity, at least one chronologically preceding signal portion is taken into consideration.

Method according to claim 7, characterized in that the determined values of the spectral change influence the evaluation of the energy change, i.e. time stationarity.

Procédé de calcul du facteur d'amplification influant sur le volume sonore d'un signal vocal transmis sous forme codée, le signal vocal étant divisé en sections de signal courtes dans le temps qui sont codées et transmises séparément les unes des autres, et pour chacune de ces sections de signal, le facteur d'amplification étant calculé, transmis et utilisé par le décodeur pour reconstruire le signal, ce facteur d'amplification étant déterminé par la minimisation de la grandeur E(g_opt2) = (1 - a) * f₁(g_opt2) + a * f₂(g_opt2), où g_opt2 représente un facteur d'amplification quantifié à utiliser et où f₁ et f₂ représentent des fonctions correspondantes, caractérisé en ce que le facteur de pondération a est déterminé en tenant compte à la fois d'un degré de périodicité S₁ et d'un degré de stationnarité S₂ du signal vocal codé.

Procédé selon la revendication 1, caractérisé en ce que la minimisation de la grandeur E(g_opt2) s'effectue moyennant la formule

E (g_opt 2) = (1 - a) * {‖ c_opt ‖}^{2} * {(g_opt 2 - g_opt)}^{2} + a * {(‖ exg (g_opt 2) ‖ - ‖ res ‖)}^{2}

où c_opt, g_opt, exc et res représentent un vecteur de dictionnaire de codes optimal, un facteur d'amplification optimal, un vecteur de dictionnaire de codes normé et un signal d'excitation idéal.

Procédé selon la revendication 1 ou 2, caractérisé en ce que, en fonction de la valeur obtenue pour le degré de stationnarité S₂ du signal vocal, une fonction donnée h_i(S₁) est sélectionnée pour déterminer le facteur de pondération a, S₁ étant une mesure de la périodicité du signal vocal.

Procédé selon la revendication 3, caractérisé en ce que le degré de stationnarité S₂ est une mesure de l'activité vocale d'une section de signal.

Procédé selon l'une des revendications 3 ou 4, caractérisé en ce que le degré de stationnarité S₂ est une mesure du rapport entre le niveau vocal et le niveau de bruit de fond de la section de signal vocal à observer.

Procédé selon l'une des revendications précédentes, caractérisé en ce que le degré de stationnarité S₂ est calculé en fonction de la modification spectrale ainsi que de la variation d'énergie, à savoir la stationnarité temporelle.

Procédé selon la revendication 6, caractérisé en ce que pour calculer la stationnarité spectrale ainsi que la variation d'énergie, à savoir la stationnarité temporelle, on tient compte d'au moins une section de signal qui a précédé dans le temps.

Procédé selon la revendication 7, caractérisé en ce que les valeurs obtenues pour la modification spectrale influent sur l'évaluation de la variation d'énergie, à savoir la stationnarité temporelle.

IN DER BESCHREIBUNG AUFGEFÜHRTE DOKUMENTE

Diese Liste der vom Anmelder aufgeführten Dokumente wurde ausschließlich zur Information des Lesers aufgenommen und ist nicht Bestandteil des europäischen Patentdokumentes. Sie wurde mit größter Sorgfalt zusammengestellt; das EPA übernimmt jedoch keinerlei Haftung für etwaige Fehler oder Auslassungen.

In der Beschreibung aufgeführte Patentdokumente

US4133976A[0002]
XP000898256[0008]

In der Beschreibung aufgeführte Nicht-Patentliteratur

HAGEN et al.AN 8 KBIT/S ACELP CODER WITH IMPROVED BACKGROUND NOISE PERFORMANCEPHOENIX, AZ199903152528
[0008]