<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE ep-patent-document PUBLIC "-//EPO//EP PATENT DOCUMENT 1.1//EN" "ep-patent-document-v1-1.dtd">
<ep-patent-document id="EP01911752B1" file="EP01911752NWB1.xml" lang="de" country="EP" doc-number="1279168" kind="B1" date-publ="20070725" status="n" dtd-version="ep-patent-document-v1-1">
<SDOBI lang="de"><B000><eptags><B001EP>ATBECHDEDKESFRGBGRITLILUNLSEMCPTIE......FI....CY..TR............................</B001EP><B003EP>*</B003EP><B005EP>J</B005EP><B007EP>DIM360 (Ver 1.5  21 Nov 2005) -  2100000/0</B007EP></eptags></B000><B100><B110>1279168</B110><B120><B121>EUROPÄISCHE PATENTSCHRIFT</B121></B120><B130>B1</B130><B140><date>20070725</date></B140><B190>EP</B190></B100><B200><B210>01911752.2</B210><B220><date>20010308</date></B220><B240><B241><date>20021128</date></B241></B240><B250>de</B250><B251EP>de</B251EP><B260>de</B260></B200><B300><B310>10020863</B310><B320><date>20000428</date></B320><B330><ctry>DE</ctry></B330></B300><B400><B405><date>20070725</date><bnum>200730</bnum></B405><B430><date>20030129</date><bnum>200305</bnum></B430><B450><date>20070725</date><bnum>200730</bnum></B450><B452EP><date>20070202</date></B452EP></B400><B500><B510EP><classification-ipcr sequence="1"><text>G10L  19/14        20060101AFI20011112BHEP        </text></classification-ipcr></B510EP><B540><B541>de</B541><B542>VERFAHREN ZUR VERBESSERUNG DER SPRACHQUALITÄT BEI SPRACHÜBERTRAGUNGSAUFGABEN</B542><B541>en</B541><B542>METHOD FOR IMPROVING SPEECH QUALITY IN SPEECH TRANSMISSION TASKS</B542><B541>fr</B541><B542>PROCEDE POUR AMELIORER LA QUALITE SONORE DE TRANSMISSION DE LA PAROLE</B542></B540><B560><B561><text>WO-A-00/13174</text></B561><B561><text>US-A- 4 133 976</text></B561><B562><text>HAGEN R ET AL: "AN 8 KBIT/S ACELP CODER WITH IMPROVED BACKGROUND NOISE PERFORMANCE" PHOENIX, AZ, MARCH 15 - 19, 1999,NEW YORK, NY: IEEE,US, 15. März 1999 (1999-03-15), Seiten 25-28, XP000898256 ISBN: 0-7803-5042-1</text></B562></B560></B500><B700><B720><B721><snm>FISCHER, Kyrill, Alexander</snm><adr><str>Am Bahnhof 10</str><city>64347 Griesheim</city><ctry>DE</ctry></adr></B721><B721><snm>ERDMANN, Christoph</snm><adr><str>Pontstr. 70</str><city>52062 Aachen</city><ctry>DE</ctry></adr></B721></B720><B730><B731><snm>Deutsche Telekom AG</snm><iid>01891494</iid><irf>P00038 EP.9P</irf><adr><str>Friedrich-Ebert-Allee 140</str><city>53113 Bonn</city><ctry>DE</ctry></adr></B731></B730></B700><B800><B840><ctry>AT</ctry><ctry>BE</ctry><ctry>CH</ctry><ctry>CY</ctry><ctry>DE</ctry><ctry>DK</ctry><ctry>ES</ctry><ctry>FI</ctry><ctry>FR</ctry><ctry>GB</ctry><ctry>GR</ctry><ctry>IE</ctry><ctry>IT</ctry><ctry>LI</ctry><ctry>LU</ctry><ctry>MC</ctry><ctry>NL</ctry><ctry>PT</ctry><ctry>SE</ctry><ctry>TR</ctry></B840><B860><B861><dnum><anum>EP2001002603</anum></dnum><date>20010308</date></B861><B862>de</B862></B860><B870><B871><dnum><pnum>WO2001084541</pnum></dnum><date>20011108</date><bnum>200145</bnum></B871></B870><B880><date>20030129</date><bnum>200305</bnum></B880></B800></SDOBI><!-- EPO <DP n="1"> -->
<description id="desc" lang="de">
<p id="p0001" num="0001">Die vorliegende Erfindung betrifft ein Verfahren gemäß des Oberbegriffs des Anspruchs 1.</p>
<p id="p0002" num="0002">Im Bereich der Sprachübertragung und im Bereich der digitalen Signal- und Sprachspeicherung ist die Anwendung spezieller digitaler Codierungsverfahren zu Datenkompressionszwecken weit verbreitet und aufgrund der hohen Datenaufkommen sowie der begrenzten Übertragungskapazitäten zwingend notwendig. Ein für die Übertragung von Sprache besonders geeignetes Verfahren ist das aus der <patcit id="pcit0001" dnum="US4133976A"><text>US 4133976</text></patcit> bekannte Code Excited Linear Prediction (CELP)-Verfahren. Bei diesem Verfahren wird das Sprachsignal in kleinen zeitlichen Abschnitten ("Sprachrahmen", "Rahmen", "zeitlicher Ausschnitt", "zeitlicher Abschnitt") von jeweils ca. 5 ms bis 50 ms Länge codiert und übertragen. Jeder dieser zeitlichen Abschnitte wird nicht exakt, sondern nur durch eine Annäherung an die tatsächliche Signalform dargestellt. Die den Signalabschnitt beschreibende Approximation wird dabei im wesentlichen aus drei Komponenten gewonnen, die Decoder-Seitig zur Rekonstruktion des Signals verwendet werden: Erstens einem Filter, das die spektrale Struktur des jeweiligen Signalausschnittes annähernd beschreibt, zweitens einem sog. Anregungssignal, das durch dieses Filter gefiltert wird, und drittens einem Verstärkungsfaktor ("gain"), mit dem das Anregungssignal vor der Filterung multipliziert wird. Der Verstärkungsfaktor ist für die Lautstärke des jeweiligen Abschnitts des rekonstruierten Signals verantwortlich.<!-- EPO <DP n="2"> --></p>
<p id="p0003" num="0003">Das Ergebnis dieser Filterung, stellt dann die Approximation des zu übertragenden Signalstückes dar. Für jeden Abschnitt muß die Information über die Filtereinstellungen und die Information über das zu verwendende Anregungssignal und dessen Skalierung ("gain"), die die Lautstärke beschreibt, übertragen werden. Im allgemeinen werden diese Parameter aus verschiedenen, dem Encoder und Decoder in identischen Kopien vorliegenden Codebüchern gewonnen, so daß zur Rekonstruktion nur die Nummer der am besten geeigneten Codebucheinträge übertragen werden muß. Bei der Codierung eines Sprachsignals sind also für jeden Abschnitt diese am besten geeigneten Codebucheinträge zu bestimmen, wobei alle relevanten Codebucheinträge in allen relevanten Kombinationen durchsucht werden, und diejenigen Einträge ausgewählt werden, die die im Sinne eines sinnvollen Abstandsmaßes kleinste Abweichung zum Originalsignal liefern.</p>
<p id="p0004" num="0004">Es existieren verschiedene Verfahren zur Optimierung der Struktur der Codebücher (z.B. Mehrstufigkeit, Lineare Prädiktion basierend auf den vergangenen Werten, spezifische Abstandsmaße, optimierte Suchverfahren, etc.). Außerdem gibt es verschiedene Verfahren, die den Aufbau und das Durchsuchungsverfahren für die Bestimmung der Anregungsvektoren beschreiben.</p>
<p id="p0005" num="0005">Auch die Bestimmung des Verstärkungsfaktors (gain-Wertes) läßt sich auf verschiedene Weise sinnvoll realisieren. Der Verstärkungsfaktor kann im Prinzip mittels zweier nachfolgend beschriebener Methoden angenähert werden:</p>
<heading id="h0001"><u style="single">Methode 1:</u> "waveform matching"</heading><!-- EPO <DP n="3"> -->
<p id="p0006" num="0006">Bei dieser Methode wird der Verstärkungsfaktor unter Berücksichtigung der Wellenform des Anregungssignals aus dem Codebuch berechnet. Zur Berechnung wird die Abweichung E<sub>1</sub> zwischen ursprünglichem, d.h. zu übertragendem Signal x (in der Darstellung als Vektor und dem rekonstruierten Signal g H <u style="single">c</u> minimiert. Dabei ist g der zu bestimmende Verstärkungsfaktor, H die die Filteroperation beschreibende Matrix und <u style="single">c</u> der ebenfalls zu bestimmende bestgeeignetste Anregungscodebuchvektor, der die gleiche Dimension hat wie der Zielvektor <u style="single">x</u>. <maths id="math0001" num=""><math display="block"><msub><mi mathvariant="normal">E</mi><mn mathvariant="normal">1</mn></msub><mo mathvariant="normal">=</mo><msup><mrow><mo mathvariant="normal">‖</mo><munder><mi mathvariant="normal">x</mi><mo mathvariant="normal">̲</mo></munder><mo mathvariant="normal">-</mo><mi>g H</mi><mspace width="1em"/><munder><mi mathvariant="normal">c</mi><mo mathvariant="normal">̲</mo></munder><mo mathvariant="normal">‖</mo></mrow><mn mathvariant="normal">2</mn></msup></math><img id="ib0001" file="imgb0001.tif" wi="61" he="14" img-content="math" img-format="tif"/></maths></p>
<p id="p0007" num="0007">Zur Berechnung wird im allgemeinen zunächst der optimale Codebuchvektor c-opt bestimmt. Danach wird der hierfür optimale Verstärkungsfaktor g zunächst berechnet und dann der hierzu passende Codebuchvektor g-opt bestimmt. Diese Berechnung liefert gute Werte immer dann, wenn die Wellenform des mit H gefilterten Anregungscodebuchvektors aus dem Codebuch möglichst gut mit der vorgegebenen Wellenform übereinstimmt. Dies ist z. B. bei klarer Sprache ohne Hintergrundgeräusche im allgemeinen häufiger der Fall als bei Sprachsignalen mit Hintergrundgeräuschen. Bei starken Hintergrundgeräuschen kann eine Verstärkungsfaktor-Berechnung nach Methode 1 daher zu störenden Effekten führen, die sich z. B. in Form von Lautstärkeschwankungen äußern können.</p>
<p id="p0008" num="0008">Eine Verstärkungsfaktor-Berechnung nach Methode 1 wird im Dokument' <nplcit id="ncit0001" npl-type="s"><text>HAGEN ET AL: "AN 8 KBIT/S ACELP CODER WITH IMPROVED BACKGROUND NOISE PERFORMANCE" PHOENIX, AZ, MARCH 15 - 19, 1999, NEW YORK, 15. März 1999, Seiten 25-28</text></nplcit>, <patcit id="pcit0002" dnum="XP000898256"><text>XP000898256</text></patcit> beschrieben.</p>
<heading id="h0002"><u style="single">Methode 2:</u> "energy matching"</heading>
<p id="p0009" num="0009">Bei dieser Methode wird der Verstärkungsfaktor g ohne Berücksichtigung der Wellenform des Sprachsignals<!-- EPO <DP n="4"> --> berechnet. Bei der Berechnung wird die Abweichung E<sub>2</sub> minimiert: <maths id="math0002" num=""><math display="block"><msub><mi mathvariant="normal">E</mi><mn>2</mn></msub><mo mathvariant="normal">=</mo><msup><mfenced separators=""><mo mathvariant="normal">‖</mo><mi>exc</mi><mfenced><mi mathvariant="normal">g</mi></mfenced><mo mathvariant="normal">‖</mo><mo>-</mo><mo>‖</mo><mi>res</mi><mo>‖</mo></mfenced><mn mathvariant="normal">2</mn></msup></math><img id="ib0002" file="imgb0002.tif" wi="83" he="13" img-content="math" img-format="tif"/></maths></p>
<p id="p0010" num="0010">Dabei ist exc der skalierte Codebuchvektor, der von dem Verstärkungsfaktor g abhängt, res bezeichnet das "ideale" Anregungssignal. Außerdem können noch andere, vorher bestimmte konstante Codebucheinträge d hinzukommen: <maths id="math0003" num=""><math display="block"><mi>exc</mi><mspace width="1em"/><mfenced><mi mathvariant="normal">g</mi></mfenced><mo mathvariant="normal">=</mo><mi>c_opt</mi><mo mathvariant="normal">*</mo><mi mathvariant="normal">g</mi><mo mathvariant="normal">+</mo><mi mathvariant="normal">d</mi></math><img id="ib0003" file="imgb0003.tif" wi="64" he="11" img-content="math" img-format="tif"/></maths></p>
<p id="p0011" num="0011">Dieses Verfahren liefert gute Werte z. B. bei wenig periodischen Signalen, zu denen z. B. Sprachsignale gehören können, die einen hohen Hintergrund-Geräuschpegel aufweisen. Die nach Methode 2 berechneten Verstärkungs-Werte liefern andererseits bei geringen Hintergrundgeräuschen im allgemeinen schlechtere Werte als Methode 1.</p>
<p id="p0012" num="0012">Bei dem heute eingesetzten Verfahren wird zunächst der aus Methode 1 folgende optimale Codebucheintrag g_opt bestimmt, und dann der tatsächlich zu verwendenden quantisierte, d.h. im Codebuch gefundene Verstärkungsfaktor g_opt2 durch Minimierung der Größe E<sub>3</sub> bestimmt: <maths id="math0004" num="(Gl. (1)"><math display="block"><msub><mi mathvariant="normal">E</mi><mn mathvariant="normal">3</mn></msub><mo>⁢</mo><mfenced separators=""><mi mathvariant="normal">g</mi><mo mathvariant="normal">-</mo><mi>opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">=</mo><mrow><mo mathvariant="normal">(</mo><mn mathvariant="normal">1</mn><mo mathvariant="normal">-</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">)</mo><mo mathvariant="normal">*</mo><msup><mrow><mo mathvariant="normal">‖</mo><mi mathvariant="normal">c</mi><mo mathvariant="normal">-</mo><mi>opt</mi><mo mathvariant="normal">‖</mo></mrow><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mi mathvariant="normal">g</mi><mo mathvariant="normal">-</mo><mi>opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn><mo mathvariant="normal">-</mo><mi mathvariant="normal">g</mi><mo mathvariant="normal">-</mo><mi>opt</mi></mfenced><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">+</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mo mathvariant="normal">‖</mo><mi>exg</mi><mo>⁢</mo><mfenced separators=""><mi mathvariant="normal">g</mi><mo mathvariant="normal">-</mo><mi>opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">‖</mo><mo mathvariant="normal">-</mo><mo mathvariant="normal">‖</mo><mi>res</mi><mo mathvariant="normal">‖</mo></mfenced><mn mathvariant="normal">2</mn></msup></mrow></math><img id="ib0004" file="imgb0004.tif" wi="152" he="24" img-content="math" img-format="tif"/></maths></p>
<p id="p0013" num="0013">Der Gewichtungsfaktor a kann dabei Werte zwischen 0 und 1 annehmen, und ist mittels geeigneter Algorithmen<!-- EPO <DP n="5"> --> vorzugeben. Für den Extremfall a = 0 wird in dieser Gleichung nur der erste Summand beachtet. Die Minimierung von E<sub>3</sub> führt in diesem Fall stets auf g_opt2 = g_opt, so daß der zuvor nach Methode 1 berechnete Wert g_opt als Ergebnis der endgültigen Verstärkungsfaktor-Berechnung übernommen wird (reines "waveform matching"). Für den anderen Extremfall a = 1 wird dagegen nur der zweite Summand betrachtet. In diesem Falle wird dann für g_opt2 stets die gleiche Lösung resultieren wie bei Anwendung der Methode 2 (reines "energy matching,"). Im allgemeinen wird der Wert von a zwischen 0 und 1 liegen, und somit zu einem Ergebniswert für g_opt2 führen, der beide Methoden 1 "waveform matching" und 2 "energy matching" berücksichtigt.</p>
<p id="p0014" num="0014">Über den Gewichtungsfaktor a wird also gesteuert, in welchem Ausmaß das Ergebnis der Methode 1 bzw. das Ergebnis der Methode 2 verwendet werden soll. Der nach G1. (1) durch Minimierung von E<sub>3</sub> berechnete, quantisierte Wert gain-eff2 wird dann übertragen und auf der Decoderseite verwendet.</p>
<p id="p0015" num="0015">Das zugrunde liegende Problem besteht nun darin, für jeden zu codierenden Signalabschnitt den Gewichtungsfaktor a so zu bestimmen, daß die Berechnung nach G1. (1) oder einer anderen Minimierungsfunktion, bei der eine Gewichtung zwischen zwei Methoden Verwendung findet, möglichst sinnvolle Werte gefunden werden. "Sinnvolle Werte" sind im Sinne der Sprachqualität der Übertragung solche Werte, die der im aktuellen Signalabschnitt gegebenen Signalsituation möglichst gut angepaßt sind. Für z. B. störgeräuschfreie Sprache wäre z. B. a nahe 0 zu wählen. bei starken Hintergrundgeräuschen wäre a nahe 1 zu wählen.<!-- EPO <DP n="6"> --></p>
<p id="p0016" num="0016">Bei den heute verwendeten Verfahren wird der Wert des Gewichtungsfaktors a über ein Periodizitätsmaß gesteuert, indem der Prädiktionsgewinn als Grundlage für die Bestimmung der Periodizität des vorliegenden Signals genommen wird. Aus der den aktuellen Signalzustand beschreibenden Angabe des Periodizitätsmaßes, das mit p bezeichnet sei, wird der zu verwendende Wert von a über eine feste Kennlinie f(p) ermittelt. Diese Kennlinie ist so gestaltet, daß sie für stark periodische Signale einen niedrigeren Wert für a liefert. Das heißt, für stark periodische Signale wird die Methode 1 des "waveform matching," bevorzugt. Für weniger stark periodische Signale wird dagegen über f(p) ein höherer Wert für a, d. h. näher bei 1. vorgegeben.</p>
<p id="p0017" num="0017">Es zeigt sich jedoch in der Praxis, daß diese Methode bei bestimmten Signalen immer noch zu Artefakten führt. Hierzu zählen z. B. der Beginn stimmhafter Signalstücke, sog. Onsets, oder aber auch Rauschsignale ohne periodische Anteile.</p>
<p id="p0018" num="0018">Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren bereit zu stellen, mittels dem ein optimaler Gewichtungsfaktor a für die Berechnung eines möglichst optimalen Verstärkungsfaktors für nahezu alle Signale ermittelbar ist.</p>
<p id="p0019" num="0019">Diese Aufgabe wird erfindungsgemäß mit einem Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Weitere vorteilhafte Ausgestaltungen des Verfahrens ergeben sich durch die Merkmale der Unteransprüche.</p>
<p id="p0020" num="0020">Das erfindungsgemäße Verfahren sieht vor, nicht nur die Periodizität S<sub>1</sub> des Signals für die Bestimmung des Gewichtungsfaktors, sondern zusätzlich die Stationarität<!-- EPO <DP n="7"> --> S<sub>2</sub> des Signals zu verwenden. In Abhängigkeit von der Güte des zu ermittelnden Gewichtungsfaktors a können weitere Parameter, welche charakteristisch für die vorliegenden Signale sind, wie es z.B. die kontinuierliche Schätzung des Störpegels, bei der Bestimmung des Gewichtungsfaktors Berücksichtigung finden. Der Gewichtungsfaktor a wird demnach vorteilhaft nicht nur anhand der Periodizität S1, sondern von einer Mehrzahl von Parametern ermittelt. Die Anzahl der zum Einsatz kommenden Parameter bzw. Maße sei mit N bezeichnet. Aus der Kombination der Ergebnisse der einzelnen Maße kann eine verbesserte, robustere Bestimmung von a vorgenommen werden. Damit wird der zu verwendende Wert von a nicht mehr von nur einem Maß abhängig gemacht, sondern er hängt über eine Vorschrift h von den den aktuellen Signalzustand beschreibenden Angaben aller N Maße S<sub>1</sub>, S<sub>2</sub>, ... S<sub>N</sub> ab. Es ergibt sich der in Gl. (2) gezeigte Zusammenhang: <maths id="math0005" num="(Gl. 2)"><math display="block"><mi mathvariant="normal">a</mi><mo mathvariant="normal">=</mo><mi mathvariant="normal">h</mi><mfenced separators=""><msub><mi mathvariant="normal">S</mi><mn mathvariant="normal">1</mn></msub><mo mathvariant="normal">,</mo><msub><mi mathvariant="normal">S</mi><mn mathvariant="normal">2</mn></msub><mo mathvariant="normal">,</mo><mo mathvariant="normal">…</mo><msub><mi mathvariant="normal">S</mi><mi mathvariant="normal">N</mi></msub></mfenced></math><img id="ib0005" file="imgb0005.tif" wi="99" he="10" img-content="math" img-format="tif"/></maths></p>
<p id="p0021" num="0021">Eine beispielhafte erfindungsmässige Umsetzung wäre demnach in einem System zu sehen, daß einerseits ein Periodizitätsmaß S<sub>1</sub> und zusätzlich auch ein Stationaritätsmaß S2 verwendet. Durch die zusätzliche Berücksichtigung der Stationarität S<sub>2</sub> des Signals können z. B. die oben genannten Problemfälle (Onsets, Rauschen) besser behandelt werden. In einem Sprachcodiersystem, das daserfindungsgemäße Verfahren verwendet, werden dabei zunächst die Ergebnisse des Periodizitätsmaßes S<sub>1</sub> und des Stationaritätsmaßes S<sub>2</sub> berechnet. Dann werden gemäß G1. (2) aus den beiden Maßen der passende Wert für den<!-- EPO <DP n="8"> --> Gewichtungsfaktor a berechnet. Dieser Wert wird dann in G1. (1) zur Bestimmung des besten Wertes für den Verstärkungsfaktor verwendet.</p>
<p id="p0022" num="0022">Eine konkrete Möglichkeit, die Zuordnungsvorschrift h(S<sub>1</sub>) zu realisieren, besteht z. B. darin, eine Anzahl von K verschiedenen Kennlinienverläufen h<sub>1</sub>(S<sub>1</sub>) ... h<sub>k</sub>(S<sub>1</sub>) zu verwenden und den im vorliegenden Signalfall zu verwendenden Kennlinienverlauf h<sub>i</sub>(S<sub>1</sub>) über einen Parameter S<sub>2</sub> zu steuern:</p>
<p id="p0023" num="0023">Für K = 3 könnten dabei folgende Unterscheidungen vorgenommen werden:
<ul id="ul0001" list-style="none">
<li>verwende a = h<sub>1</sub>(S<sub>1</sub>), wenn S<sub>2a</sub> &lt; S<sub>2</sub> &lt;= S<sub>2b</sub>,</li>
<li>verwende a = h<sub>2</sub>(S<sub>1</sub>), wenn S<sub>2b</sub> &lt; S<sub>2</sub> &lt;= S<sub>2c</sub>,</li>
<li>verwende a = h<sub>3</sub>(S<sub>1</sub>) , wenn S<sub>2c</sub> &lt; S<sub>2</sub> &lt;= S<sub>2d</sub>,</li>
<li>wobei S<sub>2a</sub> &lt; S<sub>2</sub> &lt; S<sub>2d</sub></li>
</ul></p>
<p id="p0024" num="0024">Nachfolgend wird das erfinderische Verfahren am Beispiel für K=2 näher erläutert. Die verwendete Zuordnungsvorschrift h(.) sieht in diesem Fall zwei unterschiedliche Kennlinienverläufe h<sub>1</sub>(S<sub>1</sub>) und h<sub>2</sub>(S<sub>1</sub>) vor. Die Auswahl der jeweiligen Kennlinie erfolgt in Abhängigkeit von einem weiteren Parameter S<sub>2</sub> der entweder 0 oder 1 ist.</p>
<p id="p0025" num="0025">Der Parameter S1 beschreibt die Stimmhaftigkeit (Periodizität) des Signals. Die Information über die Stimmhaftigkeit ergibt sich aus der Kenntnis des Eingangssignals s(n) (n=0...L, L: Länge des betrachteten Signalabschnitts) sowie des Schätzwerts τ der Pitch<!-- EPO <DP n="9"> --> (Dauer der Grundperiode des momentanen Sprachsegments). Zunächst ist ein stimmhaft/stimmlos Kriterium gemäss <maths id="math0006" num=""><math display="block"><mi>χ</mi><mo>=</mo><mfrac><mrow><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>s</mi><mfenced><mi>i</mi></mfenced><mo>⋅</mo><mi>s</mi><mo>⁢</mo><mfenced separators=""><mi>i</mi><mo>-</mo><mi mathvariant="italic">τ</mi></mfenced></mrow><msqrt><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><msup><mi>s</mi><mn>2</mn></msup><mfenced><mi>i</mi></mfenced><mo>⋅</mo><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><msup><mi>s</mi><mn>2</mn></msup><mo>⁢</mo><mfenced separators=""><mi>i</mi><mo>-</mo><mi mathvariant="italic">τ</mi></mfenced></msqrt></mfrac></math><img id="ib0006" file="imgb0006.tif" wi="60" he="31" img-content="math" img-format="tif"/></maths> zu berechnen. Den verwendeten Parameter S1 erhält man nun durch Bildung des kurzzeitigen Mittelwertes von <i>χ</i> über den letzten 10 Signalabschnitten (<i>m<sub>cur</sub> :</i> Index des momentanen Signalabschnitts): <maths id="math0007" num=""><math display="block"><msub><mi mathvariant="normal">S</mi><mn>1</mn></msub><mo>=</mo><mfrac><mn>1</mn><mn>10</mn></mfrac><mstyle displaystyle="true"><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><msub><mi>m</mi><mi mathvariant="italic">cur</mi></msub><mo>-</mo><mn>10</mn></mrow><msub><mi>m</mi><mi mathvariant="italic">cur</mi></msub></munderover></mstyle><msub><mi>χ</mi><mi>i</mi></msub><mn>.</mn></math><img id="ib0007" file="imgb0007.tif" wi="39" he="17" img-content="math" img-format="tif"/></maths></p>
<p id="p0026" num="0026">Die Figur 1 zeigt schematisch die Abhängigkeit des Gewichtungsfaktors a von S<sub>1</sub>.</p>
<p id="p0027" num="0027">Die Form der Kennlinie hängt demnach von der Wahl der Schwellwerte a<sub>l</sub> und a<sub>h</sub> sowie s1<sub>l</sub> und s1<sub>h</sub> ab.</p>
<p id="p0028" num="0028">Die angegebene Auswahl der Kennlinie h<sub>1</sub> bzw. h<sub>2</sub> in Abhängigkeit von s<sub>2</sub> bedeutet, daß für unterschiedliche Werte von S<sub>2</sub> verschiedene Schwellwertkombinationen (a<sub>l</sub> a<sub>h</sub>, s1<sub>l</sub>, s1<sub>h</sub>) gewählt werden.</p>
<p id="p0029" num="0029">Der Parameter S<sub>2</sub> enthält eine Aussage über die Stationarität des vorliegenden Signalabschnitts. Konkret handelt es sich um eine zustandsinformation die angibt, ob im momentan betrachteten Signalabschnitt Sprachaktivität (s2 = 1) oder eine Sprachpause vorliegt (S<sub>2</sub> = 0).<!-- EPO <DP n="10"> --></p>
<p id="p0030" num="0030">Diese Information muß von einem Algorithmus zur Detektierung von Sprachpausen (engl. VAD = Voice Activity Detection) geliefert werden.</p>
<p id="p0031" num="0031">Da die Erkennung von Sprachpausen und stationären Signalabschnitten vom Prinzip her ähnlich sind, ist die VAD nicht auf eine exakte Bemessung der Sprachpausen (wie sonst üblich) sondern auf eine Klassifikation solcher Signalabschnitte hin optimiert, die hinsichtlich der Bestimmung des Verstärkungsfaktors als stationär gelten.</p>
<p id="p0032" num="0032">Da die Stationarität S<sub>2</sub> eines Signals keine eindeutig festgelegte Meßgröße ist, wird sie nachfolgend genauer definiert.</p>
<p id="p0033" num="0033">Betrachtet man zunächst das Frequenzspektrum eines Signalabschnitts, so weist es für den betrachteten Zeitraum eine charakteristische Form auf. Ist die Änderung der Frequenzspektren zeitlich aufeinanderfolgender Signalabschnitte hinreichend gering, d.h. die charakteristische Form der jeweiligen Spektren bleibt mehr oder weniger erhalten, so kann man von spektraler Stationarität sprechen.</p>
<p id="p0034" num="0034">Betrachtet man einen Signalabschnitt im Zeitbereich, so weist es einen für den betrachteten Zeitraum charakteristischen Amplituden- bzw. Energieverlauf auf. Bleibt die Energie zeitlich aufeinanderfolgender Signalabschnitte konstant, bzw. die Abweichung der Energie ist auf ein hinreichend kleines Toleranzintervall begrenzt, so kann man von zeitlicher Stationarität sprechen.</p>
<p id="p0035" num="0035">Sind zeitlich aufeinanderfolgende Signalabschnitte sowohl spektral als auch zeitlich stationär so werden sie<!-- EPO <DP n="11"> --> allgemein als stationär bezeichnet. Die Bemessung spektraler und zeitlicher Stationarität erfolgt in zwei separaten Stufen. Zunächst wird die spektrale Stationarität untersucht:</p>
<heading id="h0003"><b>Spektrale Stationarität (1. Stufe)</b></heading>
<p id="p0036" num="0036">Zur Feststellung, ob spektrale Stationarität vorliegt, wird zunächst ein spektrales Abstandsmaß, die sog. <i>spektrale Verzerrung</i> SD (engl.: spectral distorsion) aufeinanderfolgender Signalabschnitte betrachtet. Die Berechnung ergibt sich gemäß: <maths id="math0008" num=""><math display="block"><mi>S</mi><mo>⁢</mo><mi>D</mi><mo>=</mo><msqrt><mfrac><mn>1</mn><mrow><mn>2</mn><mo>⁢</mo><mi>π</mi></mrow></mfrac><mo>⁢</mo><msubsup><mo>∫</mo><mrow><mo>-</mo><mi>π</mi></mrow><mi>π</mi></msubsup><mo>⁢</mo><msup><mfenced separators=""><mn>10</mn><mo>⁢</mo><mi>log</mi><mrow><mo>[</mo><mfrac><mn>1</mn><msup><mfenced open="|" close="|" separators=""><mi>A</mi><mfenced><msup><mi>e</mi><mrow><mi>j</mi><mo>⁢</mo><mi>ω</mi></mrow></msup></mfenced></mfenced><mn>2</mn></msup></mfrac><mo>]</mo><mo>-</mo><mn>10</mn><mo>⁢</mo><mi>log</mi></mrow><mo>[</mo><mfrac><mn>1</mn><msup><mfenced open="|" close="|" separators=""><mi>A</mi><mrow><mi>ʹ</mi><mo>(</mo><msup><mi>e</mi><mrow><mi>j</mi><mo>⁢</mo><mi>ω</mi></mrow></msup><mo>)</mo></mrow></mfenced><mn>2</mn></msup></mfrac><mo>]</mo></mfenced><mn>2</mn></msup><mo>ⅆ</mo><mi>ω</mi><mn>.</mn></msqrt></math><img id="ib0008" file="imgb0008.tif" wi="112" he="26" img-content="math" img-format="tif"/></maths></p>
<p id="p0037" num="0037">Dabei bezeichnet <maths id="math0009" num=""><math display="block"><mn>10</mn><mo>⁢</mo><mi>log</mi><mfenced open="[" close="]"><mfrac><mn>1</mn><msup><mfenced open="|" close="|" separators=""><mi>A</mi><mfenced><msup><mi>e</mi><mrow><mi>j</mi><mo>⁢</mo><mi>ω</mi></mrow></msup></mfenced></mfenced><mn>2</mn></msup></mfrac></mfenced></math><img id="ib0009" file="imgb0009.tif" wi="39" he="26" img-content="math" img-format="tif"/></maths> den logarithmierten Einhüllendenfrequenzgang des aktuellen Signalabschnitts und <maths id="math0010" num=""><math display="block"><mn>10</mn><mo>⁢</mo><mi>log</mi><mfenced open="[" close="]"><mfrac><mn>1</mn><msup><mfenced open="|" close="|" separators=""><mi mathvariant="italic">Aʹ</mi><mfenced><msup><mi>e</mi><mrow><mi>j</mi><mo>⁢</mo><mi>ω</mi></mrow></msup></mfenced></mfenced><mn>2</mn></msup></mfrac></mfenced></math><img id="ib0010" file="imgb0010.tif" wi="35" he="22" img-content="math" img-format="tif"/></maths> den logarithmierten Einhüllendenfrequenzgang des vorangegangenen Signalabschnitts. Zur Entscheidung wird sowohl SD selbst als auch sein kurzzeitlicher Mittelwert über den letzten 10 Signalabschnitten <i><o ostyle="single">SD</o></i> betrachtet. Liegen beide Maße SD und <i><o ostyle="single">SD</o></i> unterhalb eines für sie<!-- EPO <DP n="12"> --> speziefischen Schwellwertes SD<sub>g</sub>, bzw. <i><o ostyle="single">SD</o></i><sub>g</sub>, so wird spektrale Stationarität angenommen.</p>
<p id="p0038" num="0038">Konkret gilt:
<ul id="ul0002" list-style="none" compact="compact">
<li>SD<sub>g</sub> = 2.6 dB</li>
<li><i><o ostyle="single">SD</o></i><sub>g</sub> = 2.6 dB</li>
</ul></p>
<p id="p0039" num="0039">Problematisch ist, daß auch extrem periodische (stimmhafte) Signalabschnitte diese spektrale Stationarität aufweisen. Sie werden über das Periodizitätsmaß s1 ausgeschlossen. Es gilt:
<ul id="ul0003" list-style="none" compact="compact">
<li>Falls s1 ≥ 0.7</li>
<li>oder s1 &lt; 0.3</li>
</ul>
ist, wird der betrachteten Signalabschnitt als <u style="single">nicht</u> spektral stationär angenommen.</p>
<heading id="h0004"><b>Zeitliche Stationarität (2. Stufe):</b></heading>
<p id="p0040" num="0040">Die Feststellung der zeitlichen Stationarität erfolgt in einer zweiten Stufe, deren Entscheidungsschwellen von der Detektion spektral stationärer Signalabschnitte der ersten Stufe abhängen. Ist der vorliegende Signalabschnitt von der ersten Stufe als spektral stationär klassifiziert worden, so wird sein Einhüllendenfrequenzgang <maths id="math0011" num=""><math display="block"><mfrac><mn>1</mn><msup><mfenced open="|" close="|" separators=""><mi mathvariant="italic">A</mi><mfenced><msup><mi>e</mi><mrow><mi>j</mi><mo>⁢</mo><mi>ω</mi></mrow></msup></mfenced></mfenced><mn>2</mn></msup></mfrac></math><img id="ib0011" file="imgb0011.tif" wi="22" he="17" img-content="math" img-format="tif"/></maths> gespeichert. Ebenfalls gespeichert wird die Referenz-Energie E<sub>refernce</sub> des Restsignals d<sub>reference</sub>, welches sich aus der Filterung des vorliegenden Signalabschnittes mit einem Filter ergibt, das den zu diesem Signalabschnitt<!-- EPO <DP n="13"> --> inversen Frequenzgang |A(e<sup>jω</sup>)|<sup>2</sup> besitzt. E<sub>refernce</sub> ergibt sich durch <maths id="math0012" num=""><math display="block"><msub><mi>E</mi><mi mathvariant="italic">reference</mi></msub><mo>=</mo><mstyle displaystyle="true"><munderover><mo>∑</mo><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover></mstyle><msubsup><mi>d</mi><mi mathvariant="italic">reference</mi><mn>2</mn></msubsup><mfenced><mi>n</mi></mfenced><mo>,</mo></math><img id="ib0012" file="imgb0012.tif" wi="50" he="16" img-content="math" img-format="tif"/></maths><br/>
wobei L der Länge des betrachteten Signalabschnitts entspricht.</p>
<p id="p0041" num="0041">Diese Energie dient als Referenzwert bis zur Detektion des nächsten spektral stationären Abschnitts. Alle folgenden Signalabschnitte werden nun mit demselben gespeicherten Filter gefiltert. Gemessen wird nun die Energie E<sub>rest</sub> des nach Filterung entstandenen Restsignals d<sub>rest</sub> . Sie ergibt sich entsprechend zu <maths id="math0013" num=""><math display="block"><msub><mi>E</mi><mi mathvariant="italic">rest</mi></msub><mo>=</mo><mstyle displaystyle="true"><munderover><mo>∑</mo><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover></mstyle><msubsup><mi>d</mi><mi mathvariant="italic">rest</mi><mn>2</mn></msubsup><mfenced><mi>n</mi></mfenced><mn>.</mn></math><img id="ib0013" file="imgb0013.tif" wi="40" he="17" img-content="math" img-format="tif"/></maths></p>
<p id="p0042" num="0042">Die endgültige Entscheidung, ob der betrachtete Signalabschnitt stationär ist folgt folgender Vorschrift:
<dl id="dl0001" compact="compact">
<dt>Falls:</dt><dd>E<sub>rest</sub> &lt; E<sub>reference</sub> + Toleranz<br/>
s2 = 1, Signal stationär,</dd>
<dt>sonst:</dt><dd>s2 = 0, Signal instationär</dd>
</dl></p>
<p id="p0043" num="0043">Es gilt dabei beispielhaft die in Fig. 2 dargestellte Zuordnung, wobei für
<ul id="ul0004" list-style="none">
<li>s2 = 1 (h1(s1), instationär): und</li>
<li>s2 = 0 (h2(s1), stationär/pause) → a = 1.0 für alle s1</li>
</ul></p>
<p id="p0044" num="0044">Das bedeutet die Kennlinie ist flach und a hat unabhängig von s1 den Wert 1.<!-- EPO <DP n="14"> --></p>
<p id="p0045" num="0045">Natürlich ist auch einen Abhängigkeit denkbar, in der ein kontinuierlicher Parameter S<sub>2</sub> (0 ≤ <i>s</i>2 ≤1) eine Aussage über die Statationarität S<sub>2</sub> enthält. In diesem Fall tritt anstelle der unterschiedlichen Kennlinien h<sub>1</sub> und h<sub>2</sub> eine dreidimensionale Fläche h(s1, s2) durch die a bestimmt wird.</p>
<p id="p0046" num="0046">Es versteht sich von selbst, daß die Algorithmen zur Bestimmung der Stationarität und der Periodizität den jeweils gegebenen Umständen entsprechend angepaßt werden müssen bzw. können. Die einzelnen o.a. Schwellwerte und Funktionen sind lediglich exemplarisch und müssen in der Regel durch eigene Versuche herausgefunden werden.</p>
</description><!-- EPO <DP n="15"> -->
<claims id="claims01" lang="de">
<claim id="c-de-01-0001" num="0001">
<claim-text>Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal, wobei das Sprachsignal in kurze zeitliche Signalabschnitte unterteilt und die einzelnen Signalabschnitte getrennt voneinander codiert und übertragen werden, und zu jedem Signalabschnitt der Verstärkungsfaktor berechnet, übertragen und vom Decoder zur Rekonstruktion des Signals verwendet wird, wobei der Verstärkungsfaktor durch Minimierung der Größe E(g_opt2)=(1-a)*f<sub>1</sub>(g_opt2)+a*f<sub>2</sub>(g_opt2) bestimmt wird, wobei g_opt2 einen zu verwendeten quantisierten Verstärkungsfaktor darstellt, und f1 und f2 entsprechende Funktionen darstellen,<br/>
<b>dadurch gekennzeichnet, daß</b> die Bestimmung des Gewichtungsfaktors a unter Berücksichtigung sowohl eines Periodizität smaßes S<sub>1</sub> als auch eines Stätionarität smaßes S<sub>2</sub> des codierten Sprachsignals erfolgt.</claim-text></claim>
<claim id="c-de-01-0002" num="0002">
<claim-text>Verfahren nach Anspruch 1, <b>dadurch gekennzeichnet, daß</b> die Minimierung der Größe E(g_opt2) erfolgt mittels der Formel: <maths id="math0014" num=""><math display="block"><mi mathvariant="normal">E</mi><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">=</mo><mrow><mo mathvariant="normal">(</mo><mn mathvariant="normal">1</mn><mo mathvariant="normal">-</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">)</mo><mo mathvariant="normal">*</mo><msup><mrow><mo mathvariant="normal">‖</mo><mi>c_opt</mi><mo mathvariant="normal">‖</mo></mrow><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn><mo mathvariant="normal">-</mo><mi>g_opt</mi></mfenced><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">+</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mo mathvariant="normal">‖</mo><mi>exg</mi><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">‖</mo><mo mathvariant="normal">-</mo><mo mathvariant="normal">‖</mo><mi>res</mi><mo mathvariant="normal">‖</mo></mfenced><mn mathvariant="normal">2</mn></msup></mrow></math><img id="ib0014" file="imgb0014.tif" wi="137" he="22" img-content="math" img-format="tif"/></maths> wobei c_opt, g_opt, exc und res einen optimalen Codebuchvektor, einen optimalen Verstärkungsfaktor, einen skalierten Codebuchvektor und ein ideales Anregungssignal darstellen.</claim-text></claim>
<claim id="c-de-01-0003" num="0003">
<claim-text>Verfahren nach Anspruch 1 oder 2, <b>dadurch gekennzeichnet, daß</b> in Abhängigkeit des ermittelten Wertes für das Stationarität smaß S<sub>2</sub> des Sprachsignals eine bestimmte Funktion h<sub>i</sub>(S<sub>1</sub>) zur Bestimmung des Gewichtsfaktors a ausgewählt wird, wobei S<sub>1</sub> ein Maß für die Periodizität des Sprachsignals ist.<!-- EPO <DP n="16"> --><!-- EPO <DP n="17"> --></claim-text></claim>
<claim id="c-de-01-0004" num="0004">
<claim-text>Verfahren nach Anspruch 3, <b>dadurch gekennzeichnet, daß</b> das Stationarität smaß S<sub>2</sub> ein Maß für die Sprachaktivität eines Signalabschnittes ist.</claim-text></claim>
<claim id="c-de-01-0005" num="0005">
<claim-text>Verfahren nach einem der Ansprüche 3 oder 4, <b>dadurch gekennzeichnet, daß</b> das Stationarität smaß S<sub>2</sub> ein Maß für das Verhältnis von Sprachpegel zu Hintergrundgeräuschpegel des zu betrachtenden Sprachsignalabschnitts ist.</claim-text></claim>
<claim id="c-de-01-0006" num="0006">
<claim-text>Verfahren nach einem der vorhergehenden Ansprüche, <b>dadurch gekennzeichnet, daß</b> das Stationarität smaß S2 in Abhängigkeit von der spektralen Veränderung sowie der Energieveränderung, d.h. zeitliche Stationarität berechnet wird.</claim-text></claim>
<claim id="c-de-01-0007" num="0007">
<claim-text>Verfahren nach Anspruch 6, <b>dadurch gekennzeichnet, daß</b> zur Berechnung der spektralen Stationarität sowie der Energieveränderung d.h. zeitliche Stationarität, mindestens ein zeitlich vorangegangener Signalabschnitt berücksichtigt wird.</claim-text></claim>
<claim id="c-de-01-0008" num="0008">
<claim-text>Verfahren nach Anspruch 7, <b>dadurch gekennzeichnet, daß</b> die ermittelten Werte der spektralen Veränderung die Bewertung der Energieveränderung, d. h. zeitlichen Stationarität, beeinflußt.</claim-text></claim>
</claims><!-- EPO <DP n="18"> -->
<claims id="claims02" lang="en">
<claim id="c-en-01-0001" num="0001">
<claim-text>Method for calculating the gain, said gain codetermining the loudness, for a codedly transmitted speech signal, wherein the speech signal is divided into short time signal portions and the individual signal portions are separately coded and transmitted, wherein, for each signal portion, the gain is calculated, transmitted and used by the decoder to reconstruct the signal, the gain factor being determined by minimization of the quantity E(g_opt2) = (1-a)*f<sub>1</sub>(g_opt2)+a*f<sub>2</sub>(g_opt2), where g_opt2 represents a quantized gain to be used, and f1 and f2 represent corresponding functions,<br/>
<b>characterized in that</b> the weighting factor a is determined in consideration both of a periodicity factor S<sub>1</sub> and also of a stationarity factor S<sub>2</sub> of the coded speech signal.</claim-text></claim>
<claim id="c-en-01-0002" num="0002">
<claim-text>Method according to claim 1, <b>characterized in that</b> the quantity E(g_opt2) is minimized by means of the formula: <maths id="math0015" num=""><math display="block"><mi mathvariant="normal">E</mi><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">=</mo><mrow><mo mathvariant="normal">(</mo><mn mathvariant="normal">1</mn><mo mathvariant="normal">-</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">)</mo><mo mathvariant="normal">*</mo><msup><mrow><mo mathvariant="normal">‖</mo><mi>c_opt</mi><mo mathvariant="normal">‖</mo></mrow><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn><mo mathvariant="normal">-</mo><mi>g_opt</mi></mfenced><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">+</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mo mathvariant="normal">‖</mo><mi>exg</mi><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">‖</mo><mo mathvariant="normal">-</mo><mo mathvariant="normal">‖</mo><mi>res</mi><mo mathvariant="normal">‖</mo></mfenced><mn mathvariant="normal">2</mn></msup></mrow><mo>,</mo></math><img id="ib0015" file="imgb0015.tif" wi="91" he="14" img-content="math" img-format="tif"/></maths><br/>
where c_opt, g_opt, exc and res represent an optimum code book vector, an optimum gain, a scaled code book vector and an ideal excitation signal.</claim-text></claim>
<claim id="c-en-01-0003" num="0003">
<claim-text>Method according to claim 1 or 2, <b>characterized in that</b>, depending on the determined value for the stationarity factor S<sub>2</sub> of the speech signal, a determined function h<sub>i</sub>(S<sub>1</sub>) is selected for determination of the weighting factor a, where S<sub>1</sub> is a measure of the periodicity of the speech signal.</claim-text></claim>
<claim id="c-en-01-0004" num="0004">
<claim-text>Method according to claim 3, <b>characterized in that</b> the stationarity factor S<sub>2</sub> is a measure of the speech activity of a signal portion.</claim-text></claim>
<claim id="c-en-01-0005" num="0005">
<claim-text>Method according to any one of claims 3 or 4, <b>characterized in that</b> the stationarity factor S<sub>2</sub> is a measure of the ratio of speech level to background noise level of the speech signal portion under consideration.</claim-text></claim>
<claim id="c-en-01-0006" num="0006">
<claim-text>Method according to any one of the preceding claims, <b>characterized in that</b> the stationarity factor S2 is calculated as a function of the spectral change as well as the energy change, i.e. time stationarity.</claim-text></claim>
<claim id="c-en-01-0007" num="0007">
<claim-text>Method according to claim 6, <b>characterized in that</b>, for calculation of the spectral stationarity as well as the energy change, i.e. time stationarity, at least one chronologically preceding signal portion is taken into consideration.</claim-text></claim>
<claim id="c-en-01-0008" num="0008">
<claim-text>Method according to claim 7, <b>characterized in that</b> the determined values of the spectral change influence the evaluation of the energy change, i.e. time stationarity.</claim-text></claim>
</claims><!-- EPO <DP n="19"> -->
<claims id="claims03" lang="fr">
<claim id="c-fr-01-0001" num="0001">
<claim-text>Procédé de calcul du facteur d'amplification influant sur le volume sonore d'un signal vocal transmis sous forme codée, le signal vocal étant divisé en sections de signal courtes dans le temps qui sont codées et transmises séparément les unes des autres, et pour chacune de ces sections de signal, le facteur d'amplification étant calculé, transmis et utilisé par le décodeur pour reconstruire le signal, ce facteur d'amplification étant déterminé par la minimisation de la grandeur E(g_opt2) = (1 - a) * f<sub>1</sub>(g_opt2) + a * f<sub>2</sub>(g_opt2), où g_opt2 représente un facteur d'amplification quantifié à utiliser et où f<sub>1</sub> et f<sub>2</sub> représentent des fonctions correspondantes, <b>caractérisé en ce que</b> le facteur de pondération a est déterminé en tenant compte à la fois d'un degré de périodicité S<sub>1</sub> et d'un degré de stationnarité S<sub>2</sub> du signal vocal codé.</claim-text></claim>
<claim id="c-fr-01-0002" num="0002">
<claim-text>Procédé selon la revendication 1, <b>caractérisé en ce que</b> la minimisation de la grandeur E(g_opt2) s'effectue moyennant la formule <maths id="math0016" num=""><math display="block"><mi mathvariant="normal">E</mi><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">=</mo><mrow><mo mathvariant="normal">(</mo><mn mathvariant="normal">1</mn><mo mathvariant="normal">-</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">)</mo><mo mathvariant="normal">*</mo><msup><mrow><mo mathvariant="normal">‖</mo><mi>c_opt</mi><mo mathvariant="normal">‖</mo></mrow><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn><mo mathvariant="normal">-</mo><mi>g_opt</mi></mfenced><mn mathvariant="normal">2</mn></msup><mo mathvariant="normal">+</mo><mi mathvariant="normal">a</mi><mo mathvariant="normal">*</mo><msup><mfenced separators=""><mo mathvariant="normal">‖</mo><mi>exg</mi><mfenced separators=""><mi>g_opt</mi><mo>⁢</mo><mn mathvariant="normal">2</mn></mfenced><mo mathvariant="normal">‖</mo><mo mathvariant="normal">-</mo><mo mathvariant="normal">‖</mo><mi>res</mi><mo mathvariant="normal">‖</mo></mfenced><mn mathvariant="normal">2</mn></msup></mrow></math><img id="ib0016" file="imgb0016.tif" wi="153" he="11" img-content="math" img-format="tif"/></maths><br/>
où c_opt, g_opt, exc et res représentent un vecteur de dictionnaire de codes optimal, un facteur d'amplification optimal, un vecteur de dictionnaire de codes normé et un signal d'excitation idéal.</claim-text></claim>
<claim id="c-fr-01-0003" num="0003">
<claim-text>Procédé selon la revendication 1 ou 2, <b>caractérisé en ce que</b>, en fonction de la valeur obtenue pour le degré de stationnarité S<sub>2</sub> du signal vocal, une fonction donnée h<sub>i</sub>(S<sub>1</sub>) est sélectionnée pour déterminer le facteur de pondération a, S<sub>1</sub> étant une mesure de la périodicité du signal vocal.</claim-text></claim>
<claim id="c-fr-01-0004" num="0004">
<claim-text>Procédé selon la revendication 3, <b>caractérisé en ce que</b> le degré de stationnarité S<sub>2</sub> est une mesure de l'activité vocale d'une section de signal.</claim-text></claim>
<claim id="c-fr-01-0005" num="0005">
<claim-text>Procédé selon l'une des revendications 3 ou 4, <b>caractérisé en ce que</b> le degré de stationnarité S<sub>2</sub> est une mesure du rapport entre le niveau vocal et le niveau de bruit de fond de la section de signal vocal à observer.<!-- EPO <DP n="20"> --></claim-text></claim>
<claim id="c-fr-01-0006" num="0006">
<claim-text>Procédé selon l'une des revendications précédentes, <b>caractérisé en ce que</b> le degré de stationnarité S<sub>2</sub> est calculé en fonction de la modification spectrale ainsi que de la variation d'énergie, à savoir la stationnarité temporelle.</claim-text></claim>
<claim id="c-fr-01-0007" num="0007">
<claim-text>Procédé selon la revendication 6, <b>caractérisé en ce que</b> pour calculer la stationnarité spectrale ainsi que la variation d'énergie, à savoir la stationnarité temporelle, on tient compte d'au moins une section de signal qui a précédé dans le temps.</claim-text></claim>
<claim id="c-fr-01-0008" num="0008">
<claim-text>Procédé selon la revendication 7, <b>caractérisé en ce que</b> les valeurs obtenues pour la modification spectrale influent sur l'évaluation de la variation d'énergie, à savoir la stationnarité temporelle.</claim-text></claim>
</claims><!-- EPO <DP n="21"> -->
<drawings id="draw" lang="de">
<figure id="f0001" num=""><img id="if0001" file="imgf0001.tif" wi="156" he="226" img-content="drawing" img-format="tif"/></figure>
</drawings>
<ep-reference-list id="ref-list">
<heading id="ref-h0001"><b>IN DER BESCHREIBUNG AUFGEFÜHRTE DOKUMENTE</b></heading>
<p id="ref-p0001" num=""><i>Diese Liste der vom Anmelder aufgeführten Dokumente wurde ausschließlich zur Information des Lesers aufgenommen und ist nicht Bestandteil des europäischen Patentdokumentes. Sie wurde mit größter Sorgfalt zusammengestellt; das EPA übernimmt jedoch keinerlei Haftung für etwaige Fehler oder Auslassungen.</i></p>
<heading id="ref-h0002"><b>In der Beschreibung aufgeführte Patentdokumente</b></heading>
<p id="ref-p0002" num="">
<ul id="ref-ul0001" list-style="bullet">
<li><patcit id="ref-pcit0001" dnum="US4133976A"><document-id><country>US</country><doc-number>4133976</doc-number><kind>A</kind></document-id></patcit><crossref idref="pcit0001">[0002]</crossref></li>
<li><patcit id="ref-pcit0002" dnum="XP000898256"><document-id><country>XP</country><doc-number>000898256</doc-number></document-id></patcit><crossref idref="pcit0002">[0008]</crossref></li>
</ul></p>
<heading id="ref-h0003"><b>In der Beschreibung aufgeführte Nicht-Patentliteratur</b></heading>
<p id="ref-p0003" num="">
<ul id="ref-ul0002" list-style="bullet">
<li><nplcit id="ref-ncit0001" npl-type="s"><article><author><name>HAGEN et al.</name></author><atl>AN 8 KBIT/S ACELP CODER WITH IMPROVED BACKGROUND NOISE PERFORMANCE</atl><serial><sertitle>PHOENIX, AZ</sertitle><pubdate><sdate>19990315</sdate><edate/></pubdate></serial><location><pp><ppf>25</ppf><ppl>28</ppl></pp></location></article></nplcit><crossref idref="ncit0001">[0008]</crossref></li>
</ul></p>
</ep-reference-list>
</ep-patent-document>
