Vorbemerkung
[0001] Die Erfindung bezieht sich auf instrumentelle Verfahren zur Messung der Sprachqualität
von aufgezeichneten oder übertragenen Sprachsignalen. Dabei wird von Sprachqualitätsmesswerten
ausgegangen, die z.B. mit dem ITU-T Standard P.862 ("Perceptual Evaluation of Speech
Quality (PESQ), an Objective Method for end-to-end Speech Quality Assessment of Narrow-band
Telephone Networks and Speech Codecs", ITU-T, Genf, 2001) bestimmt werden.
[0002] Die empfundene Sprachqualität z. B. bei Telefonverbindungen oder Rundfunkübertragungen
wird hauptsächlich von sprachsimultanen Störungen, also Störungen während der Sprachaktivität,
bestimmt. Aber auch Geräusche in Sprachpausen gehen in das Qualitätsurteil ein, das
insbesondere bei hochqualitativer Sprachwiedergabequalität.
[0003] Sprachqualitätsbestimmungen von Sprachsignalen werden in der Regel mittels auditiver
("subjektiver") Untersuchungen mit Versuchspersonen vorgenommen. Das Ziel von instrumentellen
("objektiven") Verfahren zur Sprachqualitätsbestimmung ist es dagegen, aus Eigenschaften
des zu bewertenden Sprachsignals mittels geeigneter Rechenverfahren Kennwerte zu ermitteln,
die die Sprachqualität des zu bewertenden Sprachsignals beschreiben ohne auf Urteile
von Versuchspersonen zurückgreifen zu müssen.
Stand der Technik und Nachteile bekannter Verfahren
[0004] Bekannte Verfahren zur instrumentellen Bestimmung der Sprachqualität (z. B. ITU-T
Rec. P.862 "PESQ") bestimmen die Sprachqualität anhand eines Vergleichs zwischen ungestörtem
Referenzsprachsignal (Quellsprachsignal) und dem zu bewertenden und möglicherweise
gestörten Signal.
[0005] Solche Messverfahren werden in sogenannten Probeverbindungssystemen eingesetzt, bei
denen ein bekanntes Referenzsprachsignal (Quellsprachsignal) an der Quelle eingespeist
und z. B. über eine Telefonverbindung übertragen und an der Senke aufgezeichnet wird.
Nach der Aufzeichnung des Sprachsignals erfolgt die Berechnung eines Sprachqualitätswertes.
[0006] Instrumentelle Verfahren zur Sprachqualitätsbestimmung beschränken sich meist auf
die Auswertung von Abschnitten mit Sprachaktivität. Der aktuelle ITU-T Standard P.862
beschränkt sich bei der Bestimmung der Sprachqualität ebenfalls nur auf Abschnitte
mit aktiver Sprache. Insbesondere bei hochqualitativer Sprachwiedergabe und Geräuschen,
die ausschließlich in Sprachpausen auftreten, liefern diese Verfahren (z. B. Messverfahren
nach ITU-T Rec. P.862) unzuverlässige Qualitätswerte. Die Sprachqualität wird hier
zu optimistisch bewertet, da die von einem Zuhörer empfundene Sprachqualität sich
auf das gesamte Signal einschließlich möglicher Geräusche in den Sprachpausen bezieht.
Aufgabe
[0007] Einige instrumentelle Verfahren zur Sprachqualitätsbestimmung, wie z. B. das Verfahren
nach ITU-T Rec. P.862, berücksichtigen bei der Berechnung der Sprachqualitätswerte
die Geräusche in den Sprachpausen nicht. Die sich ergebenden Messwerte sind dadurch,
insbesondere bei hoher Wiedergabequalität bei Sprachaktivität aber auftretenden Geräuschen
in Sprachpausen, unzuverlässig. Mit dem vorliegenden Verfahren sollen die Hintergeräusche
in den Sprachpausen bei der Bestimmung der Sprachqualitätswerte berücksichtigt werden.
Lösungsprinzip
[0008] Die Lösung der Aufgabe geht davon aus, dass die Hintergrundgeräusche in den Sprachpausen
hinsichtlich ihres störenden Einflusses auf die empfundene Sprachqualität bewertet
werden. Dazu werden Intensitätskennwerte des Hintergrundgeräusches ermittelt und mit
diesen Werten die Sprachqualitätsmesswerte, die durch ein instrumentales Verfahren,
z. B. nach ITU-T Rec. P.862, gewonnenen wurden, korrigiert.
[0009] Zunächst wird der Sprachqualitätswert unter Benutzung des Quellsprachsignals und
des zu bewertenden gestörten Sprachsignals, z. B. mit dem Verfahren nach ITU-T Rec.
P.962, berechnet. Diese Sprachsignale stehen dem anschließenden Korrekturverfahren
ebenfalls als Eingangsparameter zur Verfügung. Zusätzlich benötigt das hier beschriebene
Korrekturverfahren noch den berechneten Sprachqualitätswert, der z. B. mit dem Verfahren
nach ITU-T Rec. P.862 berechnet wurde.
[0010] Ausgehend von den beiden Sprachsignalen werden ein oder mehrere Intensitätskennwerte
des Geräuschs in Sprachpausen berechnet. Dies kann z. B. die mittlere Lautheit nach
ISO 532 der Hintergrundgeräusche in Sprachpausen sein. Ein sehr effizientes Verfahren
dafür ist in der Patentanmeldung DE 101 20 168 beschrieben. Auch andere Intensitätskennwerte
(z.B. Schärfe, Impulshaftigkeit, Schwankungsstärke) können in den Korrekturwert einfließen.
Es wird davon ausgegangen, dass zunehmende Intensitätskennwerte von einer ebenfalls
zunehmenden Störung durch das Geräusch in Sprachpausen verursacht werden und damit
zu einer stärkeren Verminderung der empfundenen Sprachqualität führen.
[0011] Die Sprachqualität wird bei guter Sprachwiedergabequalität und gleichzeitigen Geräuschen
in den Sprachpausen von den beschriebenen Sprachqualitätsmessverfahren zu hoch bewertet.
Ein oder mehrere Intensitätswerte des Hintergrundgeräusches in Sprachpausen werden
dazu benutzt, den gemessenen Sprachqualitätswert zu korrigieren. Ausgehend davon,
dass der gemessene Sprachqualitätswert auf einer Skala von 1 (niedrige Qualität) bis
5 (sehr gute Qualität) entsprechend der ITU-T Recommendation P.800 ("Methods for objective
and subjective assessment of quality", ITU-T, Genf 1996), abgebildet wird, werden
alle Werte oberhalb eines bestimmten Sprachqualitätsschwellwertes (z. B. bei dem Verfahren
nach ITU-T Rec. P.862 oberhalb von 3,0) bei Auftreten von Hintergrundgeräuschen in
Sprachpausen reduziert. Diese Reduktion ist von den Intensitätskennwerten des Hintergrundgeräusches,
dem Anteil der Sprachpausen im Gesamtsignal
PA und dem Sprachqualitätswert
Y abhängig. Eine allgemeine Beschreibung dieser Korrektur ist für alle Sprachqualitätswerte
Y oberhalb eines Sprachqualitätsschwellenwertes
YS, bei der nur ein Intensitätskennwert (hier N) berücksichtigt wird. Dies kann z. B.
die mittlere Lautheit des Hintergrundgeräusches in Sprachpausen sein:

[0012] Die Funktion
a(N) stellt eine eindeutige und steigende Wichtungsfunktion des Intensitätskennwertes
N dar. Der korrigierte Sprachqualitätswert ist stets kleiner oder gleich dem unkorrigierten
Wert. Die Korrektur fällt gering aus, wenn die Intensität des Geräusches gering ist
(N ist klein), nur wenig Sprachpausen auftreten (
PA klein) oder sich der Sprachqualitätswert in der Nähe des Sprachqualitätsschwellwertes
befindet (
Y- YS klein). Stärker wird korrigiert, wenn starke Pausengeräusche bei ansonsten hoher
Sprachqualität
Y auftreten. In Analogie dazu, kann die Korrektur der Sprachqualitätswerte auch mit
Berücksichtigung mehrerer Intensitätskennwerte (hier als Beispiel N, M und O) erfolgen:

[0013] Die Intensitätskennwerte werden mit den Wichtungsfunktionen
a(N), b(M) bzw.
c(O) gewichtet. Da von einer zunehmenden Störung bei steigenden Werten ausgegangen wird,
sind hier auch eindeutige und steigende Wichtungsfunktionen anzusetzen.
Ausführungsbeispiel für die Korrektur von Sprachqualitätswerten, die mit dem Verfahren
"PESQ" nach ITU-T P.862 bestimmt wurden
[0014] Das hier vorgestellte Ausführungsbeispiel zeigt beispielhaft eine Korrektur der mit
dem Verfahren nach ITU-T Rec. P.862 "PESQ" (Stand 2001) ermittelten Sprachqualitätswerte.
Dieses Verfahren liefert durch den Vergleich eines ungestörten Quellsprachsignals
mit dem zu bewertenden gestörten Sprachsignal einen Sprachqualitätswert. Diese beiden
Sprachsignale dienen zur Bestimmung der mittleren Lautheit des Hintergrundgeräuschs
entsprechend Patentanmeldung DE 101 20 168. Der so berechnete Wert N in sone wird
zur Korrektur des mit dem Verfahren nach ITU-T Rec. P.862 "PESQ" (Stand 2001) berechneten
Qualitätswertes benutzt. Die Korrektur des Qualitätswertes setzt erst ein, wenn N
einen Wert von
1,3 sone überschritten hat (unterer Schwellwert):

wenn N1 <0, dann N1 = 0
wenn N1 > 4, dann N1 = 4.
[0015] Der Wert der Schwellenüberschreitung
N1 wird für die weiteren Schritte benutzt. Negative
N1 werden nicht zugelassen, sondern auf
N1 =
0 gesetzt. Ebenso wird
N1 bei
N1 = 4 begrenzt.
[0016] In einem zweiten Schritt wird der Wert
N1 mit einer Konstanten und dem Anteil der Sprachpausen im Gesamtsignal
PA (PA = 0...1) gewichtet:

[0017] Im nächsten Schritt wird der Wert der Schwellüberschreitung
YD ermittelt, d.h. um welchen Anteil die gemessene Sprachqualität
Y den Sprachqualitätsschwellwert
YS überschreitet. Der dafür erforderliche Sprachqualitätsschwellwert
YS ist gleich 3.0:

wenn YD < 0, dann YD = 0
[0018] Der Korrekturwert
YK, der die Reduktion des Sprachqualitätswertes durch das Hintergrundgeräusch in Sprachpausen
beschreibt, ist der mit der Schwellwertüberschreitung gewichtete Intensitätswert
N2:
[0019] Dieser Korrekturwert wird vom ursprünglichen Y subtrahiert und damit ergibt sich
der korrigierte Wert für die Sprachqualität
Y(korrigiert):

1. Verfahren zur Korrektur von gemessenen Sprachqualitätswerten, wobei die Sprachqualitätsmesswerte
mittels instrumenteller Verfahren ermittelt werden, die ausschließlich die Signalabschnitte
mit Sprachaktivität auswerten,
dadurch gekennzeichnet,
dass die Geräusche in den Sprachpausen bei der Bestimmung der Sprachqualitätswerte berücksichtigt
werden,
dass dafür die Intensität der Hintergrundgeräusche in den Sprachpausen bestimmt wird und
diese Kennwerte für die Korrektur der gemessenen Sprachqualitätswerte verwendet werden,
und
dass die Korrektur in der Weise erfolgt, dass der gemessene Sprachqualitätswert um einen
Betrag reduziert wird, der aus einem oder mehreren gewichteten Intensitätskennwerten
des Hintergrundgeräusches, dem Anteil an Sprachpausen im zu bewertenden Sprachsignal
und dem gemessenen Sprachqualitätswert berechnet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Korrektur für nach dem ITU-T Standard P.862 gemessene Sprachqualitätswerte in
der Weise erfolgt, dass als Intensitätskennwert die mittlere Lautheit in Sprachpausen
bestimmt wird und für die Korrekturberechnung der Betrag berücksichtigt wird, der
den Schwellwert 1,3 sone überschreitet und auf maximal 4,0 sone begrenzt wird und
dieser Wert mit einem konstanten Faktor (0,45), dem Anteil der Sprachpausen im Gesamtsignal
und mit dem Anteil des gemessenen Sprachqualitätswertes multipliziert wird, der den
Sprachqualitätsschwellwert von 3,0 übersteigt und einen Korrekturwert ergibt, der
zur Ermittlung des korrigierten Sprachqualitätswertes vom gemessenen Sprachqualitätswert
subtrahiert wird.