Vorbemerkung
[0001] Die Erfindung bezieht sich auf ein Verfahren zur instrumentellen ("objektiven") Sprachqualitätsbestimmung,
bei dem durch Vergleich von Eigenschaften eines zu bewertenden Sprachsignals mit Eigenschaften
eines Referenzsprachsignals (ungestörtes Signal) Kennwerte zur Bestimmung der Sprachqualität
(Sprachgüte) abgeleitet werden.
[0002] Sprachqualitätsbestimmungen von Sprachsignalen werden in der Regel mittels auditiver
("subjektiver") Untersuchungen mit Versuchspersonen vorgenommen.
[0003] Das Ziel von instrumentellen ("objektiven") Verfahren zur Sprachqualitätsbestimmung
ist es, aus Eigenschaften des zu bewertenden Sprachsignals mittels geeigneter Rechenverfahren
Kennwerte zu ermitteln, die die Sprachqualität des zu bewertenden Sprachsignals beschreiben,
ohne auf Urteile von Versuchspersonen zurückgreifen zu müssen.
[0004] Die berechneten Kennwerte und das zugrunde gelegte Verfahren zur instrumentellen
Sprachqualitätsbestimmung gelten als anerkannt, wenn eine hohe Korrelation zu Ergebnissen
auditiver Vergleichsuntersuchungen erreicht wird. Die mittels auditiver Untersuchungen
gewonnenen Sprachqualitätswerte stellen somit die Zielwerte dar, die durch instrumentelle
Verfahren erreicht werden sollen.
Stand der Technik
[0005] Bekannte Verfahren zur instrumentellen Sprachqualitätsbestimmung beruhen auf einem
Vergleich eines Referenzsprachsignals mit dem zu bewertenden Sprachsignal. Dabei werden
das Referenzsprachsignal und das zu bewertendes Sprachsignal in kurze Zeitabschnitte
segmentiert. In diesen Segmenten werden die spektralen Eigenschaften der beiden Signale
verglichen.
Für die Berechnung der spektralen Kurzzeiteigenschaften kommen verschiedene Ansätze
und Modelle zur Anwendung. In der Regel erfolgt die Berechnung der Signalintensität
in Frequenzbändern, deren Breite mit zunehmender Mittenfrequenz größer wird. Beispiele
für solche Frequenzbänder sind die bekannten Terzbänder oder Frequenzgruppen nach
Zwicker (veröffentlicht in Zwicker, E.: "Psychoakustik", Berlin: Springer-Verlag,
1982).
[0006] Die derart berechnete spektrale Intensitätsabbildung für jeden betrachteten Zeitabschnitt
läßt sich als Reihe von Zahlenwerten auffassen, in der die Anzahl der Einzelwerte
der Anzahl der verwendeten Frequenzbänder entspricht, die Zahlenwerte selbst die berechneten
Intensitätswerte darstellen und ein fortlaufender Index der Frequenzbänder die Reihenfolge
der Zahlenwerte beschreibt.
[0007] Bei den derzeit bekannten Verfahren zur instrumentellen Sprachqualitätsbestimmung
werden die Grenzen der benutzten Frequenzbänder auf der Frequenzachse konstant gehalten.
[0008] In jedem betrachteten Zeitsegment werden die berechneten Intensitäten von zu bewertenden
Sprachsignal und Referenzsprachsignal in jedem Band miteinander verglichen. Die Differenz
beider Werte, bzw. die Ähnlichkeit der beiden entstehenden spektralen Intensitätsabbildungen,
stellt die Grundlage für die Berechnung eines Qualitätswertes dar (Fig. 1).
[0009] Solche Verfahren wurden insbesondere für die qualitative Bewertung der Sprache in
der Telefonieanwendung entwickelt. Beispiele hierfür sind US-A-5,621,854 (HOLLIER
MICHAEL P), die als nächstliegender Stand der Technik zitiert wird, und die Veröffentlichungen:
"A perceptual speech-quality measure based on a psychacoustic sound representation"
(Beerends, J. G.; Stemerdink, J. A., J. Audio Eng. Soc. 42(1994)3, S. 115-123)
"Auditory distortion measure for speech coding" (Wang, S; Sekey, A.; Gersho, A.: IEEE
Proc. Int. Conf. acoust., speech and signalprocessing (1991), S.493-496).
[0010] Der derzeit gültige ITU-T Standard P.861 beschreibt ebenfalls ein derartiges Verfahren:
"Objective quality measurement of telephone-band speech codecs" (ITU-T Rec. P.861,
Genf 1996).
Nachteile bekannter instrumenteller Sprachqualitätsmeßverfahren
[0011] Der Einsatz von bekannten Verfahren zur instrumentellen Sprachqualitätsbestimmung
scheitert an der Zuverlässigkeit der berechneten Qualitätswerte für bestimmte zu bewertende
Signaleigenschaften. Insbesondere bei Beeinträchtigungen im zu bewertenden Sprachsignal,
wie sie z.B. durch Sprachcodierverfahren mit niedrigen Bitraten oder Kombinationen
von unterschiedlichen Störungen hervorgerufen werden, liefern derzeit bekannte Verfahren
nur unsichere Qualitätswerte.
[0012] Nachteilig bei den heute bekannten Verfahren ist in solchen Fällen, daß bei einem
Vergleich zwischen dem zu bewertenden Sprachsignal mit einem Referenzsprachsignal
Unterschiede zwischen beiden Signalabschnitten in der gewählten Darstellungsebene
in den zu berechnenden Qualitätskennwert einfließen, die nicht oder kaum zu einer
- auch im auditiven Test wahrnehmbaren - qualitativen Beeinträchtigung führen.
[0013] Im Rahmen der hier betrachteten Sprachübertragung in Telefonanwendungen tragen Frequenzbandbegrenzungen
und spektrale Verformungen des zu bewertenden Sprachsignals (z.B. hervorgerufen durch
Filtereigenschaften des Telefongerätes oder des Übertragungskanals) nur begrenzt zu
einer empfundenen qualitativen Beeinträchtigung bei.
[0014] Um diese Mängel teilweise zu vermeiden, wird in einem anderen Ansatz versucht, die
linearen Verzerrungen (Frequenzgang) durch ein Korrekturfilter bzw. eine Leistungsübertragungsfunktion
zu kompensieren (veröffentlicht in: "A new approach to objective quality-measures
based on attribute-matching", Halka, U.; Heute, U., Speech communication, 11(1992)1,
S. 15-30). Die Anwendung dieses Verfahrens ist jedoch bei nichtlinearer und zeitinvarianter
Übertragung nachteilig, da die so berechnete Kompensationsfunktion nicht mehr ausschließlich
die spektralen Verformungen des zu bewertenden Signals beschreibt.
Verschiebungen spektraler Kurzzeit-Maxima ("Formantverschiebungen") im zu testenden
Signal gegenüber dem Referenzsprachsignal, z.B. verursacht durch Codiersysteme mit
niedriger Bitrate, führen bei bekannten Verfahren zu großen Unterschieden in den spektralen
Intensitätsabbildungen und gehen damit stark in den berechneten Qualitätswert ein.
Untersuchungen haben ergeben, daß in einer auditiven Sprachqualitätsuntersuchung diese
Verschiebungen spektraler Kurzzeit-Maxima jedoch nur begrenzten Einfluß auf das Qualitätsurteil
haben.
Aufgabe
[0015] Die Erfindung stellt sich die Aufgabe, den Einfluß von spektralen Begrenzungen und
Verformungen des zu bewertenden Sprachsignals sowie von Verschiebungen spektraler
Kurzzeit-Maxima vor dem Vergleich der spektralen Eigenschaften eines zu testenden
Signals mit einem Referenzsprachsignal und der Berechnung eines Qualitätswertes in
instrumentellen Verfahren zu reduzieren.
Lösung
[0016] Die obengenannte Aufgabe wird durch ein Verfahren gemäß Patentanspruch 1 gelöst.
[0017] Im Gegensatz zu bekannten Ansätzen wird in der hier beschriebenen Erfindung eine
spektrale Wichtungsfunktion generiert, die auf mittleren spektralen Einhüllenden,
z.B. der mittleren spektralen Leistungsdichte, von zu bewertendem Sprachsignal und
Referenzsprachsignal beruht. Dies ermöglicht den Einsatz des Verfahrens ebenfalls
bei nichtlinearer und zeitvarianter Übertragung.
[0018] Die spektrale Wichtungsfunktion wird aus den Quotienten der Stützwerte der mittleren
spektralen Leistungsdichte des zu bewertenden Signals Phi
Y(f) und der des Eingangssignals des Übertragungssystems Phi
X(f) derart berechnet, daß die Wichtungsfunktion über
zu beschreiben ist. Die Bewertungsfunktion a(f) kann die Wichtungsfunktion W
T(f) an über den Wirkungsbereich unterschiedlich gewichten, sie ist im einfachsten
Falle konstant 1.
[0019] Die derart berechnete spektrale Wichtungsfunktion W
T(f) nähert die mittleren spektralen Einhüllenden von zu bewertenden Sprachsignal und
Referenzsprachsignal einander an, so daß Unterschiede der beiden spektralen Einhüllenden
nur noch vermindert in den berechneten Qualitätswert einfließen.
[0020] Die spektrale Wichtungsfunktion W
T(f) kann zum einen auf das Referenzsprachsignal angewendet werden. Dabei wird das
Referenzsprachsignal in seiner mittleren spektralen Leistungsdichte dem zu bewertenden
Signal angenähert (Fig. 2a).
[0021] Zum anderen kann die spektrale Wichtungsfunktion invertiert auf das zu bewertende
Signal angewendet werden. Dieses wird dadurch entzerrt und, hinsichtlich seiner mittleren
spektralen Leistungsdichte, an das Referenzsprachsignal angenähert (Fig. 2b).
[0022] Ein weiterer Teil der Erfindung bezieht sich auf die Korrektur von Verschiebungen
spektraler Kurzzeit-Maxima, die durch die Übertragungssysteme verursacht werden.
[0023] Die Intensität wird für jeden Zeitabschnitt in Frequenzbändern integriert. Resultat
ist eine Reihe von Intensitätswerten für jede spektrale Darstellung eines Signalabschnitts,
wobei jeder Einzelwert die Intensität in einem Frequenzband repräsentiert. Die Verschiebungen
spektraler Kurzzeit-Maxima können hierbei zu abweichenden berechneten Intensitäten
in den Frequenzbändern von Referenzsprachsignal und zu bewertenden Sprachsignal führen.
[0024] Diese Abweichungen in den spektralen Intensitätsabbildungen - verursacht Verschiebungen
spektraler Kurzzeit-Maxima -können durch eine variable Anordnung der Frequenzbänder
auf der Frequenzachse reduziert werden. Im Gegensatz zu den konstanten Bandgrenzen
bei bekannten Verfahren werden die Bandgrenzen auf der Frequenzachse verschoben. Die
Zahl der Frequenzbänder und deren Index bleibt aber konstant. In einer Optimierungsschleife
werden dann diejenigen Bandgrenzen akzeptiert, bei denen die beiden entstehenden spektralen
Abbildungen von zu bewertenden Sprachsignal und Referenzsprachsignal maximale Ähnlichkeit
aufweisen bzw. deren Abstand minimal ist. Diese Optimierung wird für alle Bänder in
allen betrachteten Zeitsegmenten durchgeführt.
[0025] Der Einsatz variabler Bandgrenzen zur Berechnung der spektralen Intensitätsabbildung
ist nicht nur auf das Signal, in dem auch die beschriebene spektrale Wichtungsfunktion
W
T(f) zum Einsatz kommt, beschränkt, sondern kann auch auf das jeweils andere Signal
und sogar auf beide Signale angewendet werden. (vgl. Fig. 2a und 2b).
Ausführungsbeispiel:
[0026] Ein spezielles Ausführungsbeispiel zeigt eine Realisierung gemäß Fig. 3, die als
TOSQA (Telecommunication Objective Speech Quality Assessment) bezeichnet wird. Hierbei
erfolgt eine erweiterte Vorverarbeitung des Referenzsprachsignals.
[0027] In Spezifikation der allgemeinen Realisierungen nach Fig. 2a und 2b werden hier Sprachpausen
mittels eines Sprachpausenerkenners erkannt und gehen nicht in das Qualitätsmaß ein.
Ebenfalls erfolgt eine Filterung von Referenzsprachsignal und zu bewertendem Sprachsignal
mit einem Bandpaß 300...3400 Hz sowie eine Filterung auf den Frequenzgang eines Telefonhandapparates.
Die Integration der spektralen Leistungsdichte erfolgt in Frequenzgruppen, die die
Basis für die Berechnung der spezifischen Lautheit darstellen.
[0028] Die Integration in Frequenzgruppen erfolgt jedoch
nicht in festen Frequenzgruppengrenzen, sondern mit den in dieser Erfindung beschriebenen
variablen Frequenzgruppengrenzen. Die berechneten Signalleistungen in den so modifizierten
Frequenzgruppen bilden die Basis für die Intensitätsberechnung. Hier wurde auf ein
Modell zur Berechnung der spezifischen Lautheit nach Zwicker, einer gehörrichtigen
Intensitätsabbildung, zurückgegriffen (veröffentlicht in Zwicker, E.: "Psychoakustik",
Berlin: Springer-Verlag, 1982).
[0029] Die berechneten Lautheitsmuster werden in Ergänzung des allgemeinen Ansatzes noch
durch eine Fehlerbewertungsfunktion ergänzt. Der berechnete Qualitätswert wird über
einen Mittelwert der Korrelationskoeffizienten der spezifischen Lautheiten für jedes
betrachtete kurze Zeitsegment über die Zahl der ausgewerteten Sprachsegmente gebildet.
1. Verfahren zur instrumentellen Sprachqualitätsbestimmung, bei dem durch Vergleich von
spektralen Kurzzeiteigenschaften eines zu bewertenden Sprachsignals mit einem Referenzsprachsignal
Kennwerte zur Bestimmung der Sprachqualität berechnet werden, dadurch gekennzeichnet,
daß vor dem Vergleich der Eigenschaften der Sprachsignale, Unterschiede in mittleren
spektralen Einhüllenden verringert werden, indem aus diesen zuerst eine spektrale
Wichtungsfunktion berechnet wird, mit der die spektralen Kurzzeit-eigenschaften der
Sprachsignale in allen betrachteten Zeitsegmenten gewichtet werden, so daß die Unterschiede
in den mittleren spektralen Einhüllenden dadurch nur begrenzt in den zu berechnenden
Qualitätskennwert einfließen, und
daß für die Berechnung der Signalintensität die Grenzen der benutzten Frequenzbänder
variabel gestaltet werden, so daß für jeden betrachteten Signalabschnitt in jeweils
allen ausgewerteten Frequenzbändern die berechneten Intensitäten von Referenzsprachsignal
und zu bewertendem Signal zueinander möglichst geringe Unterschiede aufweisen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zuerst die mittleren spektralen Einhüllenden von zu bewertenden Sprachsignal und
Referenzsprachsignal in Form eines mittleren Leistungsdichtespektrums berechnet werden
und aus dem Quotienten beider Spektren eine spektrale Wichtungsfunktion WT(f) berechnet wird, mit der die Kurzzeit-Leistungsdichtespektren des Referenzsprachsignals
vor der Berechnung eines Qualitätskennwertes gewichtet werden.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die zu berechnende Wichtungsfunktion WT(f) nur aus Teilbereichen der berechneten mittleren spektralen Einhüllenden von zu
bewertenden Sprachsignal und Referenzsprachsignal berechnet wird und damit die Unterschiede
in mittleren spektralen Einhüllenden zwischen beiden Signalen nur in spektralen Teilbereichen
verringert werden.
4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß vor Berechnung der Qualitätskennwerte eine Integration der Signalintensität für jeden
ausgewerteten kurzen Zeitabschnitt in Frequenzgruppen erfolgt, wobei die Grenzen der
Frequenzgruppen auf der Frequenzachse variabel sind, aber die Breite der Frequenzgruppen
auf der Tonheitskala konstant bleibt, und daß aus den Signalintensitäten in den Frequenzgruppen
eine Berechnung der spezifischen Lautheit erfolgt, wobei die Grenzen der Frequenzgruppen
benutzt werden, bei denen die berechneten Unterschiede in der spezifischen Lautheit
zwischen dem zu bewertenden Signal und dem Referenzsprachsignal im jeweils betrachteten
Band und Zeitsegment den geringsten Unterschied aufweisen.
5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß der Qualitäts-kennwert aus der Ähnlichkeit der spektralen Darstellungen in jedem
betrachteten Zeitabschnitt berechnet wird, wobei die Ähnlichkeit einen über alle betrachteten
Zeitabschnitte gemittelten Korrelationskoeffizienten zwischen der spektralen Darstellung
des zu bewertenden Sprachsignals und der spektralen Darstellung des Referenzsprachsignals
im jeweiligen Zeitsegment darstellt.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Korrelations-koeffizient zwischen der spektralen Darstellung des zu bewertenden
Sprachsignals und der spektralen Darstellung des Referenzsprachsignals im jeweiligen
Zeitsegment nur von einem Teilbereich der spektralen Darstellung berechnet wird, d.h.
für die Berechnung des Qualitätskennwertes nicht alle berechneten Spektralwerte berücksichtigt
werden.
1. Method for instrumental speech quality determination in which characteristic values
for determining the speech quality are computed by comparing spectral short-time properties
of a speech signal to be evaluated with a reference speech
signal, characterized in that
prior to comparison of the properties of the speech signals, differences in mean spectral
envelope curves are reduced in that first a spectral weighting function is computed therefrom, said spectral weighting
function being used to weight the spectral short-time properties of the speech signals
in all time segments under consideration, with the result that the differences in
the mean spectral envelope curves are thereby included only to a limited extent in
the quality characteristic value to be computed, and
in that, for computing the signal intensity, the limits of the frequency bands used are made
variable, with the result that, for each signal portion under consideration, the computed
intensities of reference speech signal and signal to be evaluated have differences
as small as possible with respect to each other in all evaluated frequency bands.
2. Method according to claim 1, characterized in that first the mean spectral envelope curves of speech signal to be evaluated and reference
speech signal are computed in the form of a mean power density spectrum and a spectral
weighting function WT(f) is computed from the quotient of both spectra, said spectral weighting function
WT(f) being used to weight the short-time power density spectra of the reference speech
signal prior to the computation of a quality characteristic value.
3. Method according to claims 1 and 2, characterized in that the weighting function WT(f) to be computed is computed only from partial regions of the computed mean spectral
envelope curves of speech signal to be evaluated and reference speech signal and,
consequently, the differences in mean spectral envelope curves between both signals
are reduced only in spectral partial regions.
4. Method according to claims 1 to 3, characterized in that, prior to computation of the quality characteristic values, the signal intensity
for each evaluated short time portion is integrated in frequency groups, the limits
of the frequency groups being variable on the frequency axis, but the width of the
frequency groups remaining constant on the critical band rate scale, and in that from the signal intensities in the frequency groups a computation is made of the
specific loudness, use being made of the limits of the frequency groups in which the
computed differences in the specific loudness between the signal to be evaluated and
the reference speech signal have the smallest difference in the respective band and
time segment under consideration.
5. Method according to claims 1 to 4, characterized in that the quality characteristic value is computed from the similarity of the spectral
representations in each time portion under consideration, the similarity representing
a correlation coefficient averaged over all time portions under consideration between
the spectral representation of the speech signal to be evaluated and the spectral
representation of the reference speech signal in the respective time segment.
6. Method according to claim 5, characterized in that the correlation coefficient between the spectral representation of the speech signal
to be evaluated and the spectral representation of the reference speech signal in
the respective time segment is computed only from a partial region of the spectral
representation, i.e. not all the computed spectral values are taken into consideration
for the computation of the quality characteristic value.
1. Procédé de détermination instrumentale de qualité vocale, dans lequel la comparaison
des propriétés spectrales temporaires d'un signal vocal à évaluer avec un signal vocal
de référence permet de calculer des indicateurs servant à déterminer la qualité vocale,
caractérisé en ce que
avant la comparaison des propriétés des signaux vocaux, les écarts dans les enveloppes
spectrales moyennes sont réduits en calculant tout d'abord à partir de celles-ci une
fonction de pondération spectrale à l'aide de laquelle les propriétés spectrales temporaires
des signaux vocaux sont pondérées dans tous les segments de temps considérés, de sorte
que les écarts dans les enveloppes spectrales moyennes ne se répercutent que d'une
manière limitée dans l'indicatif de qualité à calculer, et
en ce que les limites des bandes de fréquence utilisées pour le calcul de l'intensité du signal
sont variables, de sorte que pour chaque segment de signal considéré, les intensités
calculées du signal vocal de référence et du signal à évaluer accusent entre elles,
dans toutes les bandes de fréquence considérées, des écarts aussi faibles que possible.
2. Procédé selon la revendication 1, caractérisé en ce que les enveloppes spectrales moyennes du signal vocal à évaluer et du signal vocal de
référence sont tout d'abord calculées sous forme d'un spectre de puissance moyen et
qu'une fonction de pondération spectrale Wτ(f) est déterminée à partir du quotient des deux spectres, avec laquelle les spectres
de puissance temporaires du signal vocal de référence sont pondérés avant le calcul
d'un indicateur de qualité.
3. Procédé selon les revendications 1 et 2, caractérisé en ce que la fonction de pondération Wτ(f) n'est calculée que pour des parties de l'enveloppe spectrale moyenne calculée
du signal vocal à évaluer et du signal vocal de référence, de sorte que les écarts
dans les enveloppes spectrales moyennes entre les deux signaux ne sont réduits que
dans certaines parties du spectre.
4. Procédé selon les revendications 1 à 3, caractérisé en ce que, avant le calcul des indicateurs de, qualité, une intégration de l'intensité du signal
a lieu en groupes de fréquences pour chaque court intervalle de temps considéré, les
limites des groupes de fréquences étant variable sur l'axe des fréquences, alors que
la largeur des groupes de fréquences reste constant sur l'échelle de tonie, et en ce que le volume sonore spécifique est calculé à partir des intensités de signal dans les
groupes de fréquences, avec utilisation des limites des groupes de fréquences pour
lesquelles les différences de volume sonore spécifique calculées entre le signal à
évaluer et le signal vocal de référence accusent la plus faible différence dans la
bande et l'intervalle de temps considérés.
5. Procédé selon les revendications 1 à 4, caractérisé en ce que l'indicateur de qualité est calculé à partir de la similitude des représentations
spectrales dans chaque intervalle de temps considéré, la similitude étant exprimée
par un coefficient de corrélation moyen pour tous les intervalles de temps considérés
entre la représentation spectrale du signal vocal à évaluer et la représentation spectrale
du signal vocal de référence dans l'intervalle de temps correspondant.
6. Procédé selon la revendication 5, caractérisé en ce que le coefficient de corrélation entre la représentation spectrale du signal vocal à
évaluer et la représentation spectrale du signal vocal de référence dans l'intervalle
de temps correspondant n'est calculé que pour une partie de la représentation spectrale,
c'est-à-dire que, pour le calcul de l'indicateur de qualité, les valeurs spectrales
calculées ne sont pas toutes prises en considération.