[0001] Die Erfindung bezieht sich auf ein Verfahren zur Bewertung von Hintergrundgeräuschen
in Sprachpausen von aufgezeichneten oder übertragenen Sprachsignalen wie in Anspruch
1 definiert.
[0002] Die empfundene Sprachqualität, z.B. in Telefonverbindungen oder Rundfunkübertragungen,
wird hauptsächlich von sprachsimultanen Störungen, also von Störungen während der
Sprachaktivität, bestimmt. Aber auch Geräusche in den Sprachpausen gehen in das Qualitätsurteil
ein, insbesondere bei hochqualitativer Sprachwiedergabe.
[0003] Die Intensität des Hintergrundgeräusches in den Sprachpausen kann als ergänzender
Kennwert zur Bestimmung der Sprachqualität (Sprachgüte) verwendet werden.
[0004] Sprachqualitätsbestimmungen von Sprachsignalen werden in der Regel mittels auditiver
("subjektiver") Untersuchungen mit Versuchspersonen vorgenommen.
[0005] Das Ziel von instrumentellen ("objektiven") Verfahren zur Sprachqualitätsbestimmung
ist es dagegen, aus Eigenschaften des zu bewertenden Sprachsignals mittels geeigneter
Rechenverfahren Kennwerte zu ermitteln, die die Sprachqualität des Sprachsignals beschreiben,
ohne auf Urteile von Versuchspersonen zurückgreifen zu müssen.
[0006] Eine sichere Qualitätsbestimmung liefern instrumentelle Verfahren, die auf einem
Vergleich von ungestörtem Referenzsprachsignal (Quellsprachsignal) und dem gestörten
Sprachsignal am Ende der Übertragungskette beruhen. Es existieren viele solcher Verfahren,
die meist in sogenannten Probeverbindungssystemen eingesetzt werden. Dabei wird an
der Quelle das ungestörte Quellsprachsignal eingespeist und nach der Übertragung wieder
aufgezeichnet.
Stand der Technik und Nachteile bekannter Verfahren
[0007] Bekannte Verfahren zur Bestimmung der Intensität von Hintergrundgeräuschen gehen
meist vom gestörten Signal selbst aus und nutzen eine festgelegte Intensitätschwelle
zur Unterscheidung von aktiver Sprache und Sprachpausen (Fig. 1). Diese Schwelle ist
im einfachsten Fall konstant im Verfahren eingestellt, kann aber auch anhand des Signalverlaufs
adaptiert werden (z.B. festgelegter Abstand zum Signal-Spitzenwert). Das Ziel ist
eine sichere Unterscheidung zwischen Sprache und Sprachpause. Gelingt die Unterscheidung,
können die gesuchten Intensitätskennwerte des Hintergrundgeräuschs aus den als Sprachpause
detektierten Signalabschnitten bestimmt werden. Dazu werden im Allgemeinen die als
Sprachpause detektierten Signalabschnitte nochmals in kürzere Segmente (typisch sind
8...40ms) unterteilt und für diese die Intensitätsberechnungen (z.B. Effektivwert
oder Lautheit) vorgenommen. Aus den Ergebnissen können dann Intensitätskennwerte bestimmt
werden.
[0008] Die Verfahren liefern bei geringen Geräuschintensitäten in Sprachpausen und gleichzeitig
hoher Intensität der Sprache (großes Sprach-Geräusch-Verhältnis) sichere Meßwerte,
da die Unterscheidung zwischen Sprache und Sprachpause sicher erfolgen kann (Fig.1
).
[0009] Bei steigenden Geräuschintensitäten in Sprachpausen (abnehmendes Sprach-Geräusch-Verhältnis)
treten zunehmend Unsicherheiten in der Unterscheidung zwischen Sprache und Sprachpausen
auf. Hier ist es schwierig den Schwellenwert so festzulegen, dass zum einen keine
Geräuschabschnitte mit höheren Intensitäten als Sprache detektiert werden (Schwelle
zu niedrig) und zum anderen keine Sprachabschnitte geringerer Intensität als Sprachpause
gewertet werden (Schwelle zu hoch) (Fig. 2).
[0010] Erreicht die Intensität des Geräusches in den Sprachpausen die Intensität der aktiven
Sprache oder übersteigt diese sogar, ist keine Intensitätsschwelle zu finden, die
eine Unterscheidung zwischen Sprache und Sprachpause ermöglicht.
[0011] Lösungen für die beschriebenen Probleme sind möglich, wenn z.B. unterschiedliche
spektrale Charakteristika von Sprache und Hintergrundgeräuschen vorliegen. Hier kann
durch geeignete, Vorfilterung des Signals bzw. durch eine spektrale Analyse und Auswertung
von ausgewählten Frequenzbändern ein höheres Verhältnis von Sprache zu Hintergrundgeräusch
in den betrachteten Frequenzbereichen erreicht werden, so dass wieder eine sichere
Unterscheidung zwischen aktiver Sprache und Sprachpause möglich ist.
[0012] Andere Lösungen bedienen sich bestimmter Parameter, die bei Sprachcodierung ermittelt
werden und nutzen diese zur Unterscheidung zwischen Sprache und Abschnitten mit Hintergrundgeräuschen.
Dabei ist es das Ziel, aus den Parametern abzuleiten, ob das betrachtete Signalsegment
typische Eigenschaften von Sprache (z.B. stimmhafte Anteile) aufweist. Ein Beispiel
hierfür ist "Voice-Activity Detector" (ETSI Recommendation GSM 06.92, Valboune, 1989).
[0013] Diese Verfahren arbeiten bei geringen Sprach-Geräusch-Verhältnissen robuster und
werden vorrangig zur Unterdrückung der Übertragung von Sprachpausen z.B. im Mobilfunk
eingesetzt. Die Verfahren zeigen jedoch Unsicherheiten, wenn das Hintergrundgeräusch
selbst Sprache beinhaltet oder sprachähnlich ist. Solche Abschnitte werden dann als
Sprache klassifiziert, obwohl sie von einem Zuhörer als störendes Hintergrundgeräusch
empfunden werden.
[0014] Instrumentelle Sprachqualitätsmessverfahren basieren meist auf dem Prinzip des Signalvergleichs
von ungestörtem Referenzsprachsignal und gestörtem und zu bewertenden Signal. Beispiele
hierfür sind die Veröffentlichungen:
"A perceptual speech-quality measure based on a psychacoustic sound representation"
(Beerends, J. G.; Stemerdink, J. A., J. Audio Eng. Soc. 42(1994)3, S. 115-123)
"Auditory distortion measure for speech coding" (Wang, S; Sekey, A.; Gersho, A.: IEEE
Proc. lnt. Conf. acoust., speech and signalprocessing (1991), S.493-496).
[0015] Der derzeit gültige ITU-T Standard P.861 beschreibt ebenfalls ein derartiges Verfahren:
"Objective quality measurement of telephone-band speech codecs" (ITU-T Rec. P.861,
Genf 1996).
[0016] Solche Messverfahren werden in sogenannten Probeverbindungssystemen eingesetzt, bei
denen ein bekanntes Referenzsprachsignal (Quellsprachsignal) an der Quelle eingespeist,
über z. B. eine Telefonverbindung übertragen und an der Senke aufgezeichnet wird.
Nach der Aufzeichnung des Sprachsignals werden zur Bewertung der Sprachqualität des
möglicherweise gestörten Signals dessen Eigenschaften mit denen des ungestörten Quellsprachsignals
verglichen.
[0017] Steht für die Bestimmung des Hintergrundgeräuschs in Sprachpausen das ungestörte
Quellsprachsignal zur Verfügung, dann kann dieses zur Festlegung der Übergangszeitpunkte
von Sprache zur Sprachpause bzw. von Sprachpause zur Sprache benutzt werden. Dazu
wird z.B. ein Verfahren mit Schwellwertbestimmung - wie oben beschrieben - auf das
Quellsprachsignal angewandt. Das Verfahren liefert sichere Unterscheidungen zwischen
Sprache und Sprachpause, da das Sprach-Geräusch-Verhältnis im ungestörten Quellsprachsignal
ausreichend hoch ist (Fig. 3a). Die Zeitpunkte der Schwellpassage, d.h. Beginn bzw.
Ende der Sprachaktivität, können nun auf das gestörte Sprachsignal übertragen werden
(Fig. 3b).
[0018] Unproblematisch kann ein solches Verfahren modifiziert werden, wenn zwischen Quellsprachsignal
und gestörtem Signal eine konstante Zeitdifferenz (z.B. Verzögerung durch Signalübertragung)
eintritt. Bedingung ist aber, dass diese Zeitdifferenz vorab sicher bestimmt werden
kann und dann zur Korrektur der Zeitpunkte Ende bzw. Beginn der Sprachaktivität genutzt
wird. Das ist meist bei zeit-invarianten Systemen möglich, da diese eine konstante
Verzögerung besitzen (Fig. 3c).
Prinzipiell funktioniert ein solches Verfahren auch, wenn der Zeitversatz zwischen
beiden Signalen nicht für die gesamte Signallänge konstant ist, sondern variabel verläuft.
Zu diesen zeit-invarianten Systemen zählen insbesondere paket-basierte Übertragungssysteme,
bei denen durch unterschiedliche Paketlaufzeiten und entsprechendes Management im
Empfänger deutliche Schwankungen in der Systemverzögerung auftreten können. Um Verlusten
durch verspätet eintreffende Pakete vorzubeugen, werden teilweise Sprachpausen im
Empfänger verlängert und spätere wieder verkürzt. Eine Übertragung der Zeitpunkte
von Beginn bzw. Ende der Sprachaktivität ist nur noch bei Kenntnis der aktuellen Verzögerung
an diesen Punkten möglich. Die adaptive Bestimmung des Zeitversatzes ist rechenzeitintensiv
und gelingt insbesondere bei verringerten Sprach-Geräusch-Verhältnissen oft nur unzureichend.
Wenn die adaptive Bestimmung des Zeitversatzes nicht sicher gelingt, können Anfang
und Ende von Sprachpausen nicht exakt oder gar nicht ermittelt werden. Dadurch ist
keine oder nur eine unsichere Bestimmung der Intensitätskennwerte von Pausengeräuschen
möglich.
[0019] Beispiele von der Bestimmung von Hintergrundgeräuschen gemäß dem Stand der Technik
sind von US6044342A, US5598466A, WO0052683A und US4811404A bekannt.
Aufgabe
[0020] Wie beschrieben, ist die Bestimmung von Hintergrundgeräuschen in Sprachpausen auch
bei Kenntnis des ungestörten Quellsprachsignals schwierig oder teilweise unmöglich,
insbesondere wenn
- ein geringes Verhältnis von Sprache zu Hintergrundgeräusch vorliegt,
- das Hintergrundgeräusch Sprache beinhaltet oder selbst sprachähnlich ist,
- der Zeitversatz zwischen ungestörtem Quellsprachsignal und gestörtem Sprachsignal
nicht konstant über die gesamte Signallänge ist.
[0021] Es soll ein Verfahren vorgestellt werden, mit dem auch unter den genannten Bedingungen
eine sichere und schnelle Bestimmung von Intensitätskennwerten des Hintergrundgeräuschs
in Sprachpausen gewährleistet wird. Bedingung ist, dass sowohl Quellsprachsignal als
auch gestörtes Sprachsignal vollständig aufgezeichnet zur Verfügung stehen.
Lösungsprinzip
[0022] Die bekannten Verfahren gehen davon aus, den Zeitpunkt von Beginn und Ende einer
Sprachpause möglichst exakt zu ermitteln. Im Ergebnis steht dann das Signal von den
Pausenabschnitten zur weiteren Auswertung zur Verfügung. Aus diesen separierten Pausenabschnitten
des Signals werden die Intensitätskennwerte ermittelt.
[0023] Mit dem vorliegenden Verfahren können Intensitätskennwerte von Hintergrundgeräuschen
in Sprachpauscn von Sprachsignalen bestimmt werden, ohne dass die exakten Zeitpunkte
von Beginn und Ende eines Pausenabschnitts ermitteln werden müssen. Auch ist eine
Separierung des Sprachpausensignals für die Auswertung nicht erforderlich.
[0024] Basis für das hier beschriebene Verfahren zur Bestimmung von Intensitätskennwerten
von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen ist die kumulative Häufigkeitsverteilung
der Intensitätswerte von den Signalsegmenten, in die das Sprachsignal zuvor unterteilt
wird. Diese Kurzzeit-Signalintensitäten beziehen sich auf Signalsegmente mit einer
Dauer von z.B. 8ms oder 16ms. Die Häufigkeitsverteilung gibt an, wie hoch der Anteil
an Kurzzeit-Intensitäten unterhalb eines definierten Schwellwertes ist.
[0025] Für die Berechnung der Häufigkeitsverteilung wird das zu analysierende Sprachsignal
in kurze aufeinanderfolgende Signalsegmente unterteilt und von jedem Signalsegment
der Intensitätswert (z.B. Lautheit oder Effektivwert) bestimmt.
[0026] Fig. 4 zeigt einen typischen Kurvenverlauf für Sprachsignale mit stationärem Hintergrundgeräusch
(Sprach-Geräusch-Abstand ca. 10dB). Die kumulative Häufigkeitsverteilung ist am Beispiel
von Kurzzeit-Lautheiten (Lautheiten berechnet nach ISO532) dargestellt. Ausgewertet
wurden 2000 Segmente von 16ms Länge. Es ist zu erkennen, dass keines der Segmente
einen geringeren Wert als 30 sone aufweist (P = 0 %) und auch kein Segment eine höhere
Lautheit als 80 sone erreicht, da hier schon der Wert P=100 % erreicht wird. Der steile
Anstieg der Funktion bei ca. 30 sone lässt auf eine geringe Fluktuation der Signalintensität
in großen Bereichen (fast 70%) des Signals schließen. Als Signal wurde hier ein Sprachsignal
mit additiven weißen Rauschen benutzt.
[0028] Wird davon ausgegangen, dass das Verhältnis von aktiver Sprache zu Sprachpausen während
der Übertragung weitgehend konstant bleibt, kann dieser Wert auch auf das gestörte
Signal übertragen werden.
[0029] Ist der Anteil an Sprachpausen am gesamten Sprachsignal bekannt und wird dieser Anteil
als Häufigkeitsschwelle definiert, so kann aus der Häufigkeitsverteilung der Kurzzeit-Intensitäten
der der Häufigkeitsschwelle entsprechende Intensitätsschwellwert ermittelt werden.
[0030] In Fig. 4 ist als Beispiel ein Anteil an Sprachpausen von 58 % eingetragen. Dieser
Häufigkeitsschwelle
Pz =
0.58 entspricht ein Intensitätsschwellwert von
N = 34.5 sone, das bedeutet, dass von 58 % der Signalsegmente der Intensitätswert (Lautheit) von
34,5 sone nicht überschritten wird.
[0031] Der Bereich unterhalb des Intensitätsschwellwertes zeigt die Häufigkeitsverteilung
für Intensitätswerte von Signalsegmenten in den Sprachpausen und kann für die Ermittlung
von Intensitätskennwerten von den Hintergrundgeräuschen in den Sprachpausen benutzt
werden.
[0032] Es wird davon ausgegangen, dass kein Sprachpausensegment einen höheren Intensitätswert
als ein Sprachsegment besitzt, so dass der Intensitätsschwellwert als Maximalwert
für das Hintergrundgeräusch in Sprachpausen angesehen werden kann.
Ermittlung des arithmetischen Mittelwertes von Intensitäten
[0033] Aus der kumulativen Verteilungsfunktion lässt sich auch der arithmetische Mittelwert
aller Segmente ableiten, deren Intensitäten sich unter einer vorher ermittelten Häufigkeitsschwelle
befinden. Dazu ist zunächst eine Differenzierung der kumulativen Verteilungsfunktion
P(x) in eine Verteilungsdichtefunktion
p(x) vorzunehmen.
Das arithmetische Mittel aller ausgewerteten Intensitäten Xdes Gesamtsignals berechnet
sich wie bekannt aus dem Integral der Verteilungsdichtefunktionp(x):

[0034] Eine Begrenzung der Integration bei einem bestimmten Wert
xG ermöglicht die Ermittlung des arithmetischen Mittelwertes über alle Werte
X, die unter diesem Grenzwert liegen. Dabei ist jedoch das Ergebnis mit der Häufigkeit
P(xG) zu wichten. Diese Häufigkeit entspricht dem Integral über
p(x) bis zum Wert
xG.
[0035] Der Intensitätsschwellwert
xG kann aus der Verteilungsfunktion
P(x) abgeleitet werden. Im Beispiel nach Fig. 4 ist der Häufigkeitsschwellwert
P(xG) der Anteil von Sprachpausen im Gesamtsignal
Pz =
0.58 , dem der Intensitätsschwellwert
xG =
34.5 sone zugeordnet ist. Das arithmetische Mittel aller Segmente mit einer Intensität, die
geringer als
xG ist, berechnet sich nach Gl. 2, wobei
xG =
34.5 sone gilt. Die Häufigkeit von 58% entspricht hier dem Wichtungswert
P(xG=
34.5) =
0.58. Grafisch ist dieses Vorgehen in Fig. 5 dargestellt.
[0036] Wird nun wieder davon ausgegangen, dass die Intensitäten von Segmenten in Sprachpausen,
die Intensitäten von Sprachsegmenten nicht übersteigen oder das Hintergrundgeräusch
nur schwache zeitliche Fluktuationen aufweist, kann der berechnete arithmetische Mittelwert
als Mittelwert der Intensität in Sprachpausen betrachtet werden.
Vereinfachtes Verfahren zur Bestimmung des arithmetischen Mittelwertes
[0037] Ein vereinfachtes Verfahren zur Bestimmung des Mittelwertes über alle X geht von
der Annahme aus, dass die relative Häufigkeitsverteilung der Intensitätswerte der
Signalsegmente im Bereich
P(x) =
0 bis zum Häufigkeitsschwellwert von Sprachpausen
Pz durch eine gewichteten Normalverteilung
G(x, µ σ2) angenähert werden kann. Der Wert für die Verteilungsfünktion
G(x, µ, σ
2) für
x→∞ ist 1. Wie bekannt, entspricht der Wert
x, bei dem gilt
G(x, µ, σ2) =
0.5, dem arithmetischen Mittel über alle Einzelwerte
X.
[0038] Gelingt eine Näherung der relativen Häufigkeitsverteilung
P(x) im Bereich von
P(x) =
0 bis
Pz mit einer gewichteten Normalverteilung κ
Pz G(x, µ, σ2), dann entspricht der arithmetische Mittelwert über
X für die gewichtete Normalverteilung dem Wert
x für den gilt:
G(x, µ σ2) =
0.5 κ
Pz. Durch die Annahme, dass
κPz G(x, µ, σ2) die Verteilung
P(x) im Bereich von
P(x) =
0 bis
Pz gut annähert und κ ≥ 1 ist, entspricht der gesuchte arithmetische Mittelwert dem
Wert
xA, für den gilt
P(xA) =
0.5 κ
Pz.
[0039] Für den hier betrachteten Anwendungsfall von Sprache mit additivem Hintergrundgeräusch
zeigen Werte für κ=
1... 1.3 gute Approximationsergebnisse. In Fig. 6 ist ein Beispiel für die Annäherung durch
gewichtete Normalverteilungen gezeigt. Dabei wurde ein Wert κ =1. 1 gewählt. Das Diagramm
zeigt Sprache als Hintergrundgeräusch und hat einen Sprachpausenanteil von 58 %. Die
starke zeitliche Fluktuation des Sprachhintergrundes lässt sich deutlich als flachere
Steigung im Bereich N = 0 ... 40 sone erkennen. Der arithmetische Mittelwert, der
aus der Normalverteilungsfunktion mit P(x
A) = 0,5 κ P
z = 0,32 abgeleitet wird, beträgt 20 sone.
[0040] Der Vorteil dieses vereinfachten Verfahrens ist die geringere Rechenintensität, da
auf die Berechnung der Verteilungsdichte und deren Integration verzichtet werden kann.
Es ist ebenfalls nicht notwendig, die Normalverteilungsfunktion
κPz G(x, µ, σ
2) exakt zu bestimmen, es genügt bereits die Festlegung von κ. Da
Pz bekannt ist, wird der Mittelwert über alle
X < xG als Wert
xA bestimmt, bei dem gilt
P(xA) =
0.5 κPz . Der arithmetische Mittelwert über alle
X bis
xG entspricht somit dem Intensitätswert, der einem Häufigkeitswert von
0.5 *
κ * Anteil der Sprachpausen am Gesamtsignal entspricht, d.h. der Intensität, die von einem Anteil von Segmenten
von
0.5 * κ* Anteil der Sprachpausen nicht überschritten wird.
Bestimmung weiterer statistischer Kennwerte
[0041] Auch andere statistische Intensitätskennwerte können mit diesem Verfahren ermittelt
werden. In Fig. 7 ist am Beispiel aus Fig. 4 demonstriert, wie aus der Funktion der
Intensitätswert ermittelt werden kann, der von nur 20% der Sprachpausensegmente überschritten
wird ( 20%-Perzentil-Lautheit).
[0042] Im angeführten Beispiel wird der Intensitätswert gesucht, der von 80% der Segmente
in Sprachpausen unterschritten wird, d.h. gesucht wird der Abszissenwert, der für
den Ordinatenwert
P =
0.58 *
0.8 =
0.46 gilt. Der Wert ist aufgrund des im Beispiel gewähren wenig schwankenden Störgeräusches
nur wenig geringer als der Maximalwert.
Ausführungsbeespiel für die Bestimmung des arithmetischen Mittelwertes aus der Verteitungsdichtefunkfion
[0043] Das hier vorgestellte Ausführungsbeispiel des Verfahrens zur Intensitätsbestimmung
von Hintergrundgeräuschen ermittelt den arithmetischen Mittelwert aller Lautheiten
der Segmente, die unter einer bestimmten Häufigkeitsschwelle liegen. Diese Häufigkeitsschwelle
entspricht dem Anteil an Sprachpausen im Signal und der errechnete arithmetische Mittelwert
wird als mittlere Lautheit in Sprachpausen betrachtet. Dazu wird in diesem Ausführungsbeispiel
die Verteilungsdichtefunktion benutzt.
[0044] Vorbedingung ist, dass beide Signale, d.h. das ungestörte Quellsprachsignal und das
gestörte zu bewertende Signal, vollständig aufgezeichnet vorliegen.
[0045] Zunächst wird mittels einer geeigneten Schwelle anhand des Quellsprachsignals der
Anteil an Sprachpausen
Pz in diesem Signal bestimmt.
[0046] Der zweite Schritt ist die Berechnung der gewünschten Intensitätswerte für aufeinanderfolgende
kurze Signalsegmente des zu bewertenden Sprachsignals. In diesem Ausführungsbeispiel
werden die Lautheiten nach ISO532 in aufeinander folgenden Signalabschnitten von 16ms
Länge berechnet. Die Verteilungsfunktion wird durch eine Reihe von Einzelwerten (diskrete
relative Häufigkeitsverteilung) angenähert. Diese Einzelwerte werden durch aufeinander
folgende Indexe m bezeichnet. Die Reihe von Einzelwerten ist bei einem Maximalwert
M begrenzt (z.B.:
P0 ... P200). In der Auswertung wird jeder Einzelwert
Pm- dessen Index die ermittelte Intensität
X des ausgewerteten Signalsegments übersteigt - um den Zähler 1 erhöht. Nach Auswertung
des gesamten Signals werden alle Einzelwerte durch die Anzahl aller ausgewerteten
Signal-segmente dividiert. Jeder Einzelwert
Pm enthält dann die relative Häufigkeit der Signal-segmente, die eine Lautheit kleiner
als der Wert des Indexes aufweisen.
[0047] Anhand des vorher ermittelten Anteils an Sprachpausen
Pz, wird derjenige Häufigkeitswert
Ps ermittelt, welcher die geringste absolute Differenz zu
Pz besitzt. Der Index
S dieses Einzelwertes
Ps gibt die entsprechende Lautheit an, d.h. der Lautheit, die von einem Anteil
Ps aller Segmente nicht überschritten wird. Zur Bestimmung des arithmetischen Mittels
der Lautheiten aller Segmente, deren Lautheiten sich unter der vorgegebenen Häufigkeitsschwelle
Ps befinden, ist als nächstes die Umwandlung der diskreten Häufigkeitsverteilung
P0... PM, in eine diskrete Häufigkeitsdichte (Streifenhäufigkeit)
p0 ... pM-1 vorzunehmen. Dazu werden die Differenzen zweier aufeinanderfolgender Einzelwerte
gebildet und als Wertefolge
p0 ...
pN-1 abgelegt:

[0048] Der Wert
pm enthält dann die relative Häufigkeit der Segmente, deren Lautheit sich zwischen
m und
m+1 befindet. Der gesuchte arithmetische Mittelwert entspricht der gewichteten Summe
über die Streifenhäufigkeit
Pm bis
m =
S, d.h. der Lautheit, die von einem Anteil
Ps aller Segmente nicht überschritten wird:

[0049] Der Korrekturwert ½ entspricht dem halben Abstand zweier aufeinander folgender Indexe.
Der Wert
pm enthält die relative Häufigkeit von Segmenten, deren Lautheiten sich zwischen
m und
m+1 befinden. Der Erwartungswert aller hier erfassten Lautheiten ist, bei angenommener
Gleichverteilung der Lautheiten von
m ....m+1, daher
m+0.5.
[0050] Das Verfahren liefert wie im Anwendungsfall beschrieben, eine diskrete Häufigkeitsverteilung
mit einer Auflösung
l sone, da der Index
m ganzahlig ist und die Lautheitswerte direkt den entsprechenden Indexen zugeordnet
werden. Um gegebenenfalls andere höhere oder verringerte Auflösungen zu erzielen ist
der Lautheitswert vor Berechnung der relativen Häufigkeitsverteilung mit entsprechenden
Faktoren zu multiplizieren.
[0051] Zur Demonstration der Messsicherheit des vorgestellten Verfahrens sind in Tabelle
1 Messwerte für verschiedene Signale und Hintergrundgeräusche aufgeführt. Es wurde
Sprachsignale von 32 s Länge und verschiedenem Anteil an Sprachpausen (35%, 58% und
91%) jeweils mit verschiedenen Geräuschen gemischt. Als Geräusche wurde zunächst weißes
Rauschen mit verschiedenen Sprach-Geräusch-Abständen benutzt. Des weiteren wurde auch
kontinuierlich gesprochene Sprache sowie zwei Geräusche aus realen akustischen Umgebungen
(Straße und Büro) eingesetzt.
[0052] Vor Berechnung der Häufigkeitsverteilung wird eine Multiplikation aller Lauheitswerte
mit dem Faktor 2 durchgeführt, um die Auflösung der Darstellung bei Benutzung ganzzahliger
Indexe zu erhöhen. Dies entspricht dann einer Lautheitsstufung bei ganzzahligen Indexen
von
0.5 sone. Mit einer Begrenzung der Häufigkeitsverteilungsfunktion bei
P200, können so Lautheiten von
0 ...
100 sone in Schritten von
0.5 sone abgebildet werden. Es ist aber zu beachten, dass dieser Faktor als Divisor zur Korrektur
auf alle Ergebnisse angewendet wird muss. Im hier gewählten Ausführungsbeispiel bedeutet
dies, dass der errechnete arithmetische Mittelwert durch 2 zu teilen ist.
[0053] Erläuterungen zu Tabelle 1: Der Sprach-Geräusch-Abstand dient lediglich zur Information;
Grundlage bildet der Abstand des mittleren Efiektivpegels bei Sprachaktivität zum
mittleren Effektivpegel des Hintergrundgeräusches. Der mittlere Lautheitswert (Zielwert)
wurde in einer Referenzmessung bestimmt, bei der die Sprachpausen manuell markiert
und in Segmenten zu 16 ms ausgewertet wurden. Die berechneten Standardabweichungen
beziehen sich auf die derart gemessenen Referenz-Lautheiten und geben Information
über die Stärke der auftretenden Fluktuationen. Die Messwerte in Spalte 5 wurden mit
dem in diesem Ausführungsbeispiel beschriebenen Verfahren ermittelt.
Tabelle 1
| Geräusch |
SNR |
mittlere Lautheit (sone) Zielwert |
Standard-abweichung der Segment-Lautheiten |
mittlere Lautheit (sone) gemessen mit beschriebenenVerfahren |
Abweichung (Messfehler) abs. / rel. |
| Pausenanteil des Sprachsignals 91% |
| weißes Rauschen |
6 dB |
41.4 |
1.55 |
42.0 |
0.6 / 1.4% |
| weißes Rauschen |
10 dB |
32.3 |
1.22 |
32.6 |
0.3/0.9% |
| weißes Rauschen |
16 dB |
22.2 |
0.87 |
22.3 |
0.1 / 0.4% |
| |
|
|
|
|
|
| Sprache |
6 dB |
21.3 |
11.7 |
20.6 |
-0.7/-3.3% |
| Sprache |
10 dB |
16.5 |
9.16 |
16.2 |
-0.3/-1.8% |
| Sprache |
16 dB |
11.2 |
6.21 |
11.3 |
0.1/0.9% |
| |
|
|
|
|
|
| Straßengeräusch |
10 dB |
26.0 |
3.22 |
26.2 |
0.2/0.8% |
| Bürogeräusch |
10 dB |
26.3 |
2.78 |
26.6 |
0.3/1.1% |
| Pausenanteil des Sprachsignals 58% |
| weißes Rauschen |
6 dB |
41.3 |
1.55 |
44.8 |
3.5/8.5% |
| weißes Rauschen |
10 dB |
32.3 |
1.22 |
34.2 |
1.9/6.0% |
| weißes Rauschen |
16 dB |
22.1 |
0.87 |
22.6 |
0.5/2.2% |
| |
|
|
|
|
|
| Sprache |
6 dB |
20.7 |
11.7 |
19.0 |
-1.7/-8.2% |
| Sprache |
10 dB |
16.0 |
9.16 |
15.4 |
-0.6 /-3.8% |
| Sprache |
16 dB |
10.7 |
6.21 |
10.8 |
0.1 / 0.9% |
| |
|
|
|
|
|
| Straßengeräusch |
10 dB |
26.1 |
3.22 |
27.0 |
0.9/3.4% |
| Bürogeräusch |
10 dB |
26.3 |
2.78 |
27.3 |
1.0 / 3.8% |
| Pausenanteil des Sprachsignals 35% |
| weißes Rauschen |
6 dB |
41.3 |
1.55 |
46.1 |
4.8 / 11.6% |
| weißes Rauschen |
10 dB |
32.3 |
1.22 |
35.6 |
3.3 / 10.2% |
| weißes Rauschen |
16 dB |
22.1 |
0.87 |
23.3 |
1.2/5.4% |
| |
|
|
|
|
|
| Sprache |
6 dB |
20.0 |
11.22 |
17.6 |
-2.4./ -12% |
| Sprache |
10 dB |
15.6 |
8.7 |
15.0 |
-0.6 / -3.8% |
| Sprache |
16 dB |
10.9 |
5.93 |
11.8 |
0.9/8.3% |
| Straßengeräusch |
10 dB |
26.1 |
3.22 |
27.3 |
1.2/4.6% |
| Bürogeräusch |
10 dB |
26.3 |
1.78 |
27.9 |
1.6/6.1% |
[0054] Zunächst ist festzustellen, dass die Messsicherheit mit zunehmenden Pausenanteil
im zu bewertenden Signal zunimmt. Eine Zunahme der Messsicherheit ist ebenfalls bei
sinkender Geräuschintensität sowie geringerer zeitlicher Fluktuation des Hintergrundgeräusches
festzustellen. Ausgehend von einem typischen Anteil an Sprachpausen in einer Telefonkommunikation
von
Pz>
50% sind die mit dem vorgestellten Verfahren erreichten Messwerte selbst bei stärkeren
Fluktuationen im Hintergrundgeräusch (z.B. Sprache) zufriedenstellend.
Ausführungsbeispiel für die Bestimmung des arithmetischen Mittelwertes mit vereinfachtem
Verfahren
[0055] Dieses spezielle Ausführungsbeispiel zeigt eine Anwendung des beschriebenen vereinfachten
Verfahren zur Bestimmung des arithmetischen Mittels unter Nutzung einer gewichteten
Normalverteilung.
[0056] Das vereinfachte Verfahren verzichtet auf die Berechnung der Streifenhäufigkeit und
leitet einen Schätzwert für das arithmetisches Mittel der Lautheiten aller Segmente,
deren Lautheiten sich unter der vorgegebenen Häufigkeitsschwelle
Pz befinden, direkt aus der relativen Häufigkeitsverteilung
Pm ab. Wie beschrieben muss lediglich der Wert κ für die Schätzung festgelegt werden.
[0057] in diesem Ausführungsbeispiel wird mit κ= 1.1 definiert. Der Schätzwert entspricht
dann dem Lautheitswert, der von einem Anteil von
0.5 *
1.1 *
Pz aller ausgewerteten Segmente nicht überschritten wird. Im Ausführungsbeispiel entspricht
dieser Schätzwert des arithmetischen Mittels der Lautheiten, dem Index m des Häufigkeitswertes,
welcher die geringste absolute Differenz zu
0.55 Pz besitzt. In Tabelle 2 sind die Messwerte aufgeführt, die mit diesem vereinfachten
Verfahren gewonnen worden. Auch hier wurden zur Erhöhung der Auflösung auf
0.5 sone alle Lautheitswerte vor Berechnung der Häufigkeitsverteilung mit dem Faktor 2 multipliziert
und die Ergebnisse entsprechend korrigiert.
Tabelle 2
| Geräusch |
SNR |
mittlere Lautheit (sone) Zielwert |
Standard-abweichung der Segment-Lautheiten |
mittlere Lautheit (sone) gemessen mit vereinfachtem Verfahren |
Abweichung (Messfehler) abs. / rel. |
| Pausenanteil des Sprachsignals 91% |
| weißes Rauschen |
6 dB |
41.4 |
1.55 |
41.5 |
0.1/0.2% |
| weißes Rauschen |
10 dB |
32.3 |
1.22 |
32.5 |
0.2/0.6% |
| weißes Rauschen |
16 dB |
22.2 |
0.87 |
22.5 |
0.3/ 1.3% |
| |
|
|
|
|
|
| Sprache |
6 dB |
21.3 |
11.7 |
20.5 |
-0.8/-3.8% |
| Sprache |
10 dB |
16.5 |
9.76 |
16.5 |
0.0/0.0% |
| Sprache |
16 dB |
11.2 |
6.21 |
11.0 |
-0.2/1.8% |
| |
| Straßengeräusch |
10 dB |
26.0 |
3.22 |
26.0 |
0.0 / 0.0% |
| Bürogeräusch |
10 dB |
26.3 |
2.78 |
26.5 |
0.2/0.6% |
| |
|
|
|
|
|
| Pausenanteil des Sprachsignals 58% |
| weißes Rauschen |
6 dB |
41.3 |
1.55 |
41.50 |
0.2/0.5% |
| weißes Rauschen |
10 dB |
32.3 |
1.22 |
32.5 |
0.2/0.6% |
| weißes Rauschen |
16 dB |
22.1 |
0.87 |
22.5 |
0.4 / 1.8% |
| |
|
|
|
|
|
| Sprache |
6 dB |
20.7 |
11.7 |
20.0 |
-0.7/-3.4% |
| Sprache |
10 dB |
16.0 |
9.16 |
16.0 |
0.0/0.0% |
| Sprache |
16 dB |
10.7 |
6.21 |
11.0 |
0.3/2.8% |
| |
|
|
|
|
|
| Straßengeräusch |
10 dB |
26.1 |
3.22 |
26.0 |
-0.1 /-0.4% |
| Bürogeräusch |
10 dB |
26.3 |
2.78 |
26.5 |
0.2/0.8% |
| |
|
|
|
|
|
| Pausenanteil des Sprachsignals 35% |
| weißes Rauschen |
6 dB |
41.3 |
1.55 |
41.0 |
-0.3/0.7% |
| weißes Rauschen |
10 dB |
32.3 |
1.22 |
32.5 |
0.2/0.6% |
| weißes Rauschen |
16 dB |
22.1 |
0.87 |
22.5 |
0.4/ 1.8% |
| |
|
|
|
|
|
| Sprache |
6 dB |
20.0 |
11.12 |
19.0 |
-1.0/-5% |
| Sprache |
10 dB |
15.6 |
8.7 |
15.5 |
-0.1 / -0.6% |
| Sprache |
16 dB |
10.9 |
5.93 |
11.5 |
0.6/5.5% |
| |
|
|
|
|
|
| Straßengeräusch |
10 dB |
26.1 |
3.22 |
25.5 |
-0.6/-1.4% |
| Bürogeräusch |
10 dB |
26.3 |
2.78 |
26.5 |
0.2 / 0.8% |
[0058] Das vereinfachte Verfahren spart nicht nur Rechenzeit sondern liefert in den ausgewerteten
Beispielen Messwerte mit einer deutlich höheren Genauigkeit im Vergleich zu den Werten
aus Tabelle 1. Da als Schätzwert direkt der Index
m benutzt wird, ist die Genauigkeit der Schätzung auf die Auflösung der relativen diskreten
Häufigkeitsverteilung (hier:
0.5 sone) begrenzt.
[0059] Mit dem beschriebenen vereinfachten Messverfahren werden auch bei Geräuschen mit
stärkerer Fluktuation gute Messwerte erzielt. Bei den gewählten Sprach-Geräusch-Abständen
von
6dB kann auch nicht mehr davon ausgegangen werden, dass alle Lautheiten in Sprachpausen
eine geringere Lautheit als Sprachsegmente aufweisen. Trotzdem sind die Messwerte
kaum verfälscht wurden. Das beschriebene vereinfachte Verfahren eignet sich zudem
auch für Signale mit geringerem Pausenanteil.
Ausführungsbeispiel für die Bestimmung von Perzentil-Lautheiten aus der relativen
Häufigkeitsverteitung
[0060] Die Perzentil-Lautheit aller Segmente, die unter einer bestimmten Häufigkeitsschwelle
Pz liegen, kann durch Multiplikation dieser relativen Häufigkeit
Pz mit einem Wert 1 -
Perzentilwert erfolgen (z.B. 10%-Perzentil-Lautheit:
PZ10% =
0.9 *
Pz). Der ganzzahlige Index
m des Häufigkeitswertes
Pm, welcher die geringste absolute Differenz zu
PS10% besitzt, liefert den gesuchten Perzentil-Lautheitswert.
[0061] In Tabelle 3 sind für die bereits in den Tabellen 1 und 2 aufgeführten Beispiele
die 10%-Perzentil-Lautheiten auf geführt und werden mit einem manuell bestimmten Referenzwert
verglichen.
Tabelle 3
| Geräusch |
SNR |
10%-Perzentil-Lautheit (sone) Zielwert |
Standard-abweichung der Segment-Lautheiten |
10%-Perzentil-Lautheit (sone) gemessen über Häufigkeitsverteilung |
Abweichung (Messfchler) abs. rel. |
| Pausenanteil des Sprachsignals 91% |
| weißes Rauschen |
6 dB |
42.5 |
1.55 |
43.0 |
0.5/1.2% |
| weißes Rauschen |
10 dB |
33.0 |
1.22 |
34.0 |
1.0/3.0% |
| weißes Rauschen |
16 dB |
22.5 |
0.87 |
23.5 |
1.0/4.4% |
| |
|
|
|
|
|
| Sprache |
6 dB |
37.0 |
11.7 |
34.5 |
-2.5/-6.8% |
| Sprache |
10 dB |
28.5 |
9.16 |
27.5 |
-1.0/-3.5% |
| Sprache |
16 dB |
19.0 |
6.21 |
19.5 |
0.5/2.6% |
| |
|
|
|
|
|
| Straßengeräusch |
10 dB |
29.5 |
3.22 |
30.0 |
0.5/1.7% |
| Bürogeräusch |
10 dB |
29.0 |
2.78 |
29.5 |
0.5/1.7% |
| |
|
|
|
|
|
| Pausenanteil des Sprachsignals 58% |
| weißes Rauschen |
6 dB |
42.5 |
1.55 |
42.5 |
0.0/0.0% |
| weißes Rauschen |
10 dB |
33.0 |
1.22 |
33.5 |
0.5/1.5% |
| weißes Rauschen |
16 dB |
22.5 |
0.87 |
23.0 |
0.5/2.2% |
| |
|
|
|
|
|
| Sprache |
6 dB |
36.0 |
11.7 |
29.0 |
-7.0/-19% |
| Sprache |
10 dB |
28.5 |
9.16 |
24.5 |
-4.0/-14% |
| Sprache |
16 dB |
19.0 |
6.21 |
18.0 |
-1.0/-5.3% |
| |
|
|
|
|
|
| Straßengeräusch |
10 dB |
30.0 |
3.22 |
29.0 |
-1.0/-3.3% |
| Bürogeräusch |
10 dB |
29.0 |
2.78 |
28.5 |
-0.5/-1.6% |
| |
|
|
|
|
|
| Pausenanteil des Sprachsignals 35% |
| weißes Rauschen |
6 dB |
42.5 |
1.55 |
42.5 |
0.0/0.0% |
| weißes Rauschen |
10 dB |
33.0 |
1.22 |
33.5 |
0.5/ 1.5% |
| weißes Rauschen |
16 dB |
22.5 |
0.87 |
23.5 |
1.0/2.2% |
| |
|
|
|
|
|
| Sprache |
6 dB |
35.5 |
11.21 |
24.0 |
-11.5/-33% |
| Sprache |
10 dB |
27.5 |
8.7 |
21.0 |
-6.5 / -24% |
| Sprache |
16 dB |
19.0 |
5.93 |
17.5 |
-1.5/-7.9% |
| |
|
|
|
|
|
| Straßengeräusch |
10 dB |
29.5 |
3.22 |
28.0 |
-1.5/-4.8% |
| Bürogeräusch |
10 dB |
29.0 |
1.78 |
28.5 |
-0.5 / -1.6% |
| |
|
|
|
|
|
[0062] Die Messwerte zeigen eine gute Abschätzung der Perzentil-Lautheit für Hintergrundgeräusche
mit schwacher Fluktuation, für Sprache werden - vor allem bei geringem Pausenanteil
- nur unzureichende Genauigkeiten erzielt. Lediglich bei höheren Sprach-Geräusch-Abständen
sind die Ergebnisse brauchbar bis gut.