[0001] Die Erfindung betrifft ein Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel
n eines Hintergrundgeräusches, das einem über ein Telekommunikations (=TK)-System
übertragenen akustischen Nutzsignal, insbesondere einem menschlichen Sprachsignal
überlagert ist. Weiter betrifft die Erfindung auch Computerprogramme und Vorrichtungen
zur Unterstützung und Durchführung eines derartigen Verfahrens, insbesondere geeignete
Servereinheiten, Signalisierungseinrichtungen, Prozessorbaugruppen und programmierbare
Gate-Array-Baugruppen.
[0002] Verfahren zur Geräuscheinschätzung von Hintergrundgeräuschen sind bekannt. Beispielsweise
werden Geräuschschätzer verwendet, bei denen für die Schätzung des Geräuschpegels
eines Signals der in einem Kurzzeitintervall gemittelte Wert des Signals (SAM = short
average magnitude) verwendet wird.
[0003] Bei anderen Verfahren wird in längeren Zeitintervallen der sogenannte MAM(= medium
average magnitude)-Wert eines Eingangssignales gemessen. Um ein verlässliches Resultat
der Schätzung zu erreichen, sind Messzeiten bis zu 500 ms erforderlich. Oft spiegelt
auch der MAM-Wert einen zu hohen Geräuschpegel im Vergleich mit dem tatsächlichen
Geräuschpegel vor.
[0004] Allgemein ist der Wert des Geräuschpegels eines Signals für viele Allgorithmen zur
Signalbearbeitung als Schwellenwert oder Steuerwert von großer Bedeutung. Die Zuverlässigkeit
und das zeitliche Verhalten eines Geräuschschätzers haben einen großen Einfluss auf
die erreichbare Qualität eines Signalbearbeitungs-Allgorithmus. Dies gilt insbesondere
auf dem Gebiet der Spracherkennung, um die Erkennungsrate zu verbessern, auf dem Gebiet
der Echounterdrückung und für die Geräuschreduktion. Anwendungsgebiete für Geräuschschätzer
sind beispielsweise Vermittlungsanlagen, Konferenzeinrichtungen, aber auch herkömmliche
Telefone oder Handys.
[0005] Nachteilig bei bekannten Schätzverfahren ist das relativ langsame Verhalten bei der
Mittelung im Geräuschschätzer. Gerade bei Sprachaktivität mit nur kurzen Sprachpausen
in Zeiträumen von < 100 ms reicht oftmals die Zeit nicht aus, um den "Geräuschboden"
zu erfassen.
[0006] Nach der ITU-T-Richtlinie G.168 werden sogenannte "composite signals" verwendet,
die aus einer Folge von Signalbursts mit einer Pausenzeit von ca. 100 ms bestehen.
Auch hier ist mit den bisher bekannten Verfahren keine exakte Geräuschschätzung möglich.
[0007] Ein weiteres Problem der Geräuschschwelle ist die bei erfolgreicher Sprachpegelschätzung
durchgeführte Geräuschaktualisierung bei zeitlich sich ändernden Umweltbedingungen.
Der geschätzte Geräuschwert schwankt somit in gewissen, manchmal relativ großen Grenzen.
[0008] Aufgabe der vorliegenden Erfindung ist es demgegenüber, ein Verfahren der eingangs
beschriebenen Art mit möglichst einfachen Mitteln dahingehend weiterzubilden, dass
eine möglichst exakte Ermittlung des aktuellen Geräuschpegels mit möglichst schnellen
Adaptionszeiten erreicht wird, die erheblich geringer sind als bei bekannten Verfahren,
und dass dazu ein möglichst geringer Rechenaufwand erforderlich ist.
[0009] Erfindungsgemäß wird diese Aufgabe auf ebenso überraschend einfache wie wirkungsvolle
Art und Weise dadurch gelöst,
dass in einem ersten Schritt ein vorgebbarer Initialisierungswert n0 als Schätzwert
n(x) für einen aktuellen Geräuschpegel n angenommen wird;
dass im nächsten und ggf. in weiteren Schritten der Schätzwert n(x) des Geräuschpegels
n für ein in vorzugsweise äquidistanten Zeitschritten T jeweils zu Zeitpunkten k mit
einer Abtastfrequenz fs = 1/T abgetastetes Eingangssignal x(k) als ein Wert n1(x)
bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb
eines Kurzzeitintervalls mit einer zeitlichen Länge ts ≥ 1 ms, vorzugsweise ts ≥ 3ms
gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird;
dass der Wert n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen
wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren
Schwellwert ε unterschreiten; und
dass der im vorhergehenden Schritt ermittelte Schätzwert n(x) ungeändert als neuer
Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen
Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε überschreiten.
[0010] Mit dem erfindungsgemäßen Verfahren wird also jeweils in einem Kurzzeitintervall
der Länge ts ein Maximumwert aus den Abtastwerten des Eingangssignals x(k) bestimmt
und für die Abschätzung des aktuellen Geräuschpegels aus der Menge mehrerer hintereinander
gefundener Maximumwerte jeweils das Minimum n1(x) als Schätzwert n(x) für den aktuellen
Geräuschpegel n herangezogen. Um bereits vor der ersten Messperiode einen Schätzwert
n(x) bereitzustellen, wird ein Initialisierungswert n0 vorgegeben.
[0011] Falls die dynamischen Variationen des Eingangssignals, insbesondere hervorgerufen
durch große Änderungen im Geräuschhintergrund, wie beispielsweise das Zuschlagen einer
Tür, das Vorbeifahren eines Lastwagens etc. einen gewissen vorgebbaren Schwellwert
ε überschreiten, wird das Schätzverfahren gewissermaßen "angehalten" und jeweils der
letzte Schätzwert übernommen, bei dem die Dynamik des Eingangssignals x(k) unterhalb
des vorgegebenen Schwellenwerts ε lag. Damit wird verhindert, dass erratische Schätzwerte
auf Grund schneller Schwankungen im Signal zustandekommen. Das erfindungsgemäße Verfahren
erreicht nämlich eine äußerst schnelle Adaption auf den aktuellen Geräuschpegel in
Zeiträumen von etwa 10 ms, im Gegensatz zu den oben erwähnten bekannten Verfahren,
die dazu Zeiten in der Größenordnung von 500 ms benötigen.
[0012] Es zeigt sich, dass mit dem erfindungsgemäßen Verfahren insbesondere auch eine korrekte
Berechnung bei Anwendung der oben erwähnten G168 "composite signals" mit exakter Ermittlung
des Geräuschpegels und sehr schnellen Adaptionszeiten bei äußerst geringem Rechenaufwand
ermöglicht wird.
[0013] Besonders bevorzugt ist eine Ausführungsform des erfindungsgemäßen Verfahrens, bei
der das Zeitintervall ts = 1/fug gewählt wird, wobei fug die untere Grenzfrequenz
des übertragenden TK-Systems ist. Damit kann dem Hüllkurvenverlauf der Eingangssignale
optimal gefolgt werden.
[0014] Insbesondere sollte die zeitliche Länge ts jeweils so gewählt werden, dass eine Adaption
von niederfrequenten Signalen im Bereich < 100 Hz ausgeschlossen wird. Üblicherweise
liegen die unteren Grenzfrequenzen in einem Bereich fug ≤ 500 Hz. Bei üblichen Telefoniesystemen
beispielsweise beträgt die untere Grenzfrequenz 330 Hz. Ein Wert von etwa 10 Hz als
Untergrenze für die untere Grenzfrequenz fug entspricht dem Wert eines üblichen HiFi-Verstärkers
und ist von daher vernünftig.
[0015] Vorteilhaft für die Durchführung des erfindungsgemäßen Verfahrens ist eine Variante,
bei der als Initialisierungswert n0 der maximal darstellbare Wert des Zielsystems
für die Signalübertragung innerhalb des TK-Systems gewählt wird.
[0016] Eine weitere vorteilhafte Variante des erfindungsgemäßen Verfahrens zeichnet sich
dadurch aus, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen
vorgebbaren oder festen unteren Grenzwert n
min gesetzt wird, falls ein Wert n1(x) < n
min ermittelt wird. Dadurch werden Fehleinschätzungen auf einfache Weise zuverlässig
verhindert und somit eine höhere Genauigkeit des Schätzwerts auf Grund der Bereichseinschränkung
erzielt.
[0017] Dies gilt auch im Hinblick auf eine Obergrenze, die eingeführt werden sollte, um
eine verzerrungsfreie Signalübertragung zu gewährleisten. Entsprechend ist bei einer
weiteren Variante des erfindungsgemäßen Verfahrens vorgesehen, dass für die Bestimmung
des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen oberen Grenzwert
n
max gesetzt wird, falls ein Wert n1(x) > n
max ermittelt wird.
[0018] Besonders bevorzugt ist eine Weiterbildung dieser Verfahrensvariante, bei der der
obere Grenzwert n
max kleiner oder gleich dem Initialisierungswert n0 gewählt wird, vorzugsweise n
max ≤ n0 - 16dB. Für eine lineare, verzerrungsfreie Signalübertragung im betreffenden
TK-System ist dieser obere Grenzwert durch die statistisch ermittelte Sprachdynamik
menschlicher Sprache vorgegeben.
[0019] Eine weitere vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens sieht
vor, dass die innerhalb der Kurzzeitintervalle gefundenen Maximumwerte des Eingangssignals
x(k) mit einem Skalierungsfaktor S < 1 multipliziert in die Ermittlung des Werts n1(x)
eingehen. Die Mehrzahl der tatsächlichen Pegelwerte liegt nämlich tatsächlich unterhalb
des jeweils ermittelten Maximumwerts innerhalb des betreffenden Kurzzeitintervalls.
[0020] Wird der Skalierungsfaktor S ≅ 0,5 gewählt, so entspricht dies in etwa der Lage des
Maximalwerts einer statistischen Verteilung, beispielsweise einer Gauß-Verteilung
der Abtastwerte im Verhältnis zur Lage des gefundenen maximalen Pegelwerts. Dadurch
wird der wirkliche aktuelle Geräuschpegel n im Mittel erheblich besser getroffen als
durch die Verwendung des unskalierten Maximumwertes.
[0021] Für Anwendungen des erfindungsgemäßen Verfahrens zur sicheren Sprach-Pausen-Detektion
ist es vorteilhaft, wenn der Schätzwert n(x) als Maß für einen aktuell abgeschätzten
Geräuschpegel mit einem Faktor D > 1 skaliert wird.
[0022] Durch Simulation wurden als günstigste Werte für den Faktor D anwendungsabhängig
Werte im Bereich 2 ≤ D ≤ 5, vorzugsweise 3 ≤ D ≤ 4 gefunden. Damit ergibt sich übrigens
ein Abstand von ca. 6 dB zwischen dem Sprachsignal und dem statistisch gemittelten
Geräuschsignal, was allgemein als akzeptabler Störabstand gilt.
[0023] Besonders bevorzugt ist auch eine Ausführungsform des erfindungsgemäßen Verfahrens,
bei der ein fester Schwellwert ε = const. eingestellt wird, vorzugsweise ε ≈ 12dB.
Mit diesem durch Simulationen gewonnenen Wert lassen sich die meisten praktischen
Anwendungsfälle gut abdecken.
[0024] Alternativ zur Einführung eines festen Schwellwertes ε kann bei einer anderen vorteilhaften
Verfahrensvariante der Schwellwert ε = ε(x) adaptiv mit der Rauhigkeit des Pegels
des Eingangssignals x(k) verändert werden. Damit lässt sich eine optimale und äußerst
schnelle Aktualisierung und Anpassung des geschätzten Pegelwertes an die tatsächlichen
Geräuschverhältnisse erreichen.
[0025] Vorteilhafterweise kann bei einer Weiterbildung dieser Verfahrensvariante für den
adaptiv zu ermittelnden Schwellwert ε(x) ein Startwert ε0 = 12dB gewählt werden, wie
er bei der oben beschriebenen alternativen Verfahrensvariante als unveränderlicher
Festwert vorgeschlagen wird.
[0026] In den Rahmen der vorliegenden Erfindung fällt auch eine Servereineit, eine Prozessor-Baugruppe
sowie eine Gate-Array-Baugruppe zur Unterstützung des oben beschriebenen erfindungsgemäßen
Verfahrens sowie ein Computerprogramm zur Durchführung des Verfahrens. Das Verfahren
kann sowohl als Hardwareschaltung, als auch in Form eines Computerprogramms realisiert
werden. Heutzutage wird eine Software-Programmierung für leistungsstarke DSP's bevorzugt,
da neue Erkenntnisse und Zusatzfunktionen leichter durch eine Veränderung der Software
auf bestehender Hardwarebasis implementierbar sind. Verfahren können aber auch als
Hardwarebausteine beispielsweise in IP- oder TK-Endgeräten oder herkömmlichen Telefonanlagen
implementiert werden.
[0027] Weitere Vorteile der Erfindung ergeben sich aus der Beschreibung und der Zeichnung.
Ebenso können die vorstehend genannten und die noch weiter aufgeführten Merkmale erfindungsgemäß
jeweils einzeln für sich oder zu mehreren in beliebigen Kombinationen Verwendung finden.
Die gezeigten und beschriebenen Ausführungsformen sind nicht als abschließende Aufzählung
zu verstehen, sondern haben vielmehr beispielhaften Charakter für die Schilderung
der Erfindung.
[0028] Die Erfindung ist in der Zeichnung dargestellt und wird anhand von Ausführungsbeispielen
näher erläutert.
[0029] Die Figur zeigt ein stark schematisiertes Prinzipbild der Funktionsweise einer Schätzeinrichtung
zur Durchführung des erfindungsgemäßen Verfahrens.
[0030] Ausgehend von einem Initialisierungswert n0 wird in einem ersten Kurzzeitintervall
der zeitlichen Länge ts ≥ 1 ms aus einem abgetasteten Eingangssignal x(k) ein erster
geschätzter Wert n1(x) für den Geräuschpegel n, der aus einem Nutzsignal im Eingangssignal
x(k) überlagerten Hintergrundgeräusches gemäß folgender Gleichung berechnet:

[0031] Dabei ist K = fs/fug der Quotient aus der Abtastfrequenz des abgetasteten Eingangssignales
x(k) und der unteren Grenzfrequenz fug des übertragenden TK-Systems. Die Länge des
Kurzzeitintervalls ergibt sich zu ts = 1/fug. Damit wird über den Laufindex k das
kleinste Zeitintervall dargestellt, das beobachtet werden muss, um nicht auf niederfrequente
Signale zu adaptieren.
[0032] Der Wert n1(x) wird also aus dem Minimum eines vorhergehenden Wertes n1(x) bzw. einem
Initialisierungswert n0 und des Maximumwertes der mit einem Skalierungsfaktor S ≈
0,5 skalierten Beträge des Eingangssignals x(k) im Intervall k = 0 bis k = K gewonnen.
[0033] Für den Fall, dass Sprachaktivität im Eingangssignal x(k) vorliegt, wird als Wert
n1(x) ein vom Sprachpegel abhängiger Wert angenommen, da ja der Sprachpegel lauter
ist als das Geräusch. Akzeptabel ist beispielsweise ein Störabstand von 6 dB.
[0034] Der so gefundene Wert n1(x) ändert sich zwar noch mit der Sprache, reagiert aber
auf Geräuschreduktion und während Sprachpausen mit extrem kurzer Adaptionszeit.
[0035] Als eigentlicher Schätzwert n(x) für den aktuellen Geräuschpegel n wird der oben
beschriebene Wert n1(x) nur dann übernommen, wenn die dynamischen Variationen des
Eingangssignals x(k) einen vorgebbaren Schwellenwert ε unterschreiten, wenn also gilt,

[0036] Diese Bedingung kontrolliert dynamische Pegelschwankungen des zu untersuchenden Signals.
Beispielsweise mit einem Wert ε = 12 dB wird eine Aktualisierung des Geräuschsignals
bei Pegelschwankungen > 12 dB verhindert. In diesem Falle wird einfach der vorhergehende
Schätzwert unverändert für den aktuellen Geräuschpegel n übernommen. Dies ist beispielsweise
dann der Fall, wenn sich das Hintergrundgeräusch schlagartig erhöht oder absenkt,
so dass der Sprachpegelschätzer aktiv werden muss. Damit kann ausgeschlossen werden,
dass Geräusch- oder Sprachspitzen den Schätzwert n(x) in erratischer Weise in kurzen
Zeitabständen verändern.
[0037] Die oben beschriebenen dynamischen Pegelschwankungen dx(i) können beispielsweise
aus der Differenz sukzessive aufeinanderfolgender Kurzzeitmittelwerte sam(i) ermittelt
werden gemäß

[0038] Falls nun die Hüllkurve der eingehenden Eingangssignale x(i) "stabil" ist, also mit
an Sicherheit grenzender Wahrscheinlichkeit keine Sprachsignale vorliegen, können
die aktuellen Pegelwerte direkt dem Hintergrundgeräusch zugeordnet werden. Andernfalls,
wenn die Hüllkurve "wackelt", liegt mit großer Wahrscheinlichkeit Sprache, also überwiegendes
Nutzsignal im Eingangssignal x(i) vor, so dass die Spitzen des Eingangssignals nicht
für die Abschätzung des Geräuschhintergrunds verwendet werden können. In diesem Fall
muss dann, wie oben beschrieben, aus dem Sprachsignal selbst ein skalierter Geräuschwert
gewonnen werden.
[0039] Die Zeichnung zeigt nun diesen Vorgang in schematisierter Weise, insbesondere die
Maximumbildung aus dem Eingangssignal x(k), die Skalierung mit einem Skalierungsfaktor
S und die Minimumbildung zur Gewinnung des Wertes n1(x), die Übernahme dieses Wertes
in Abhängigkeit von einem Sprach-Pausen-Detektor (SPD), dessen Ausgangswert gegebenenfalls
mit einem anwendungsabhängigen Faktor D skaliert wird, sowie die Schwellwertabschätzung
der dynamischen Variationen des Eingangssignals x(k), die im dargestellten Beispiel
aus der zeitlichen Änderung des Kurzzeitmittelwerts dsam(x)/dt gewonnen werden.
[0040] Als Ausgangssignal dieses Verfahrens ergibt sich dann der gewünschte aktualisierte
Schätzwert n(x) für einen tatsächlichen Geräuschpegel n.
1. Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel n eines Hintergrundgeräusches,
das einem über ein Telekommunikations (=TK)-System übertragenen akustischen Nutzsignal,
insbesondere einem menschlichen Sprachsignal überlagert ist,
dadurch gekennzeichnet,
dass in einem ersten Schritt ein vorgebbarer Initialisierungswert n0 als Schätzwert n(x)
für einen aktuellen Geräuschpegel n angenommen wird;
dass im nächsten und ggf. in weiteren Schritten der Schätzwert n(x) des Geräuschpegels
n für ein in vorzugsweise äquidistanten Zeitschritten T jeweils zu Zeitpunkten k mit
einer Abtastfrequenz fs = 1/T abgetastetes Eingangssignal x(k) als ein Wert n1(x)
bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb
eines Kurzzeitintervalls mit einer zeitlichen Länge ts ≥ 1ms, vorzugsweise ts ≥ 3ms
gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird;
dass der Wert n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird,
wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert
ε unterschreiten;
und dass der im vorhergehenden Schritt ermittelte Schätzwert n(x) ungeändert als neuer Schätzwert
n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen
des Eingangssignals x(k) einen vorgebbaren Schwellwert ε überschreiten.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ts = 1/fug, wobei fug die untere Grenzfrequenz des übertragenden TK-Systems ist.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass fug ≤ 500Hz, vorzugsweise fug ≤ 330Hz und fug ≥ 10Hz.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Initialisierungswert n0 der maximal darstellbare Wert des Zielsystems für die
Signalübertragung innerhalb des TK-Systems gewählt wird.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder
festen unteren Grenzwert nmin gesetzt wird, falls ein Wert n1(x) < nmin ermittelt wird.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder
festen oberen Grenzwert nmax gesetzt wird, falls ein Wert n1(x) > nmax ermittelt wird.
7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die innerhalb der Kurzzeitintervalle gefundenen Maximumwerte des Eingangssignals
x(k) mit einem Skalierungsfaktor S < 1 multipliziert in die Ermittlung des Werts n1(x)
eingehen.
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Schwellwert ε = ε(x) adaptiv mit der Rauhigkeit des Pegels des Eingangssignals
x(k) verändert wird.
9. Prozessorbaugruppe, insbesondere digitaler Signalprozessor (=DSP) zur Unterstützung
des Verfahrens nach einem der vorhergehenden Ansprüche.
10. Programmierbare Gate-Array-Baugruppe zur Unterstützung des Verfahrens nach einem der
Ansprüche 1 bis 8.