[0001] Die vorliegende Offenbarung betrifft die Erzeugung eines Maskierungssignals für Sprache
in einem zonenbasierten Audiosystem.
[0002] Moderne Kommunikationsmittel und deren immer weiter gesteigerte Abdeckung ermöglichen
eine nahezu überall stattfindende Kommunikation, zum Beispiel in Form von Telefongesprächen.
Im öffentlichen Raum können andere Personen oftmals solche Gespräche mithören und
ihren Inhalt verstehen. Dies ist insbesondere dann ein Problem, wenn es sich um vertrauliche
private oder geschäftliche Gespräche handelt. Ein solches Szenario existiert in öffentlichen
Beförderungsmitteln, wie Zug oder Flugzeug, aber auch in privaten Fahrzeugen, wie
Taxis oder gemieteten Limousinen. In diesen Fällen befinden sich neben dem Sprecher
weitere Personen an festen Plätzen, zum Beispiel an zugewiesenen Sitzplätzen. Oftmals
haben derartige Sitzplätze ein zugehöriges Audiosystem oder zumindest Komponenten
davon. Zum Beispiel können Lautsprecher zur individuellen Wiedergabe von Audioinhalten
in diesen Sitzen vorgesehen sein, beispielsweise in Nackenstützen integriert, was
auch als ein zonenbasiertes Audiosystem bezeichnet wird.
[0003] Neben Telefongesprächen kann das Problem eines unerwünschten Mithörens auch bei Gesprächen
zwischen Personen auftreten. Zum Beispiel können sich zwei Passagiere im Fond eines
Taxis über ein vertrauliches Thema unterhalten, bei dem das Mithören durch den Fahrer
unerwünscht ist.
[0004] Aus dem Stand der Technik ist bekannt, dass ein unerwünschtes Mithören durch das
Zuspielen von lautem Rauschen reduziert werden kann. Dies erhöht jedoch den Geräuschpegel
für alle Beteiligten und wird als unangenehme Beeinträchtigung empfunden, die auch
die Aufmerksamkeit und das Reaktionsvermögen beeinflussen kann, was besonders im Straßenverkehr
unerwünscht ist.
[0005] Das vorliegende Dokument befasst sich mit der technischen Aufgabe, in einem zonenbasierten
Audiosystem ein Maskierungssignal zu generieren, das ein unerwünschtes Mithören eines
Gesprächs reduziert und gleichzeitig keine unangenehme Beeinträchtigung darstellt.
[0006] Die Aufgabe wird durch die Merkmale der unabhängigen Ansprüche gelöst. Vorteilhafte
Ausgestaltungen werden in den abhängigen Ansprüchen beschrieben.
[0007] Gemäß einem ersten Aspekt wird ein Verfahren zur Maskierung eines Sprachsignals in
einem zonenbasierten Audiosystem offenbart. Das Verfahren umfasst das Erfassen eines
zu maskierenden Sprachsignals in einer Audiozone, z.B. mittels eines oder mehrerer
günstig platzierter Mikrofone, die beispielsweise in einer Nackenstütze eines Sitzes
angeordnet sein können. Das Sprachsignal kann von dem lokalen Sprecher eines Telefongesprächs
stammen oder zu einem Gespräch zwischen anwesenden Personen gehören. Das erfasste
Sprachsignal wird dann in spektrale Bänder transformiert, was beispielsweise mittels
einer FFT und Mel-Filtern erfolgen kann. Weiter weist das Verfahren das Vertauschen
von Spektralwerten von zumindest zwei spektralen Bändern auf, wodurch die spektrale
Struktur des Sprachsignals verändert wird, ohne dass dessen gesamter Energiegehalt
verändert wird. Sodann erfolgt das Erzeugen eines (möglichst breitbandigen) Rauschsignals
basierend auf den vertauschten Spektralwerten. Das erzeugte Rauschsignal weist zwar
eine gewisse Ähnlichkeit mit dem Spektrum des Sprachsignals auf, stimmt jedoch nicht
vollständig damit überein, da durch die Vertauschung der Bänder die spektrale Struktur
des Sprachsignals nicht mehr vollständig erhalten ist. Ein solches Rauschsignal mit
einem ähnlichen aber doch nicht gleichen Spektrum wie das Sprachsignal eignet sich
gut als Maskierungssignal für das Sprachsignal. Es sei noch angemerkt, dass eine beliebige
Anzahl von Bändern vertauscht werden kann (z.B. auch alle), wobei durch vermehrte
Vertauschung von Bändern mehr Variation im Rauschspektrum entsteht. Schließlich wird
das Rauschsignal als Maskierungssignal unter möglichst geringer Energieeinbringung
in einer anderen Audiozone ausgegeben, um einer sich dort am Mithörort befindlichen
Person das Mithören des Gesprächs zu erschweren, indem die Sprachverständlichkeit
für diese Person reduziert wird.
[0008] Das Erzeugen eines Rauschsignals basierend auf den vertauschten Spektralwerten kann
das Erzeugen eines breitbandigen Rauschsignals, z.B. durch einen Rauschgenerator,
und das Transformieren des erzeugten Rauschsignals in den Frequenzbereich aufweisen.
Weiter kann das Multiplizieren der Frequenzdarstellung des Rauschsignals mit einer
Frequenzdarstellung des Sprachsignals unter Berücksichtigung der vertauschten Spektralwerte
erfolgen. Durch die Multiplikation im Frequenzbereich wird ein Rauschspektrum erzeugt,
das im Wesentlichen dem des Sprachsignals nach dem Vertauschen der spektralen Bänder
entspricht, also ähnlich, aber doch nicht gleich zu dem Sprachspektrum ist. Ein ähnlicher
Effekt kann auch durch eine Faltung im Zeitbereich erzielt werden.
[0009] Die Frequenzdarstellung des Sprachsignals kann durch eine Interpolation der Spektralwerte
der Bänder (beispielsweise vorliegend im Mel-Bereich) nach dem Vertauschen der Spektralwerte
erzeugt werden. Durch die Interpolation werden aus den (relativ wenigen) spektralen
Werten der Bänder die erforderlichen Werte an den Frequenzstützwerten für die Multiplikation
mit dem Rauschspektrum erzeugt.
[0010] Das Verfahren kann weiterhin ein Schätzen eines Hintergrundrauschspektrums (vorzugweise
am Mithörort) und das Vergleichen von Spektralwerten des Sprachsignals mit dem Hintergrundrauschspektrum
aufweisen. Das Vergleichen der Spektralwerte erfolgt vorzugsweise (aber nicht zwingend)
in dem Bereich der spektralen Bänder (z.B. Mel-Bänder), was zur Folge hat, dass auch
das Hintergrundrauschspektrum in den spektralen Bändern dargestellt werden muss. Weiterhin
können nur Spektralwerte des Sprachsignals, die größer als die entsprechenden Spektralwerte
des Hintergrundrauschspektrums sind (oder in einem vorbestimmten Verhältnis dazu stehen),
für das weitere Vorgehen (z.B. die oben genannte Interpolation) berücksichtigt werden.
Spektrale Anteile des Sprachsignals, die bereits von dem Hintergrundrauschen verdeckt
werden, brauchen für die Generierung des Maskierungssignals nicht berücksichtigt werden
und können ausgeblendet werden (z.B. indem sie auf null gesetzt werden). Die Berücksichtigung
des Hintergrundrauschens kann sowohl vor als auch nach der Vertauschung von spektralen
Werten erfolgen. Im ersteren Fall stimmen die zu vergleichenden spektralen Bänder
noch genau überein und das Hintergrundrauschen wird korrekt berücksichtigt. Im letzteren
Fall wird durch die Vertauschung von Bändern und das Ausblenden von Bändern mit niedriger
Energie im Sprachsignal eine zusätzliche Variation in das Rauschspektrum eingeführt,
die zu einer erhöhten Maskierung führen kann. Dies ermöglicht ein an den Hintergrund
bzw. die Umgebung angepasstes Maskierungssignal, das unter möglichst geringer Energieeinbringung
in der Audiozone des Mithörers ausgegeben werden kann.
[0011] Die Transformation des erfassten Sprachsignals in spektrale Bänder kann für Blöcke
des Sprachsignals und mittels einer Mel-Filterbank erfolgen. Optional ist es möglich,
eine zeitliche Glättung der Spektralwerte für die Mel-Bänder, z.B. in Form eines gleitenden
Mittelwertes, auszuführen.
[0012] In einer weiteren Ausgestaltung der Erfindung kann das Rauschsignal bei der Ausgabe
mittels einer mehrkanaligen (d.h. zumindest 2-kanaligen) Wiedergabe räumlich dargestellt
werden. Hierzu kann eine mehrkanalige Darstellung des Maskierungssignals, die eine
räumliche Wiedergabe des Maskierungssignals ermöglicht, erzeugt werden. Für 2-kanalige
Systeme kann dies vorzugsweise durch Multiplikation mit binauralen Spektren einer
akustischen Übertragungsfunktion erfolgen. Durch die räumliche Wiedergabe wird der
Effekt des Maskierungssignals zur Verschleierung der Sprache am Mithörort erhöht,
insbesondere wenn das Rauschsignal in der anderen Audiozone derart räumlich ausgegeben
wird, dass es aus der Richtung des Sprechers des zu maskierenden Sprachsignals zu
stammen scheint.
[0013] Zusätzlich zu dem oben beschriebenen Maskierungssignal, das auf einem breitbandigen,
an das Sprachsignal angepassten Rauschsignal basiert, kann noch eine weitere Komponente
für das Maskierungssignal erzeugt werden, die zusammen an den Mithörer in der zweiten
Audiozone ausgegeben werden. Hierzu kann das Verfahren das Bestimmen eines für die
Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal (z.B. das Vorliegen von
Konsonanten im Sprachsignal) und das Erzeugen eines geeigneten Ablenkungssignals für
den bestimmten Zeitpunkt aufweisen. Dann kann das Ausgeben des Ablenkungssignals zu
dem bestimmten Zeitpunkt als weiteres Maskierungssignal in der anderen Audiozone erfolgen,
wodurch eine punktuelle zusätzliche Verschleierung (Maskierung) des Gesprächsinhalts
bei Sprach-Onsets erfolgt. Da das Ablenkungssignal nur an bestimmten relevanten Zeitpunkten
ausgegeben wird, erhöht es den Gesamtschallpegel nicht wesentlich und führt zu keiner
signifikanten Beeinträchtigung.
[0014] Der für die Sprachverständlichkeit relevante Zeitpunkt kann anhand von Extremwerten
(z.B. lokale Maxima, Onsets) einer spektralen Funktion des Sprachsignals bestimmt
werden, wobei die spektrale Funktion basierend auf einer Addition von Spektralwerten
über die Frequenzachse bestimmt wird. Die Spektralwerte können zuvor in zeitlicher
und/oder in frequenzmäßiger Richtung geglättet werden. Nach der Addition der Spektralwerte
über die Frequenzachse können die Summenwerte optional logarithmiert werden. Um lokale
Maxima für die Detektion von relevanten Zeitpunkten zu erzeugen, können die (optional
logarithmierten) Summenwerte zeitlich differenziert werden.
[0015] Weiterhin können die für die Sprachverständlichkeit relevanten Zeitpunkte anhand
von Parametern des Sprachsignals, wie Nulldurchgangsrate, Kurzzeitenergie und/oder
spektraler Schwerpunkt, verifiziert werden. Es ist auch möglich, zeitliche Beschränkungen
für Extremwerte zu berücksichtigen, so dass diese zum Beispiel einen vorgegebenen
zeitlichen Mindestabstand aufweisen müssen.
[0016] Das Ablenkungssignal für einen bestimmten Zeitpunkt kann dann zufällig aus einer
Menge von vorgegebenen Ablenkungssignalen ausgewählt werden. Diese können in einem
Speicher für die Auswahl bereitgehalten werden. Es hat sich als vorteilhaft herausgestellt,
wenn das Ablenkungssignal hinsichtlich seiner spektralen Charakteristik und/oder seiner
Energie an das Sprachsignal angepasst wird. So kann der spektrale Schwerpunkt des
Ablenkungssignals an den spektralen Schwerpunkt des entsprechenden Sprachabschnitts
zu dem bestimmten Zeitpunkt angepasst werden, z.B. mittels einer Einseitenbandmodulation.
Ein Sprachabschnitt mit einem hohen spektralen Schwerpunkt kann so mit einem Ablenkungssignal
mit einem ebenfalls hohen spektralen Schwerpunkt (ggf. sogar mit dem gleichen spektralen
Schwerpunkt) maskiert werden, was zu einer höheren Wirksamkeit der Maskierung führt.
Auch kann die Energie des Ablenkungssignals an die Energie des Sprachabschnitts angepasst
werden, um kein zu lautes und übermäßig störendes Maskierungssignal zu erzeugen.
[0017] In einer weiteren Ausgestaltung der Erfindung kann das Ablenkungssignal bei der Ausgabe
mittels einer mehrkanaligen räumlichen Wiedergabe dargestellt werden, vorzugsweise
durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion,
wodurch eine mehrkanalige (zumindest 2-kanalige) Darstellung des Ablenkungssignals
erzeugt wird, die eine räumliche Wiedergabe des Ablenkungssignals ermöglicht. Durch
die räumliche Wiedergabe wird der Effekt des Ablenkungssignals zur Verschleierung
der Sprache am Mithörort erhöht, insbesondere, wenn das Ablenkungssignal in der anderen
Audiozone derart räumlich ausgegeben wird, dass es aus einer zufälligen Richtung und/oder
in Kopfnähe des Hörers in der anderen Audiozone zu stammen scheint. Durch diese Verräumlichung
wird die Unterscheidbarkeit von Sprach- und Ablenksignal reduziert bzw. das Mithören
des Sprachsignals bedingt durch das Ablenksignal erschwert und die Energie für das
Ablenkungssignal kann so verringert werden.
[0018] Die oben dargestellte Verarbeitung des Sprachsignals und die Erzeugung eines Maskierungssignals
werden bevorzugt in der digitalen Domäne durchgeführt. Hierzu sind nicht näher beschriebene
Schritte, wie eine Analog-Digital-Wandlung und eine Digital-Analog-Wandlung, erforderlich,
die sich für den Fachmann nach dem Studium der vorliegenden Offenbarung jedoch als
selbstverständlich ergeben. Weiterhin kann das obige Verfahren ganz oder teilweise
mittels einer programmierbaren Vorrichtung realisiert werden, die insbesondere einen
digitalen Signalprozessor und erforderliche Analog-/Digital-Wandler aufweist.
[0019] Gemäß einem weiteren Aspekt der Erfindung wird eine Vorrichtung zur Erzeugung eines
Maskierungssignals in einem zonenbasierten Audiosystem, die ein zu maskierendes Sprachsignal
empfängt und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, vorgeschlagen.
Die Vorrichtung umfasst Mittel zum Transformieren des erfassten Sprachsignals in spektrale
Bänder; Mittel zum Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern;
und Mittel zum Erzeugen eines Rauschsignals als Maskierungssignal basierend auf den
vertauschten Spektralwerten.
[0020] Die obigen Ausgestaltungen des dort beschriebenen Verfahrens können auch auf diese
Vorrichtung angewendet werden. So kann die Vorrichtung weiter aufweisen: Mittel zum
Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal;
Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und Mittel
zum Addieren des Rauschsignals und des Ablenkungssignals und zum Ausgeben des Summensignals
als Maskierungssignal.
[0021] In einer weiteren Ausgestaltung der Vorrichtung umfasst diese auch Mittel zum Erzeugen
einer mehrkanaligen Darstellung des Maskierungssignals, die eine räumliche Wiedergabe
des Maskierungssignals ermöglicht.
[0022] Gemäß einem weiteren Aspekt der Erfindung ist ein zonenbasiertes Audiosystem mit
einer Mehrzahl von Audiozonen offenbart, wobei mindestens eine Audiozone ein Mikrofon
zum Erfassen eines Sprachsignals und eine andere Audiozone mindestens einen Lautsprecher
aufweist. Mikrofon und Lautsprecher können in Nackenstützen von Sitzen für Insassen
eines Fahrzeugs angeordnet sein. Es ist auch möglich, dass beide Audiozonen Mikrofon
und Lautsprecher aufweisen. Das Audiosystem weist eine oben dargestellte Vorrichtung
zur Erzeugung eines Maskierungssignals auf, die ein Sprachsignal von einem Mikrofon
der einen Audiozone erhält und das Maskierungssignal an den oder die Lautsprecher
der anderen Audiozone sendet.
[0023] Ein weiterer Aspekt der vorliegenden Offenbarung betrifft die oben dargestellte Erzeugung
eines Ablenkungssignals als Maskierungssignal unabhängig von dem erwähnten Rauschsignal.
Ein entsprechendes Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten
Audiosystem umfasst: das Erfassen eines zu maskierenden Sprachsignals in einer Audiozone;
das Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal;
das Erzeugen eines Ablenkungssignals für den bestimmten Zeitpunkt; und das Ausgeben
des Ablenkungssignals zum bestimmten Zeitpunkt als Maskierungssignal in der anderen
Audiozone. Die möglichen Ausgestaltungen des Verfahrens entsprechen den oben dargestellten
Ausgestaltungen in Kombination mit dem erzeugten Rauschsignal.
[0024] Auch eine entsprechende Vorrichtung zur Erzeugung eines Ablenkungssignals als Maskierungssignals
in einem zonenbasierten Audiosystem, die ein zu maskierendes Sprachsignal empfängt
und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, ist offenbart. Diese
weist Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts
im Sprachsignal; Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt;
und Mittel zum Ausgeben des Ablenkungssignals als Maskierungssignal auf. Optional
können Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals,
die eine räumliche Wiedergabe des Maskierungssignals ermöglichen, vorgesehen sein.
[0025] Die oben beschriebenen Merkmale können in vielfacher Weise miteinander kombiniert
werden, auch wenn eine solche Kombination nicht ausdrücklich erwähnt ist. Insbesondere
können für ein Verfahren beschriebene Merkmale auch für eine entsprechende Vorrichtung
herangezogen werden und umgekehrt.
[0026] Im Weiteren werden Ausführungsbeispiele der Erfindung anhand der schematischen Zeichnung
näher beschrieben. Dabei zeigen:
Fig. 1 schematisch ein Beispiel für ein zonenbasiertes Audiosystem;
Fig. 2 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem;
Fig. 3 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem mit zwei
Zonen;
Fig. 4 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem mit mehreren
Zonen;
Fig. 5 ein Beispiel für ein Blockschaltbild zur Erzeugung eines breitbandigen Maskierungssignals
zur Verschleierung von Sprache; und
Fig. 6 ein Beispiel für ein Blockschaltbild zur Erzeugung eines Ablenkungssignals
zur Verschleierung von Sprache.
[0027] Die nachfolgend beschriebenen Ausführungsbeispiele sind nicht limitierend und rein
illustrativ zu verstehen. Zur Veranschaulichung weisen sie zusätzliche Elemente auf,
die für die Erfindung nicht wesentlich sind. Der Schutzbereich soll sich allein durch
die beigefügten Ansprüche bestimmen.
[0028] Die folgenden Ausführungsbeispiele ermöglichen Fahrzeuginsassen an beliebigen Sitzpositionen
das Führen von ungestörten privaten Gesprächen, wie Telefonaten mit anderen Personen
außerhalb des Fahrzeugs. Hierzu wird ein Audio-Maskierungssignal erzeugt und anderen
Fahrzeuginsassen zugespielt, so dass diese in ihrer Wahrnehmung des Gesprächs gestört
werden, um das ungewollte Verständnis des privaten Gesprächs zu erschweren und bestenfalls
unmöglich zu machen. Auf diese Weise entsteht ein privater Raum für den Sprecher,
in dem er ungestört auch private Gespräche führen kann, ohne dass die Gefahr besteht,
dass andere Fahrzeuginsassen vertrauliche Information aufnehmen können. Bei dem Gespräch
kann es sich beispielsweise um ein Telefongespräch oder um ein Gespräch zwischen Fahrzeuginsassen
handeln. Im letzteren Fall gibt es zwei Sprecher, die abwechselnd Sprachsignale abgeben,
die andere Insassen möglichst nicht verstehen sollen, wobei selbstverständlich die
Sprachverständlichkeit zwischen den beiden Gesprächsteilnehmern nicht beeinträchtigt
werden soll.
[0029] Ähnliche Szenarien liegen ganz allgemein vor, wenn Personen sich in akustischen Zonen
bzw. akustischen Umfeldern eines Raums befinden, die jeweils durch getrennte akustische
Wiedergabegeräte beschallt werden. Solche akustischen Zonen können beispielsweise
in Beförderungsmitteln, wie zum Beispiel Fahrzeugen, Zügen, Bussen, Flugzeugen, Fähren,
etc., vorliegen, in denen sich Passagiere an Sitzplätzen aufhalten, die jeweils mit
akustischen Wiedergabemitteln versehen sind. Der vorgeschlagene Ansatz zur Erzeugung
von privaten akustischen Zonen ist jedoch nicht auf diese Beispiele beschränkt. Er
kann ganz allgemein auf solche Situationen angewendet werden, in denen sich Personen
an jeweiligen Standorten in einem Raum (z.B. in Theater- oder Kinosesseln) befinden
und durch individuelle akustische Wiedergabemittel beschallt werden können und die
Möglichkeit besteht, die Sprachsignale eines Sprechers, dessen Sprache von den anderen
Personen nicht verstanden werden soll, zu erfassen.
[0030] In einem Ausführungsbeispiel ist zur Erzeugung von privaten akustischen Zonen an
jedem Passagierplatz eines Fahrzeuges oder allgemeiner, eines akustischen Umfeldes,
ein zonenbasiertes Audiosystem vorgesehen. Die einzelnen Komponenten des Audiosystems
sind miteinander vernetzt und können wechselwirkend Informationen/Signale austauschen.
Figur 1 zeigt schematisch ein Beispiel für ein derartiges zonenbasiertes Audiosystem
1. Ein Benutzer bzw. Passagier befindet sich an einem Sitzplatz 2 mit einer Nackenstütze
3, die zwei Lautsprecher 4 und zwei Mikrofone 5 aufweist.
[0031] Ein derartiges zonenbasiertes Audiosystem verfügt über einen, vorzugsweise über mindestens
zwei Lautsprecher 4 für die aktive akustische Wiedergabe von persönlichen und individuellen
Audiosignalen, welche durch die benachbarten Zonen nicht bzw. nur geringfügig wahrgenommen
werden sollen. Der/die Lautsprecher 4 können dabei in der Nackenstütze 3, dem Sitz
2 selbst oder im Dachhimmel des Fahrzeugs angebracht sein. Die Lautsprecher verfügen
über ein hinreichendes akustisches Design und können über eine entsprechende Signalverarbeitung
angesteuert werden, um die akustische Beeinflussung von benachbarten Zonen so geringfügig
wie möglich realisieren zu können.
[0032] Des Weiteren verfügt eine derartige Audiozone über eine Möglichkeit, unabhängig von
den benachbarten Zonen und den darin aktiv wiedergegebenen Signalen, die Sprache des
Insassen der primären akustischen Zone aufzuzeichnen. Dazu können ein oder mehrere
Mikrofone 5 im Sitz 2 bzw. der Nackenstütze 3 integriert oder in der direkten akustischen
Umgebung der Zone und des Insassen angebracht sein, wie in Figur 2 schematisch dargestellt
ist. Bevorzugt sind die Mikrofone 5 so angeordnet, dass sie eine möglichst gute Erfassung
der Sprache des telefonierenden Insassen ermöglichen. Kann ein Mikrofon in unmittelbarer
Nähe des Mundes des Sprechenden platziert werden (wie das mittlere Mikrofon in Figur
2), so ist im Allgemeinen ein einzelnes Mikrofon ausreichend, um die Audiosignale
des Sprechenden mit ausreichender Qualität zu erfassen. Beispielsweise kann das Mikrofon
eines Telefon-Headsets zur Aufnahme der Sprachsignale herangezogen werden. Ansonsten
sind zwei oder mehr Mikrofone zur Erfassung der Sprache von Vorteil, um diese mittels
digitaler Signalverarbeitung besser und vor allem zielgerichteter aufzunehmen, wie
nachfolgend erläutert wird.
[0033] Die Audiozone des Sprechers kann über eine entsprechende Signalverarbeitung verfügen,
um die Sprachsignale des primären Insassen möglichst störungsfrei und unbeeinflusst
von den benachbarten Zonen und den im Umfeld vorherrschenden Störungen (Wind, Rollgeräusch,
Lüftung, etc.) aufzuzeichnen.
[0034] Das Sprachsignal des telefonierenden Fahrzeuginsassen wird somit an der Sitzposition
erfasst (entweder direkt durch ein entsprechend angeordnetes Mikrofon oder indirekt
mittels ein oder mehrerer entfernter Mikrofone mit entsprechender Signalverarbeitung)
und von etwaigen Störsignalen getrennt, wie zum Beispiel Hintergrundgeräusche.
[0035] Aus diesem Sprachsignal kann ein Maskierungssignal, im Folgenden auch als Sprachverschleierungssignal
bezeichnet, für einen mithörenden Passagier generiert werden. In Ausführungsbeispielen
wird ein an die zu verschleiernde Sprache angepasstes breitbandiges Maskierungssignal
für diesen Passagier erzeugt. Zusätzlich oder auch alternativ können auch Ablenkungssignale
an den einzelnen Spracheinsätzen (Sprach-Onsets) innerhalb der Sprache des primären
Sprechers generiert werden. Hierunter sind kurze Störsignale zu verstehen, die an
bestimmten, für die Sprachverständlichkeit wichtigen Sprachabschnitten ausgegeben
werden und ebenfalls an die zu verschleiernde Sprache angepasst sein können. Diese
Ablenkungssignale werden zeitlich überlappend mit den für die Sprachverständlichkeit
relevanten Sprachabschnitten ausgegeben, um den Informationsgehalt für den Zuhörer
zu reduzieren und die Verständlichkeit der Sprache bzw. deren Interpretation zu beinträchtigen
(informationelles maskieren), ohne den gesamten Schallpegel relevant zu erhöhen.
[0036] Angepasst an die jeweils lokalen akustischen Erfordernisse können diese Verschleierungssignale
in einer räumlichen Weise (mehrkanalig) zugespielt werden, so dass eine räumliche
Wahrnehmung der Verschleierungssignale entsteht. Auf diese Weise kann ein Mithören
an den Sitzpositionen der mithörenden Personen bestmöglich vermieden werden.
[0037] Mit dem vorgeschlagenen Ansatz wird erreicht, dass der Gesamtschalldruckpegel an
den Sitzpositionen der mithörenden Passagiere nur minimal steigt und die Belästigung
bzw. Beeinträchtigung (Annoyance) der Passagiere nicht erhöht wird bzw. der lokale
Hörkomfort bestmöglich erhalten bleibt, im Gegensatz zu einem Ansatz bei dem einfach
ein lautes Störgeräusch zur Überdeckung der Sprache ausgegeben wird (energetische
Maskierung).
[0038] Figur 3 stellt die Funktionalität und den grundlegenden Systemaufbau eines Ausführungsbeispiels
für zwei Audiozonen exemplarisch dar. Die Sprachsignale des Insassen der primären
akustischen Zone I werden mittels der in der Nackenstütze 3 des Sprechers angeordneten
Mikrofone 5 dieser Zone erfasst und einer ersten digitalen Signalverarbeitung A unterzogen,
um die Sprachsignale des primären Insassen möglichst störungsfrei und unbeeinflusst
von den benachbarten Zonen und den im Umfeld vorherrschenden Störungen (Wind, Rollgeräusch,
Lüftung, etc.) aufzuzeichnen. Alternativ kann/können der oder die Mikrofone 5 auch
vor dem Sprecher angeordnet sein, wie in Figur 2 dargestellt, zum Beispiel im rückwärtigen
Teil der Nackenstütze des vorderen Insassen oder im Dachhimmel, Lenkrad oder Armaturenbrett.
Im gezeigten Beispiel befindet sich die mithörende Person im Sitz direkt vor dem Sprecher,
dies muss jedoch nicht der Fall sein und die mithörende Person kann sich an einem
beliebigen anderen Ort innerhalb des Fahrzeugs befinden.
[0039] Anschließend werden die auf diese Weise verarbeiteten Sprachsignale einer zweiten
Signalverarbeitung B zugeführt, welche passende Sprachverschleierungssignale erzeugt,
so dass die Sprachverständlichkeit des mithörenden Insassen reduziert wird. Die Sprachverschleierungssignale
werden dann mittels der Lautsprecher 4' in der zweiten akustischen Zone II ausgegeben.
Diese sind zum Beispiel in der Nackenstütze 3' des mithörenden Insassen angeordnet,
um eine möglichst direkte und ungestörte Wiedergabe der Sprachverschleierungssignale
zu erzielen. Wie bereits erwähnt, kann ein Sprachverschleierungssignal ein an das
Sprachsignal des primären Insassen angepasstes breitbandiges Maskierungssignal und/oder
ein an einzelnen Sprachansätzen einsetzendes Ablenkungssignal aufweisen. Auf diese
Weise können akustische Zonen derart privat gestaltet werden, dass ein unerwünschtes
Mithören über die Grenze einer akustischen Zone hinweg deutlich erschwert wird.
[0040] Bei einer alternativen Lösung werden - ähnlich wie bei einer aktiven Rauschunterdrückung
- die geschätzten Sprachsignale am jeweiligen Hör- bzw. Mikrofonort durch eine aktive
Zuspielung von adaptiven Löschsignalen reduziert. Da die Hörposition in der Praxis
jedoch leicht variabel ist und gleichzeitig Hör- und Mikrofonort einige Zentimeter
voneinander entfernt sind, können damit nur Sprachsignalanteile bis etwa 1.5 kHz aktiv
reduziert werden. Da die Sprachverständlichkeit aber primär durch Konsonanten und
damit Signalanteile mit Frequenzen über 2 kHz dominiert wird, ist dieser Ansatz alleine
unzureichend bzw. allenfalls auch als kritisch zu bewerten, da bei einer unzureichenden
Abstimmung (z.B. falschen Anpassung an die Kopfposition) die Löschsignale genau die
relevanten privaten Informationen tragen und diese sogar verstärken können, so dass
die Sprachverständlichkeit erhöht statt verringert wird. Im Gegensatz dazu ist der
vorgeschlagene Ansatz weniger empfindlich gegenüber den genauen Kopfpositionen des
Sprechers und der mithörenden Person und ermöglicht eine Reduzierung der Sprachverständlichkeit
auch von höherfrequenten Sprachanteilen wie Konsonanten.
[0041] Auf Grund der Modularität des vorgeschlagenen Ansatzes sind auch Ausführungsbeispiele
mit mehreren Audiozonen, wie beispielsweise im Massentransport (Bahn, Flugzeug, Zug)
oder auch anderen Anwendungsfeldern (Entertainment, Kino, etc.) denkbar. Figur 4 stellt
einen derartigen Multizonenansatz anhand eines mehrreihigen Fahrzeuges schematisch
dar, in dem 6 akustische Zonen vorgesehen sind. Wie zuvor sind Lautsprecher und Mikrofone
in die Nackenstützen der Passagiere integriert, wobei die Mikrofone auch in anderen
Positionen vor den jeweiligen Sprechern angeordnet sein können, um eine günstige Anordnung
zur Erfassung der Sprachsignale aufzuweisen. Ähnlich wie in Figur 3 wird in diesem
Beispiel davon ausgegangen, dass der Sprecher hinter dem unerwünschten Mithörer (hier
der Fahrer) sitzt. Die Sprachsignale des sprechenden Insassen können jedoch in gleicher
Weise zur Erzeugung von Maskierungs- bzw. Verschleierungssignalen für andere Insassen
als den Fahrer und auch für mehrere unerwünschte Mithörer herangezogen werden. Selbstverständlich
kann sich auch der Sprecher an einem anderen Ort im Fahrzeug befinden als in dem in
Figur 4 gezeigten Beispiel. Der hier offenbarte Ansatz kann ganz allgemein auf alle
Szenarien angewendet werden, an denen die Sprache eines Sprechers erfasst und erzeugte
Sprachverschleierungssignale gezielt an den oder die unerwünschten Mithörer ausgegeben
werden können.
[0042] Wie eingangs erwähnt, kann es sich bei den Sprachsignalen um ein Telefongespräch
handeln, das der Sprecher mit einer externen Person außerhalb des Raums führt, in
dem sich die akustischen Zonen befinden. Alternativ kann das Gespräch auch zwischen
Personen in dem Raum geführt werden, beispielsweise zwischen dem in Figur 4 gezeigten
Sprecher und dem Insassen rechts neben ihm. In diesem Fall ist in dem zonenbasierten
Audiosystem die gleiche Signalverarbeitung wie für den gezeigten Sprecher auch für
den zweiten Sprecher vorzusehen, so dass auch dessen Sprache erfasst und verarbeitet
wird, um passende Verschleierungssignale für den oder die Mithörer zu generieren.
Bei einem abwechselnden Sprechen der beiden Sprecher muss lediglich der aktuelle Sprecher
bestimmt und die diesem Sprecher zugehörigen Verschleierungssignale ausgegeben werden.
Sprechen beide Sprecher gleichzeitig, so können auch beide Verschleierungssignale
gleichzeitig ausgegeben werden.
[0043] Im Folgenden werden die erforderlichen Signalverarbeitungsschritte für einen beispielhaften
Anwendungsfall beschrieben. In diesem Anwendungsfall führt ein "Hinten-Links"-sitzender
Fahrzeugpassagier als interner Sprecher ein Telefonat mit einer Person außerhalb des
Fahrzeugs. Zusätzlich zu der Sprache des internen Sprechers kann auch die, beispielsweise
vom Lautsprecher der Kopfstütze des internen Sprechers ausgegebene Sprache des externen
Sprechers (
Far End Sprechersignal) als zu verschleiernde Sprache erfasst werden. Diese wird für die Mithörposition
"Vorne Links" für den mithören Fahrzeuglenker retuschiert bzw. verschleiert. Selbstverständlich
handelt es sich hierbei nur um ein mögliches Szenario und die vorgeschlagenen Verfahren
können allgemein für alle möglichen Konfigurationen der Anordnung von Sprecherposition
und Mithörposition herangezogen werden.
[0044] Das mittels der digitalen Signalverarbeitung A geschätzte Signal
sigest für das zu verschleiernde Sprachsignal liefert die Basisgröße für die nachfolgende
Erzeugung des Maskierungs- bzw. Verschleierungssignals. Bei dem zu verschleiernden
Sprachsignal kann es sich um den aktiven internen Sprecher im Fahrzeugraum und/oder
um den externen Sprecher außerhalb handeln. Bei dem Verschleierungssignal kann es
sich um ein breitbandiges Maskierungssignal und/oder um Ablenkungssignale handeln.
Diese generierten Signale (
send to: out LS-Left &
LS-Right) werden über die aktive Nackenstütze an der Mithörposition wiedergegeben. In Ausführungsbeispielen
werden beide Verschleierungssignale erzeugt, addiert und gemeinsam wiedergegeben,
um eine verstärkte Wirkung auf den Mithörer zu haben und dessen Verständlichkeit zu
beeinträchtigen. Durch die Kombination der beiden Verschleierungssignale entsteht
eine synergetische Wirkung dieser Signale bei der Reduzierung der Sprachverständlichkeit.
Das andauernde breitbandige Maskierungssignal erzeugt ein Hintergrundrauschen, wobei
die Lautstärke (Energie) des Signals im Vergleich zu einer Ausgabe nur eines Rauschsignals
reduziert werden kann, so dass eine weniger störende Wirkung erzielt wird. Durch die
zeitlich punktuelle Ausgabe der Ablenkungssignale an geeigneten Positionen (Sprach-Onsets)
wird zielgerichtet die Sprachverständlichkeit dieser Sprachabschnitte (z.B. für Konsonanten)
gestört, ohne dass die Gesamtenergie des Verschleierungssignals signifikant erhöht
wird und die Hörer zusätzlich unangenehm beeinträchtigt werden. Es hat sich sogar
herausgestellt, dass die Ablenkungssignale als weniger unangenehm empfundenen werden,
wenn diese zusammen mit dem Rauschsignal dargeboten werden.
[0045] Figur 5 zeigt ein schematisches Blockschaltbild für die Generierung einer breitbandigen
sprachsignalabhängigen Maskierung. Das Eingangssignal ist das zu verschleiernde Sprachsignal
sigest. Die resultierenden zweikanaligen Ausgangssignale (out LS-Left & LS-Right) werden
an die aktive Nackenstütze an der Mithörposition geschickt, gegebenenfalls mit Ablenkungssignalen
überlagert, und an die mithörende Person mittels an/in der Nackenstütze angebrachter
Lautsprecher ausgegeben.
[0046] Im Folgenden werden die Signalverarbeitungsschritte für die Erzeugung eines breitbandigen
Rauschsignals zur Sprachmaskierung gemäß einem Ausführungsbeispiel im Detail beschrieben.
Es sei angemerkt, dass nicht alle Schritte immer erforderlich sind und einige Schritte
in einer anderen Reihenfolge ausgeführt werden können, wie der Fachmann zu erkennen
weiß. Auch können einige Berechnungen gleichwertig im Frequenzbereich oder im Zeitbereich
durchgeführt werden.
[0047] Zunächst wird das Sprachsignal
sigest in den Frequenzbereich transformiert und sowohl zeitlich wie auch in Frequenzrichtung
geglättet. Hierzu wird zunächst in Abschnitt 100 das Sprachsignal
sigest in Blöcke unterteilt (beispielsweise werden 512 Abtastwerte bei einer Abtastrate
von fs =44.1kHz in Blöcke mit der Dauer von 11,6 ms und 50% Überlappung angeordnet).
Anschließend wird jeder Signalblock in Abschnitt 105 mittels einer Fourier-Transformation
mit NFFT
1 = 1024 Punkten in den Frequenzbereich transformiert.
[0048] In einem weiteren Schritt 110 werden die Fourier-Spektren mit einer Mel-Filterbank
mit M = 24 Bänder gefiltert -d.h. die Spektren werden durch die Mel-Filterbank spektral
komprimiert. Die Filterbank kann aus überlappenden Bändern mit dreiecksförmigem Frequenzgang
bestehen. Die Mittenfrequenzen der Bänder sind äquidistant über der Mel-Skala aufgeteilt.
Das unterste Frequenzband der Filterbank startet bei 0 Hz und das oberste Frequenzband
endet bei der Hälfte der Abtastrate (fs). Für alle Bänder der Filterbank wird in Abschnitt
115 des Blockdiagramms pro Signalblock jeweils ein Kurzzeitenergiewert (RMS-Pegel
bzw. spezifische Lautheitsverläufe der einzelnen Mel-Bänder) berechnet. Diese Kurzzeitenergiewerte
werden in Abschnitt 120 über MA = 120 Blöcke in Form eines gleitenden Mittelwertes
zeitlich gemittelt (Moving Average, 120 Blöcke entsprechen ca. 700 ms).
[0049] In Ausführungsbeispielen werden in Abschnitt 125 diese dynamischen Lautheitsverläufe
in der unmittelbaren Frequenzumgebung vertauscht (Scrambling). Hierzu werden die Lautheitswerte
der Bänder gemäß nachfolgender Tabelle vertauscht, wobei sich die Zuordnung des Bandes
"in" aus der entsprechenden Position in der darunterliegenden Zeile "out" ergibt.
So wird beispielsweise der Lautheitswert von Band Nummer 2 dem Band Nummer 4 zugeordnet
und der Wert von Band 4 wird dem Band 5 zugewiesen, dessen Wert wird Band 3 zugeordnet,
usw. Hierbei werden Vertauschungen der Lautheitswerte mit benachbarten bzw. übernächsten
Bändern erzielt, d.h. der Unterschied zwischen einem Mel-Band und einem vertauschten
Band beträgt in diesem Beispiel maximal zwei Mel-Bänder. Selbstverständlich handelt
es sich bei der gezeigten Tabelle nur um ein mögliches Beispiel zur Vertauschung von
Bändern und andere Realsierungen sind möglich.
|
Bandzuordnung |
in |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
out |
1 |
4 |
2 |
5 |
3 |
6 |
7 |
10 |
8 |
11 |
9 |
12 |
13 |
16 |
14 |
17 |
15 |
18 |
19 |
22 |
20 |
23 |
21 |
24 |
[0050] Mittels der vorgeschlagenen Bandvertauschung werden die Lautheitswerte "verwürfelt"
(scrambled), so dass eine gewisse "Unordnung" in der Verteilung der Lautheitswerte
für einen zugehörigen Sprachabschnitt entsteht, wodurch die Beschreibung dessen spektraler
Energie bzw. dessen Lautheitsverteilung verändert wird, ohne dass die gesamte Energie
bzw. Lautheit des Sprachabschnitts geändert wird. Zum Beispiel wird ein besonders
ausgeprägter Energiegehalt in einem Band in ein anderes Band verschoben oder eine
geringe Energie (Lautheit) in einem Band wird in ein benachbartes Band transformiert.
Es hat sich gezeigt, dass durch die Umverteilung der Energie in benachbarte Bänder
ein besonders effektives Breitbandrauschsignal erzeugt werden kann, welches die Verständlichkeit
des zugehörigen Sprachabschnitts stärker reduziert als ohne Bandvertauschung. Durch
die Vertauschung / Verdrehen der Abfolge der Bins der zeitlich dynamischen Verläufe
der Maskierungsbänder wird die Übertragung von Sprachinformation in dem Rauschsignal
vermieden. Würde man die Sprachenergie in Frequenzbänder (z.B. Mel-Bänder wie oben
beschrieben) erfassen und diese zeitlichen Energieverläufe direkt auf ein Rauschsignal,
ebenfalls in gleiche Frequenzbänder aufgeteilt, in der Amplitude aufmodulieren, dann
würde der Sprachinhalt hörbar - umso verständlicher, wenn schmale Frequenzbänder verwendet
werden. Dieser Effekt wird durch die Bandvertauschung der Lautheitswerte deutlich
reduziert.
[0051] Die gegebenenfalls vertauschten dynamischen Lautheitsverläufe können anhand der aktuellen
Hintergrundspektren (inkl. aller Störgeräusche) in Abschnitt 130 des Blockdiagramms
angepasst werden, um Hintergrundgeräusche und Umgebungssituation zu bewerten. Hierzu
wird das Hintergrundgeräusch z.B. an der Mithörposition erfasst und ähnlich wie für
das Sprachsignal werden die Hintergrundspektren mittels Frequenztransformation und
zeitlicher und frequenzmäßiger Mittelungen bestimmt. Vorzugsweise wird hierfür ein
an der Mithörposition angeordnetes Mikrofon verwendet. Alternativ können auch anderenorts
(aber möglichst in der Nähe der Mithörposition) angeordnete Mikrofone - verwendet
werden, um das Hintergrundgeräusch an der Mithörposition zu erfassen. Nur jene Bänder
des Sprachsignals, die über dem Hintergrundspektrum liegen, müssen bei der Erzeugung
des Maskierungssignals berücksichtigt werden. Sprachbänder, deren Energie unterhalb
der Energie des entsprechenden Hintergrundgeräuschbandes liegen, können vernachlässigt
werden, da sie für die Sprachverständlichkeit keine Rolle spielen bzw. bereits vom
Hintergrundrauschen verdeckt werden. Dies kann beispielsweise geschehen, in dem der
Lautheitswert solcher Sprachbänder auf null gesetzt wird. Mit anderen Worten wird
dann, wenn ein Frequenzband bereits durch ein starkes Hintergrundgeräusch maskiert
wird, in diesem Frequenzband kein zusätzliches Maskierungssignal erzeugt. So wird
situativ entschieden, welche Signalanteile des breitbandigen Maskierungsrauschens
zur Verschleierung der Sprache eingespielt werden.
[0052] In Abschnitt 135 erfolgt eine Interpolation der resultierenden Mithörschwellen (Frequenzachse
abgetastet an 24 Frequenzen, die den 24 Mittenfrequenzen der Mel-Filterbank entsprechen)
an allen Frequenzstützstellen der Fourier-Transformation. Durch die Interpolation
wird für den gesamten Frequenzbereich der Fourier-Transformation wieder ein Spektralwert
für das Sprachsignal erzeugt, zum Beispiel 1024 Werte für die oben genannte Fourier-Transformation
mit NFFT
1 = 1024 Punkten.
[0053] Schließlich erfolgt in Abschnitt 155 eine punktweise Multiplikation der Frequenzstützstellen
(bzw. eine Faltung im Zeitbereich) der so erzeugten Frequenzwerte mit einem Rauschspektrum.
Dieses kann durch einen Rauschgenerator (nicht gezeigt) gewonnen werden, dessen Rauschsignal
analog zum Sprachsignal
sigest durch eine Block-Segmentierung 145 und Fourier-Transformation 150 mit gleichen Dimensionierungen
läuft. Auf diese Weise wird ein breitbandiges Rauschsignal als Maskierungssignal mit
einer ähnlichen Frequenzcharakteristik (vom Vertauschen und Null-Setzen der Abschnitte
125 und 130 abgesehen) wie das Sprachsignal erzeugt. Alternativ kann das Maskierungssignal
auch im Zeitbereich durch Faltung des Rauschsignals mit dem wieder in den Zeitbereich
transformierten Spektralwerten des wie oben beschriebenen verarbeiteten Sprachsignals
(siehe Abschnitte 100 bis 135) erzeugt werden. Durch einen Wechsel zwischen Frequenz-
und Zeitbereich können bei den verschiedenen Verarbeitungsschritten unterschiedliche
Frequenzauflösungen bzw. Zeitdauern verwendet werden. Für jeden Block des Sprachsignals
wird so ein breitbandiges an den Sprachabschnitt des Blocks angepasstes Rauschspektrum
erzeugt.
[0054] In Ausführungsbeispielen schließt sich in Abschnitt 160 eine räumliche Aufbereitung
durch punktweise Multiplikation der Frequenzstützstellen (bzw. Faltung im Zeitbereich
s.o.) mit binauralen Spektren einer akustischen Übertragungsfunktion an, die der Quellrichtung
des Sprechers (bzw. der dominanten Richtung des Energieschwerpunkts des zu maskierenden
Sprachsignals) aus der Sicht der mithörenden Person entspricht. Die Quellrichtung
des Sprechers ist aus der räumlichen Anordnung der akustischen Zonen bekannt. In dem
in Figur 4 gezeigten Beispiel ist die Quellrichtung des Sprechers direkt hinter der
mithörenden Person. In Ausführungsbeispielen mit räumlicher Ausrichtung des Maskierungssignals
ist eine mehrkanalige Wiedergabe (z.B. mittels zweier Lautsprecher) erforderlich.
Ansonsten ist eine einkanalige Wiedergabe ausreichend, die vorzugsweise auch mittels
zwei in der Nackenstütze der mithörenden Person angeordneten Lautsprechern erfolgt.
[0055] Das Breiband-Maskierungssignal kann so räumlich wiedergegeben werden und auf die
Zieleinfallsrichtung des Direktsignals bzw. die prominent wahrgenommene Richtung des
Sprechers angepasst werden. Bedingt durch die binaurale Lautheitsaddition erfolgt
dadurch eine erheblich verbesserte Verdeckung bei geringeren Pegelüberschüssen des
Maskierungsgeräusches.
[0056] In Abschnitt 165 erfolgt eine Rücktransformation (IFFT) der beiden (bei räumlicher
Wiedergabe) resultierenden Spektren (pro Block) in den Zeitbereich und eine Überlagerung
der Blöcke nach der Overlap-Add-Methode (siehe Abschnitt 170). Es wird angemerkt,
dass für die räumliche Wiedergabe ein mehrkanaliges Signal entsteht, das z.B. durch
eine Stereo-Wiedergabe abgespielt werden kann. Falls die vorherigen Schritte bereits
im Zeitbereich ausgeführt wurden, so erübrigen sich selbstverständlich die Rücktransformation
und die Überlagerung der Blöcke.
[0057] Die resultierenden Zeitsignale werden zu der jeweiligen aktiven Nackenstütze des
Mithörers gesendet. Dort können in Ausführungsbeispielen, in denen auch Ablenkungssignale
erzeugt werden, die Maskierungssignale mit den Ablenkungssignalen vor der Ausgabe
über die Lautsprecher der Nackenstütze summiert werden.
[0058] Wie bereits erwähnt, kann die Signalverarbeitung teilweise im Frequenzbereich oder
im Zeitbereich ausgeführt werden. Die oben genannten speziellen Werte sind nur Beispiele
für eine mögliche Konfiguration und können auf vielerlei Weise verändert werden. So
ist eine Frequenzauflösung der FFT-Transformation mit weniger als 1024 Punkten bzw.
eine Aufteilung der Mel-Filter mit mehr oder weniger als 24 Filter möglich. Es ist
auch möglich, dass die Frequenztransformation des Rauschsignals mit anderer Konfiguration
der Blockgröße und/oder der FFT erfolgt als die des Sprachsignals. In diesem Fall
wäre die Interpolation in Abschnitt 135 entsprechend anzupassen, um geeignete Frequenzwerte
zu erzeugen. In einer weiteren Variation werden die blockweise berechneten Maskierungsgeräusche
nach der Interpolation zuerst in den Zeitbereich zurücktransformiert und anschließend
noch einmal in den Frequenzbereich gebracht, um dort die Verräumlichung - ggf. mit
einer anderen spektralen Auflösung - zu berücksichtigen. Der Fachmann erkennt solche
Variationen des erfindungsgemäßen Vorgehens zur Erzeugung eines breitbandigen sprachsignalabhängigen
Maskierungssignals nach dem Studium der vorliegenden Offenbarung.
[0059] In Ausführungsbeispielen werden statt des Maskierungsrauschens Ablenkungssignale
mit kurzer zeitlicher Dauer verwendet, die in zeitlicher und/oder frequenzmäßiger
Hinsicht an für die Verständlichkeit besonders relevante Abschnitte im Sprachsignal
angepasst sind. Im Folgenden wird ein Beispiel für die Erzeugung solcher Ablenkungssignale
beschrieben. Figur 6 zeigt schematisch ein Beispiel für ein Blockschaltbild zur Generierung
von sprachsignalabhängigen Ablenkungssignalen. Die Ablenkung des Mithörers erfolgt
an signalabhängigen definierten Zeitpunkten. Dazu werden die kritischen Zeitpunkte
(t
i,distract) anhand dreier Informationsparameter im Sprachsignal bestimmt: Spektraler Zentroid
"SC" (entspricht etwa der Tonhöhe), Kurzzeitenergie "RMS" (entspricht ungefähr der
Lautstärke) und Anzahl der Nulldurchgänge "ZCR" (zur Unterscheidung Sprachsignal /
Hintergrundrauschen).
[0060] In einem digitalen Speicher sind eine Reihe von vorab gewählten Ablenkungssignale
(z.B. Vogelrufe, Zirpen, ...) mit dazugehörigen Parametern (SC und RMS), erhoben durch
zusätzliche Voranalysen, abgespeichert. Geeignete Ablenkungssignale weisen vorzugsweise
folgende Eigenschaften auf: Sie sind zum einen natürlich Signale, welche den Hörer
aus anderen Situationen / aus dem täglichen Leben bekannt sind und somit nicht mit
dem zu verdeckenden Signal und Kontext in Verbindung stehen. Des Weiteren sind Sie
dadurch charakterisiert, dass Sie akustisch markante Signale von kurzer Dauer darstellen
und ein möglichst breitbandiges Spektrum aufweisen. Weitere Beispiele für solche Signale
sind Wassertropfgeräusche bzw. Wasserwellenschläge oder kurzzeitige Windböen. Üblicherweise
sind die Ablenkungssignale länger als die relevanten Sprachabschnitte (z.B. Konsonanten)
und überdecken diese vollständig. Es ist auch möglich, Ablenkungssignale unterschiedlicher
Länge zu speichern und passend zu der Dauer des aktuellen kritischen Zeitpunkts auszuwählen.
[0061] Ein Ablenkungssignal wird ausgewählt und an den aktuellen Sprachabschnitt zeitlich
und frequenzmäßig angepasst. Das angepasste Ablenkungssignal kann dann aus einer virtuellen
räumlichen Position an den Mithörer wiedergegeben werden. Für die Verräumlichung (BRTF)
können kurze Impulsantworten (256 Punkte) für die Simulation der Außenohrübertragungsfunktion
verwendet werden, damit diese Ablenkungssignale vom Mithörer möglichst nahe und präsent
am Kopf lokalisiert werden und so eine starke Ablenkungswirkung erzielen. Für die
räumliche Wiedergabe ist eine mehrkanalige (z.B. in Stereo) Wiedergabe erforderlich.
[0062] Im Folgenden werden die Signalverarbeitungsschritte für die Erzeugung von diskreten,
räumlich verteilten, kurzen Ablenkungssignalen gemäß einem Ausführungsbeispiel im
Detail beschrieben. Es sei angemerkt, dass nicht alle Schritte immer erforderlich
sind und einige Schritte in einer anderen Reihenfolge ausgeführt werden können, wie
der Fachmann zu erkennen weiß. Auch können einige Berechnungen gleichwertig im Frequenzbereich
oder im Zeitbereich durchgeführt werden. Einige der Verarbeitungsschritte entsprechen
denjenigen zur Erzeugung von breitbandigen Maskierungssignalen und müssen deshalb
in Ausführungsbeispielen, die beide Signalarten zur Verschleierung von Sprache verwenden,
nicht erneut ausgeführt werden.
[0063] In Abschnitt 200 wird das Sprachsignal
sigest in Blöcke (BlockLength = 512 Samples, fs = 44.1kHz) mit der Dauer von 11.6 ms und
50% Überlappung (HopSize = 256) unterteilt (vgl. Abschnitt 100).
[0064] Aus diesen Blöcken XBuffer
n(m), mit n = Blockindex und m = Zeitsample, wird in Abschnitt 205 die Anzahl der Nulldurchgänge
(zero-crossing-rate, ZCR) pro Signalblock ermittelt. Dies kann mittels folgender Formel
erfolgen:

[0065] In Abschnitt 210 wird jeder Signalblock einer Fourier-Transformation mit NFFT
2 = 1024 Punkte (vgl. Abschnitt 105) unterzogen.
[0066] Aus diesen Spektren S(k,n) mit k = Frequenzindex und n = Blockindex werden in den
Abschnitten 215 und 220 zwei weitere Parameter berechnet: die Kurzzeitenergie (RMS)
und der Spektrale Schwerpunkt (Spectral Centroid, SC):

[0067] Die Verläufe der Kurzzeitenergie RMS und der Nulldurchgangsrate ZCR können weiterhin
mittels signalabhängiger Schwellwerte gefiltert und Bereiche, die diesen Schwellwerten
nicht genügen, ausgeblendet werden (z.B. auf null gesetzt). Die Schwellwerte können
zum Beispiel so gewählt werden, dass ein bestimmter Prozentsatz der Signalwerte darüber
oder darunter liegen.
[0068] Jedes Spektrum wird in Abschnitt 225 mit einem rekursiven zeitdiskreten Filter 1.
Ordnung: H(z) = Bs(z)/As(z), wobei Bs = 0.3 und As(z) = 1 - (Bs-1)*z
-1 in beide Richtungen spektral geglättet (= akausales, null-phasiges Filter 2. Ordnung).
[0069] Die resultierenden Spektren werden in Abschnitt 230 mit einem rekursiven zeitdiskreten
Filter 1. Ordnung: H(z) = Bt(z)/At(z), wobei Bt = 0.3 und At(z) = 1 - (Bs-1)*z
-1 zeitlich geglättet.
[0070] Für die Detektion von für die Sprachverständlichkeit relevanten Abschnitten (Onsets)
des Sprachsignals (Onset-Detektion) wird in Abschnitt 235 zuerst eine Onset-Detektionsfunktion
ermittelt. Dazu werden die spektral und zeitlich gemittelten Spektren über die Frequenzachse
addiert. Das resultierende Signal wird logarithmiert und zeitlich differenziert, wobei
negative Werte Null gesetzt werden. Vor der Logarithmierung kann eine Regularisierung
(z.B. die Addition einer kleinen Zahl an allen Frequenzstützstellen) stattfinden,
um Nullwerte zu vermeiden.
[0071] Diese Onset-Detektionsfunktion wird nach lokalen Maxima untersucht, wobei diese mindestens
eine vorgegebene Anzahl von Blöcken voneinander entfernt sein müssen. Die so gefundenen
Maxima können weiter mittels eines signalabhängigen Schwellwerts gefiltert werden,
so dass nur besonders ausgeprägte Maxima verbleiben Derart bestimmte lokale Maxima
der Onset-Detektionsfunktion sind Kandidaten für wahrnehmungs-relevante Abschnitte
des Sprachsignals, die selektiv mittels Ablenkungssignal gestört werden sollen.
[0072] In Ausführungsbeispielen werden die so ermittelten Maxima der Onset-Detektionsfunktion
in Abschnitt 240 über eine Logikeinheit auf Plausibilität anhand der Parameter: ZCR,
RMS und SC überprüft. Nur wenn diese Werte in einem definierten Bereich liegen, werden
diese Maxima als relevante, kritische Zeitpunkte
ti,distract festgelegt. Dies kann beispielsweise dadurch erfolgen, dass zu den Zeiten von ermittelten
Maxima der Onset-Detektionsfunktion die Werte von RMS, SC und/oder ZCR bestimmte logische
Bedingungen erfüllen müssen (z.B. RMS>X1; X2<SC<X3; ZCR>X4 mit X1 bis X4 vorgegebenen
Schwellwerten). In Ausführungsbeispielen werden zum Beispiel nur solche Maxima berücksichtigt,
die in Zeitabschnitten liegen, die den oben genannten Filterbedingungen für RMS und
ZCR genügen (d.h. nicht in ausgeblendeten Bereichen liegen). Die Bedingung, dass ZCR
und RMS gleichzeitig bestimmte Schwellwertbedingungen erfüllen müssen, kann auch dazu
genutzt werden, den Verlauf von SC zu filtern, indem die Werte von SC bei Erfüllung
der Schwellwertbedingungen beibehalten werden und dazwischenliegende Werte interpoliert
bzw. extrapoliert werden, wodurch die Funktion SC
int entsteht.
[0073] An den ermittelten Zeitpunkten
ti,distract werden aus einem Bouvier von N in einem Speicher 250 digital abgelegten Ablenkungssignalen
je eines zufällig ausgewählt (mittels Abschnitt 245). Zu diesen Ablenkungssignalen
finden sich im Speicher 250 zusätzliche Metadaten: SC und RMS-Werte.
[0074] Das ausgewählte Ablenkungssignal wird in Abschnitt 255 in Blöcke unterteilt (vgl.
oben mit BlockLength
2 und Hopsize = BlockLength
2 bzw. Overlap = 0) und anschließend in Abschnitt 260 mit NFFT
2 Punkte Fourier-Transformiert. Die Parameter dieser Frequenztransformation können
unterschiedlich und unabhängig von der obigen Ausführung für das zu maskierende Sprachsignal
sein. Alternativ könnte die Frequenzdarstellung eines Ablenkungssignals auch direkt
im Frequenzbereich abgelegt werden.
[0075] Die resultierenden Spektren können in Abschnitt 265 signalabhängig von
sigest zum jeweiligen Zeitpunkt
ti,distract anhand der
SC Parameterverhältnisse in der Frequenzlage (z.B. durch Einseitenbandmodulation) und/oder
anhand der RMS Parameterverhältnisse in der Verstärkung angepasst werden. Hierzu wird
das Verhältnis der spektralen Schwerpunkte SC des jeweiligen Sprachsignalabschnitts
an einem Onset-Zeitpunkt
ti,distract und des zugehörigen Ablenkungssignals gebildet und die Frequenzlage des Ablenkungssignals
wird so angepasst, dass sie mit der des Sprachsignals möglichst übereinstimmt. Dies
kann dadurch erfolgen, dass der Wert der Funktion SC
int des interpolierten spektralen Schwerpunkts an einem Onset-Zeitpunkt SC
int(
ti,distract) mit dem SC-Wert des ausgewählten Ablenkungssignals verglichen und ein Verstimmungsparameter
bestimmt wird, wobei positive Werte des Verstimmungsparameter ein Anheben in der Tonhöhe
des Ablenkungssignals mittels Einseitenbandmodulation bedeuten und negative Werte
zu einer Absenkung der Tonhöhe führen.
[0076] Auch die Energie (RMS) des Ablenkungssignals wird an die Energie des Sprachsignalabschnitts
angepasst, so dass ein vorbestimmtes Energieverhältnis für das Ablenkungssignal zu
Sprachsignal erzielt wird. Aufgrund der hohen Wirksamkeit bei der Reduzierung der
Sprachverständlichkeit können die Ablenkungssignale mit einer geringen Lautstärke
wiedergegeben werden, so dass der Gesamtschalldruckpegel an den Sitzpositionen der
mithörenden Passagiere nur minimal steigt und die Belästigung bzw. Beeinträchtigung
der Passagiere nicht erhöht wird bzw. der lokale Hörkomfort bestmöglich erhalten bleibt.
[0077] In Ausführungsbeispielen werden die resultierenden modifizierten Spektren der Ablenkungssignale
abhängig von einer zufälligen Richtungsauswahl je
ti,distract Zeitpunkt in Abschnitt 270 räumlich variabel durch eine binaurale Raum-Übertragungsfunktion
(BRTF) mittels punktweiser Multiplikation der Frequenzstützstellen (bzw. Faltung im
Zeitbereich) der entsprechenden Spektren abgebildet. Hierzu wird in Abschnitt 275
für ein Ablenkungssignal zufällig eine Richtung ausgewählt. Im Speicher 280 befinden
sich zu den möglichen Richtungen passende binaurale Raum-Übertragungsfunktionen (BRTF).
Wie bereits oben für das Maskierungsrauschen ausgeführt, kann die Verräumlichung im
Frequenz- oder Zeitbereich ausgeführt werden. Im Zeitbereich wird hierzu eine Faltung
mit der Impulsantwort einer ausgewählten Außenohrübertragungsfunktion durchgeführt.
Die Verräumlichung der Ablenkungssignale erfolgt vorzugsmäßig so dass die Ablenkungssignale
vom Mithörer möglichst nahe und präsent am Kopf lokalisiert werden, damit diese eine
starke Ablenkungswirkung erzielen. Für die räumliche Wiedergabe ist eine mehrkanalige
(z.B. in Stereo) Wiedergabe erforderlich, ansonsten wäre eine einkanalige Wiedergabe
ausreichend, die jedoch vorzugsweise auch mittels zwei in der Nackenstütze integrierten
Lautsprechern erfolgt.
[0078] Im Falle einer Verräumlichung des Ablenkungssignals im Frequenzbereich werden in
Abschnitt 285 die Faltungsergebnisse durch eine inverse Fourier-Transformation (IFFT)
mit NFFT
2 Punkte zurück in den Zeitbereich transformiert. Die rücktransformierten Zeitblöcke
werden in Abschnitt 290 mit Hilfe der Overlap-and-Add Methode miteinander überlagert.
Falls die vorherigen Schritte bereits im Zeitbereich ausgeführt wurden, so erübrigt
sich selbstverständlich die Rücktransformation und die Überlagerung der Blöcke.
[0079] Die resultierenden Zeitsignale werden zu der jeweiligen aktiven Nackenstütze des
Mithörers gesendet. Dort können in Ausführungsbeispielen, in denen auch Maskierungsrauschsignale
erzeugt werden, die Maskierungssignale mit den Ablenkungssignalen vor der Ausgabe
über die Lautsprecher der Nackenstütze summiert werden.
[0080] Das sprachsignalangepasste Ablenkungssignal erzeugt zufällig räumlich verteilte Anreger
/ Trigger-Informationen und verschleiert das Sprach-Zielsignal verbessert, ohne erhebliche
permanent einwirkende Signalpegel.
[0081] Wie bereits erwähnt, kann die Signalverarbeitung teilweise im Frequenzbereich oder
im Zeitbereich ausgeführt werden. Die oben genannten speziellen Werte sind nur Beispiele
für eine mögliche Konfiguration der Frequenztransformation und können auf vielerlei
Weise verändert werden. In einer möglichen Variation werden die energie- und frequenzmäßig
angepassten Spektren (siehe Abschnitt 265) zuerst in den Zeitbereich zurücktransformiert
und anschließend noch einmal in den Frequenzbereich gebracht, um dort die Verräumlichung
- ggf. mit einer anderen spektralen Auflösung - zu berücksichtigen. Der Fachmann erkennt
solche Variationen des erfindungsgemäßen Vorgehens zur Erzeugung von sprachsignalabhängigen
Ablenkungssignalen nach dem Studium der vorliegenden Offenbarung.
[0082] In Ausführungsbeispielen werden beide Verschleierungssignale - breitbandiges Maskierungsrauschen
und Ablenkungssignale - vor der Ausgabe summiert und gemeinsam wiedergegeben. Durch
das Maskierungsrauschen, das vorzugsweise aus der Richtung des Sprechers wahrgenommen
wird, wird ein breitbandiges, an die spektralen Eigenschaften des jeweiligen Sprachabschnitts
angepasstes Rauschsignal erzeugt, dem punktuell (in zeitlicher wie frequenzmäßiger
Hinsicht) kurze Ablenkungssignale an besonders relevanten Stellen überlagert werden.
Diese Ablenkungssignale werden räumlich in Kopfnähe wahrgenommen und führen zu einer
besonders wirksamen Reduzierung des Sprachverständlichkeit, selbst wenn sie mit geringer
Lautstärke bzw. Energie wiedergegeben werden. Durch die Kombination mit dem breitbandigen
Maskierungsrauschen wird das kurzzeitige An- und Ausschalten der Ablenkungssignale
jedoch weniger als störend bzw. beeinträchtigend wahrgenommen. Der Gesamtschalldruckpegel
an den Sitzpositionen der mithörenden Passagiere steigt nur minimal und die Belästigung
bzw. Beeinträchtigung der Passagiere wird nicht erhöht bzw. der lokale Hörkomfort
bleibt bestmöglich erhalten.
[0083] Die obige Beschreibung von Ausführungsbeispielen weist eine Vielzahl von Details
auf, die für die durch die Ansprüche definierte Erfindung nicht wesentlich sind. Die
Beschreibung der Ausführungsbeispiele dient dem Verständnis der Erfindung und ist
rein illustrativ und ohne beschränkende Wirkung auf den Schutzbereich zu verstehen.
Der Fachmann erkennt, dass die beschriebenen Elemente und ihre technischen Effekte
in unterschiedlicher Weise miteinander kombiniert werden können, so dass weitere durch
die Ansprüche abgedeckte Ausführungsbeispiele entstehen können. Weiterhin können die
beschriebenen technischen Merkmale in Vorrichtungen und Verfahren, beispielsweise
durch programmierbare Vorrichtungen ausgeführt, verwendet werden. Sie können insbesondere
durch Hardwareelemente oder durch Software implementiert werden. Bekanntermaßen erfolgt
die Implementierung von digitaler Signalverarbeitung bevorzugt durch speziell ausgebildete
Signalprozessoren. Die Kommunikation zwischen einzelnen Komponenten der beschriebenen
Vorrichtung kann drahtgebunden (z.B. mittels eines Bussystems) oder drahtlos (z.B.
mittels Bluetooth oder WiFi) erfolgen. Ausdrücklich soll auch Schutz für eine computerimplementierte
Realisierung und den zugehörigen Programm- oder Maschinencode in Form von Datenträgern
oder in einer herunterladbaren Darstellung beansprucht werden.
1. Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem,
aufweisend:
Erfassen eines zu maskierenden Sprachsignals in einer Audiozone;
Transformieren des erfassten Sprachsignals in spektrale Bänder;
Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern;
Erzeugen eines Rauschsignals basierend auf den vertauschten Spektralwerten; und
Ausgeben des Rauschsignals als Maskierungssignal für das Sprachsignal in einer anderen
Audiozone.
2. Verfahren nach Anspruch 1, wobei das Erzeugen eines Rauschsignals basierend auf den
vertauschten Spektralwerten aufweist:
Erzeugen eines breitbandigen Rauschsignals;
Transformieren des erzeugten Rauschsignals in den Frequenzbereich; und
Multiplizieren der Frequenzdarstellung des Rauschsignals mit einer Frequenzdarstellung
des Sprachsignals unter Berücksichtigung der vertauschten Spektralwerte.
3. Verfahren nach Anspruch 2, wobei die Frequenzdarstellung des Sprachsignals durch eine
Interpolation der Spektralwerte der Bänder nach dem Vertauschen von Spektralwerten
erzeugt wird.
4. Verfahren nach einem der vorherigen Ansprüche, weiter aufweisend:
Schätzen eines Hintergrundrauschspektrums;
Vergleichen von Spektralwerten des Sprachsignals mit dem Hintergrundrauschspektrum;
und
Berücksichtigen nur von Spektralwerten des Sprachsignals, die größer als die entsprechenden
Spektralwerte des Hintergrundrauschspektrums sind.
5. Verfahren nach einem der vorherigen Ansprüche, wobei die Transformation des erfassten
Sprachsignals in spektrale Bänder für Blöcke des Sprachsignals und mittels einer Mel-Filterbank
erfolgt und optional eine zeitliche Glättung der Spektralwerte für die Mel-Bänder
erfolgt.
6. Verfahren nach einem der vorherigen Ansprüche, wobei das Rauschsignal bei der Ausgabe
mittels einer mehrkanaligen Wiedergabe räumlich dargestellt wird, vorzugsweise durch
Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion.
7. Verfahren nach Anspruch 6, wobei das Rauschsignal in der anderen Audiozone derart
räumlich ausgegeben wird, dass es aus der dominanten Richtung des Sprechers des zu
maskierenden Sprachsignals zu stammen scheint.
8. Verfahren nach einem der vorherigen Ansprüche, weiter aufweisend:
Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal;
Erzeugen eines Ablenkungssignals für den bestimmten Zeitpunkt; und
Ausgeben des Ablenkungssignals zu dem bestimmten Zeitpunkt als weiteres Maskierungssignal
in der anderen Audiozone.
9. Verfahren nach Anspruch 8, wobei der für die Sprachverständlichkeit relevante Zeitpunkt
anhand von Extremwerten einer spektralen Funktion des Sprachsignals bestimmt wird,
wobei die spektrale Funktion basierend auf einer Addition von, optional gemittelten,
Spektralwerten über die Frequenzachse bestimmt wird.
10. Verfahren nach Anspruch 8 oder 9, wobei der für die Sprachverständlichkeit relevante
Zeitpunkt anhand von Parametern des Sprachsignals, wie Nulldurchgangsrate, Kurzzeitenergie
und/oder spektraler Schwerpunkt, verifiziert wird.
11. Verfahren nach einem derAnsprüche 8 bis 10, wobei das Ablenkungssignal für den bestimmten
Zeitpunkt zufällig aus einer Menge von vorgegebenen Ablenkungssignalen ausgewählt
und hinsichtlich einer spektralen Charakteristik und/oder seiner Energie an das Sprachsignal
angepasst wird.
12. Verfahren nach einem der Ansprüche 8 bis 11, wobei das Ablenkungssignal bei der Ausgabe
mittels einer mehrkanaligen Wiedergabe räumlich dargestellt wird, vorzugsweise durch
Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion.
13. Verfahren nach Anspruch 12, wobei das Ablenkungssignal in der anderen Audiozone derart
räumlich ausgegeben wird, dass es aus einer zufälligen Richtung und/oder in Kopfnähe
eines Hörers in der anderen Audiozone zu stammen scheint.
14. Vorrichtung zur Erzeugung eines Maskierungssignals in einem zonenbasierten Audiosystem,
die ein zu maskierende Sprachsignal empfängt und das Maskierungssignal basierend auf
dem Sprachsignal erzeugt, aufweisend:
Mittel zum Transformieren des erfassten Sprachsignals in spektrale Bänder;
Mittel zum Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern; und
Mittel zum Erzeugen eines Rauschsignals als Maskierungssignal basierend auf den vertauschten
Spektralwerten.
15. Vorrichtung nach Anspruch 14, weiter aufweisend:
Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im
Sprachsignal;
Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und
Mittel zum Addieren des Rauschsignals und des Ablenkungssignals und zum Ausgeben des
Summensignals als Maskierungssignal.
16. Vorrichtung nach Anspruch 14 oder 15, weiter aufweisend:
Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals, die eine
räumliche Wiedergabe des Maskierungssignals ermöglicht.
17. Zonenbasiertes Audiosystem mit einer Mehrzahl von Audiozonen, wobei eine Audiozone
zumindest ein Mikrofon zum Erfassen eines Sprachsignals und eine andere Audiozone
mindestens einen Lautsprecher aufweist, wobei Mikrofon und Lautsprecher bevorzugt
in Nackenstützen von Sitzen für Insassen eines Fahrzeugs angeordnet sind, wobei das
Audiosystem eine Vorrichtung zur Erzeugung eines Maskierungssignals gemäß den Ansprüchen
14 bis 16 aufweist, die ein Sprachsignal von einem Mikrofon der einen Audiozone erhält
und das Maskierungssignal an den oder die Lautsprecher der anderen Audiozone sendet.