(19)
(11) EP 4 167 228 A1

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
19.04.2023  Patentblatt  2023/16

(21) Anmeldenummer: 21203247.8

(22) Anmeldetag:  18.10.2021
(51) Internationale Patentklassifikation (IPC): 
G10K 11/175(2006.01)
(52) Gemeinsame Patentklassifikation (CPC) :
G10K 11/1754
(84) Benannte Vertragsstaaten:
AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR
Benannte Erstreckungsstaaten:
BA ME
Benannte Validierungsstaaten:
KH MA MD TN

(71) Anmelder: Audio Mobil Elektronik GmbH
5282 Braunau am Inn - Ranshofen (AT)

(72) Erfinder:
  • Stottan, Thomas
    5282 Braunau am Inn (AT)
  • Hatheier, Thomas
    4963 St. Peter am Hart (AT)
  • Sontacchi, Alois
    8112 Gratwein-Straßengel (AT)

(74) Vertreter: MERH-IP Matias Erny Reichl Hoffmann Patentanwälte PartG mbB 
Paul-Heyse-Strasse 29
80336 München
80336 München (DE)

   


(54) AUDIO-MASKIERUNG VON SPRECHERN


(57) Die vorliegende Offenbarung betrifft ein Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem, aufweisend: Erfassen eines zu maskierenden Sprachsignals in einer Audiozone; Transformieren des erfassten Sprachsignals in spektrale Bänder; Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern; Erzeugen eines Rauschsignals basierend auf den vertauschten Spektralwerten; und Ausgeben des Rauschsignals als Maskierungssignal für das Sprachsignal in einer anderen Audiozone.




Beschreibung


[0001] Die vorliegende Offenbarung betrifft die Erzeugung eines Maskierungssignals für Sprache in einem zonenbasierten Audiosystem.

[0002] Moderne Kommunikationsmittel und deren immer weiter gesteigerte Abdeckung ermöglichen eine nahezu überall stattfindende Kommunikation, zum Beispiel in Form von Telefongesprächen. Im öffentlichen Raum können andere Personen oftmals solche Gespräche mithören und ihren Inhalt verstehen. Dies ist insbesondere dann ein Problem, wenn es sich um vertrauliche private oder geschäftliche Gespräche handelt. Ein solches Szenario existiert in öffentlichen Beförderungsmitteln, wie Zug oder Flugzeug, aber auch in privaten Fahrzeugen, wie Taxis oder gemieteten Limousinen. In diesen Fällen befinden sich neben dem Sprecher weitere Personen an festen Plätzen, zum Beispiel an zugewiesenen Sitzplätzen. Oftmals haben derartige Sitzplätze ein zugehöriges Audiosystem oder zumindest Komponenten davon. Zum Beispiel können Lautsprecher zur individuellen Wiedergabe von Audioinhalten in diesen Sitzen vorgesehen sein, beispielsweise in Nackenstützen integriert, was auch als ein zonenbasiertes Audiosystem bezeichnet wird.

[0003] Neben Telefongesprächen kann das Problem eines unerwünschten Mithörens auch bei Gesprächen zwischen Personen auftreten. Zum Beispiel können sich zwei Passagiere im Fond eines Taxis über ein vertrauliches Thema unterhalten, bei dem das Mithören durch den Fahrer unerwünscht ist.

[0004] Aus dem Stand der Technik ist bekannt, dass ein unerwünschtes Mithören durch das Zuspielen von lautem Rauschen reduziert werden kann. Dies erhöht jedoch den Geräuschpegel für alle Beteiligten und wird als unangenehme Beeinträchtigung empfunden, die auch die Aufmerksamkeit und das Reaktionsvermögen beeinflussen kann, was besonders im Straßenverkehr unerwünscht ist.

[0005] Das vorliegende Dokument befasst sich mit der technischen Aufgabe, in einem zonenbasierten Audiosystem ein Maskierungssignal zu generieren, das ein unerwünschtes Mithören eines Gesprächs reduziert und gleichzeitig keine unangenehme Beeinträchtigung darstellt.

[0006] Die Aufgabe wird durch die Merkmale der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen werden in den abhängigen Ansprüchen beschrieben.

[0007] Gemäß einem ersten Aspekt wird ein Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem offenbart. Das Verfahren umfasst das Erfassen eines zu maskierenden Sprachsignals in einer Audiozone, z.B. mittels eines oder mehrerer günstig platzierter Mikrofone, die beispielsweise in einer Nackenstütze eines Sitzes angeordnet sein können. Das Sprachsignal kann von dem lokalen Sprecher eines Telefongesprächs stammen oder zu einem Gespräch zwischen anwesenden Personen gehören. Das erfasste Sprachsignal wird dann in spektrale Bänder transformiert, was beispielsweise mittels einer FFT und Mel-Filtern erfolgen kann. Weiter weist das Verfahren das Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern auf, wodurch die spektrale Struktur des Sprachsignals verändert wird, ohne dass dessen gesamter Energiegehalt verändert wird. Sodann erfolgt das Erzeugen eines (möglichst breitbandigen) Rauschsignals basierend auf den vertauschten Spektralwerten. Das erzeugte Rauschsignal weist zwar eine gewisse Ähnlichkeit mit dem Spektrum des Sprachsignals auf, stimmt jedoch nicht vollständig damit überein, da durch die Vertauschung der Bänder die spektrale Struktur des Sprachsignals nicht mehr vollständig erhalten ist. Ein solches Rauschsignal mit einem ähnlichen aber doch nicht gleichen Spektrum wie das Sprachsignal eignet sich gut als Maskierungssignal für das Sprachsignal. Es sei noch angemerkt, dass eine beliebige Anzahl von Bändern vertauscht werden kann (z.B. auch alle), wobei durch vermehrte Vertauschung von Bändern mehr Variation im Rauschspektrum entsteht. Schließlich wird das Rauschsignal als Maskierungssignal unter möglichst geringer Energieeinbringung in einer anderen Audiozone ausgegeben, um einer sich dort am Mithörort befindlichen Person das Mithören des Gesprächs zu erschweren, indem die Sprachverständlichkeit für diese Person reduziert wird.

[0008] Das Erzeugen eines Rauschsignals basierend auf den vertauschten Spektralwerten kann das Erzeugen eines breitbandigen Rauschsignals, z.B. durch einen Rauschgenerator, und das Transformieren des erzeugten Rauschsignals in den Frequenzbereich aufweisen. Weiter kann das Multiplizieren der Frequenzdarstellung des Rauschsignals mit einer Frequenzdarstellung des Sprachsignals unter Berücksichtigung der vertauschten Spektralwerte erfolgen. Durch die Multiplikation im Frequenzbereich wird ein Rauschspektrum erzeugt, das im Wesentlichen dem des Sprachsignals nach dem Vertauschen der spektralen Bänder entspricht, also ähnlich, aber doch nicht gleich zu dem Sprachspektrum ist. Ein ähnlicher Effekt kann auch durch eine Faltung im Zeitbereich erzielt werden.

[0009] Die Frequenzdarstellung des Sprachsignals kann durch eine Interpolation der Spektralwerte der Bänder (beispielsweise vorliegend im Mel-Bereich) nach dem Vertauschen der Spektralwerte erzeugt werden. Durch die Interpolation werden aus den (relativ wenigen) spektralen Werten der Bänder die erforderlichen Werte an den Frequenzstützwerten für die Multiplikation mit dem Rauschspektrum erzeugt.

[0010] Das Verfahren kann weiterhin ein Schätzen eines Hintergrundrauschspektrums (vorzugweise am Mithörort) und das Vergleichen von Spektralwerten des Sprachsignals mit dem Hintergrundrauschspektrum aufweisen. Das Vergleichen der Spektralwerte erfolgt vorzugsweise (aber nicht zwingend) in dem Bereich der spektralen Bänder (z.B. Mel-Bänder), was zur Folge hat, dass auch das Hintergrundrauschspektrum in den spektralen Bändern dargestellt werden muss. Weiterhin können nur Spektralwerte des Sprachsignals, die größer als die entsprechenden Spektralwerte des Hintergrundrauschspektrums sind (oder in einem vorbestimmten Verhältnis dazu stehen), für das weitere Vorgehen (z.B. die oben genannte Interpolation) berücksichtigt werden. Spektrale Anteile des Sprachsignals, die bereits von dem Hintergrundrauschen verdeckt werden, brauchen für die Generierung des Maskierungssignals nicht berücksichtigt werden und können ausgeblendet werden (z.B. indem sie auf null gesetzt werden). Die Berücksichtigung des Hintergrundrauschens kann sowohl vor als auch nach der Vertauschung von spektralen Werten erfolgen. Im ersteren Fall stimmen die zu vergleichenden spektralen Bänder noch genau überein und das Hintergrundrauschen wird korrekt berücksichtigt. Im letzteren Fall wird durch die Vertauschung von Bändern und das Ausblenden von Bändern mit niedriger Energie im Sprachsignal eine zusätzliche Variation in das Rauschspektrum eingeführt, die zu einer erhöhten Maskierung führen kann. Dies ermöglicht ein an den Hintergrund bzw. die Umgebung angepasstes Maskierungssignal, das unter möglichst geringer Energieeinbringung in der Audiozone des Mithörers ausgegeben werden kann.

[0011] Die Transformation des erfassten Sprachsignals in spektrale Bänder kann für Blöcke des Sprachsignals und mittels einer Mel-Filterbank erfolgen. Optional ist es möglich, eine zeitliche Glättung der Spektralwerte für die Mel-Bänder, z.B. in Form eines gleitenden Mittelwertes, auszuführen.

[0012] In einer weiteren Ausgestaltung der Erfindung kann das Rauschsignal bei der Ausgabe mittels einer mehrkanaligen (d.h. zumindest 2-kanaligen) Wiedergabe räumlich dargestellt werden. Hierzu kann eine mehrkanalige Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglicht, erzeugt werden. Für 2-kanalige Systeme kann dies vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion erfolgen. Durch die räumliche Wiedergabe wird der Effekt des Maskierungssignals zur Verschleierung der Sprache am Mithörort erhöht, insbesondere wenn das Rauschsignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus der Richtung des Sprechers des zu maskierenden Sprachsignals zu stammen scheint.

[0013] Zusätzlich zu dem oben beschriebenen Maskierungssignal, das auf einem breitbandigen, an das Sprachsignal angepassten Rauschsignal basiert, kann noch eine weitere Komponente für das Maskierungssignal erzeugt werden, die zusammen an den Mithörer in der zweiten Audiozone ausgegeben werden. Hierzu kann das Verfahren das Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal (z.B. das Vorliegen von Konsonanten im Sprachsignal) und das Erzeugen eines geeigneten Ablenkungssignals für den bestimmten Zeitpunkt aufweisen. Dann kann das Ausgeben des Ablenkungssignals zu dem bestimmten Zeitpunkt als weiteres Maskierungssignal in der anderen Audiozone erfolgen, wodurch eine punktuelle zusätzliche Verschleierung (Maskierung) des Gesprächsinhalts bei Sprach-Onsets erfolgt. Da das Ablenkungssignal nur an bestimmten relevanten Zeitpunkten ausgegeben wird, erhöht es den Gesamtschallpegel nicht wesentlich und führt zu keiner signifikanten Beeinträchtigung.

[0014] Der für die Sprachverständlichkeit relevante Zeitpunkt kann anhand von Extremwerten (z.B. lokale Maxima, Onsets) einer spektralen Funktion des Sprachsignals bestimmt werden, wobei die spektrale Funktion basierend auf einer Addition von Spektralwerten über die Frequenzachse bestimmt wird. Die Spektralwerte können zuvor in zeitlicher und/oder in frequenzmäßiger Richtung geglättet werden. Nach der Addition der Spektralwerte über die Frequenzachse können die Summenwerte optional logarithmiert werden. Um lokale Maxima für die Detektion von relevanten Zeitpunkten zu erzeugen, können die (optional logarithmierten) Summenwerte zeitlich differenziert werden.

[0015] Weiterhin können die für die Sprachverständlichkeit relevanten Zeitpunkte anhand von Parametern des Sprachsignals, wie Nulldurchgangsrate, Kurzzeitenergie und/oder spektraler Schwerpunkt, verifiziert werden. Es ist auch möglich, zeitliche Beschränkungen für Extremwerte zu berücksichtigen, so dass diese zum Beispiel einen vorgegebenen zeitlichen Mindestabstand aufweisen müssen.

[0016] Das Ablenkungssignal für einen bestimmten Zeitpunkt kann dann zufällig aus einer Menge von vorgegebenen Ablenkungssignalen ausgewählt werden. Diese können in einem Speicher für die Auswahl bereitgehalten werden. Es hat sich als vorteilhaft herausgestellt, wenn das Ablenkungssignal hinsichtlich seiner spektralen Charakteristik und/oder seiner Energie an das Sprachsignal angepasst wird. So kann der spektrale Schwerpunkt des Ablenkungssignals an den spektralen Schwerpunkt des entsprechenden Sprachabschnitts zu dem bestimmten Zeitpunkt angepasst werden, z.B. mittels einer Einseitenbandmodulation. Ein Sprachabschnitt mit einem hohen spektralen Schwerpunkt kann so mit einem Ablenkungssignal mit einem ebenfalls hohen spektralen Schwerpunkt (ggf. sogar mit dem gleichen spektralen Schwerpunkt) maskiert werden, was zu einer höheren Wirksamkeit der Maskierung führt. Auch kann die Energie des Ablenkungssignals an die Energie des Sprachabschnitts angepasst werden, um kein zu lautes und übermäßig störendes Maskierungssignal zu erzeugen.

[0017] In einer weiteren Ausgestaltung der Erfindung kann das Ablenkungssignal bei der Ausgabe mittels einer mehrkanaligen räumlichen Wiedergabe dargestellt werden, vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion, wodurch eine mehrkanalige (zumindest 2-kanalige) Darstellung des Ablenkungssignals erzeugt wird, die eine räumliche Wiedergabe des Ablenkungssignals ermöglicht. Durch die räumliche Wiedergabe wird der Effekt des Ablenkungssignals zur Verschleierung der Sprache am Mithörort erhöht, insbesondere, wenn das Ablenkungssignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus einer zufälligen Richtung und/oder in Kopfnähe des Hörers in der anderen Audiozone zu stammen scheint. Durch diese Verräumlichung wird die Unterscheidbarkeit von Sprach- und Ablenksignal reduziert bzw. das Mithören des Sprachsignals bedingt durch das Ablenksignal erschwert und die Energie für das Ablenkungssignal kann so verringert werden.

[0018] Die oben dargestellte Verarbeitung des Sprachsignals und die Erzeugung eines Maskierungssignals werden bevorzugt in der digitalen Domäne durchgeführt. Hierzu sind nicht näher beschriebene Schritte, wie eine Analog-Digital-Wandlung und eine Digital-Analog-Wandlung, erforderlich, die sich für den Fachmann nach dem Studium der vorliegenden Offenbarung jedoch als selbstverständlich ergeben. Weiterhin kann das obige Verfahren ganz oder teilweise mittels einer programmierbaren Vorrichtung realisiert werden, die insbesondere einen digitalen Signalprozessor und erforderliche Analog-/Digital-Wandler aufweist.

[0019] Gemäß einem weiteren Aspekt der Erfindung wird eine Vorrichtung zur Erzeugung eines Maskierungssignals in einem zonenbasierten Audiosystem, die ein zu maskierendes Sprachsignal empfängt und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, vorgeschlagen. Die Vorrichtung umfasst Mittel zum Transformieren des erfassten Sprachsignals in spektrale Bänder; Mittel zum Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern; und Mittel zum Erzeugen eines Rauschsignals als Maskierungssignal basierend auf den vertauschten Spektralwerten.

[0020] Die obigen Ausgestaltungen des dort beschriebenen Verfahrens können auch auf diese Vorrichtung angewendet werden. So kann die Vorrichtung weiter aufweisen: Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal; Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und Mittel zum Addieren des Rauschsignals und des Ablenkungssignals und zum Ausgeben des Summensignals als Maskierungssignal.

[0021] In einer weiteren Ausgestaltung der Vorrichtung umfasst diese auch Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglicht.

[0022] Gemäß einem weiteren Aspekt der Erfindung ist ein zonenbasiertes Audiosystem mit einer Mehrzahl von Audiozonen offenbart, wobei mindestens eine Audiozone ein Mikrofon zum Erfassen eines Sprachsignals und eine andere Audiozone mindestens einen Lautsprecher aufweist. Mikrofon und Lautsprecher können in Nackenstützen von Sitzen für Insassen eines Fahrzeugs angeordnet sein. Es ist auch möglich, dass beide Audiozonen Mikrofon und Lautsprecher aufweisen. Das Audiosystem weist eine oben dargestellte Vorrichtung zur Erzeugung eines Maskierungssignals auf, die ein Sprachsignal von einem Mikrofon der einen Audiozone erhält und das Maskierungssignal an den oder die Lautsprecher der anderen Audiozone sendet.

[0023] Ein weiterer Aspekt der vorliegenden Offenbarung betrifft die oben dargestellte Erzeugung eines Ablenkungssignals als Maskierungssignal unabhängig von dem erwähnten Rauschsignal. Ein entsprechendes Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem umfasst: das Erfassen eines zu maskierenden Sprachsignals in einer Audiozone; das Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal; das Erzeugen eines Ablenkungssignals für den bestimmten Zeitpunkt; und das Ausgeben des Ablenkungssignals zum bestimmten Zeitpunkt als Maskierungssignal in der anderen Audiozone. Die möglichen Ausgestaltungen des Verfahrens entsprechen den oben dargestellten Ausgestaltungen in Kombination mit dem erzeugten Rauschsignal.

[0024] Auch eine entsprechende Vorrichtung zur Erzeugung eines Ablenkungssignals als Maskierungssignals in einem zonenbasierten Audiosystem, die ein zu maskierendes Sprachsignal empfängt und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, ist offenbart. Diese weist Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal; Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und Mittel zum Ausgeben des Ablenkungssignals als Maskierungssignal auf. Optional können Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglichen, vorgesehen sein.

[0025] Die oben beschriebenen Merkmale können in vielfacher Weise miteinander kombiniert werden, auch wenn eine solche Kombination nicht ausdrücklich erwähnt ist. Insbesondere können für ein Verfahren beschriebene Merkmale auch für eine entsprechende Vorrichtung herangezogen werden und umgekehrt.

[0026] Im Weiteren werden Ausführungsbeispiele der Erfindung anhand der schematischen Zeichnung näher beschrieben. Dabei zeigen:

Fig. 1 schematisch ein Beispiel für ein zonenbasiertes Audiosystem;

Fig. 2 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem;

Fig. 3 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem mit zwei Zonen;

Fig. 4 schematisch ein weiteres Beispiel für ein zonenbasiertes Audiosystem mit mehreren Zonen;

Fig. 5 ein Beispiel für ein Blockschaltbild zur Erzeugung eines breitbandigen Maskierungssignals zur Verschleierung von Sprache; und

Fig. 6 ein Beispiel für ein Blockschaltbild zur Erzeugung eines Ablenkungssignals zur Verschleierung von Sprache.



[0027] Die nachfolgend beschriebenen Ausführungsbeispiele sind nicht limitierend und rein illustrativ zu verstehen. Zur Veranschaulichung weisen sie zusätzliche Elemente auf, die für die Erfindung nicht wesentlich sind. Der Schutzbereich soll sich allein durch die beigefügten Ansprüche bestimmen.

[0028] Die folgenden Ausführungsbeispiele ermöglichen Fahrzeuginsassen an beliebigen Sitzpositionen das Führen von ungestörten privaten Gesprächen, wie Telefonaten mit anderen Personen außerhalb des Fahrzeugs. Hierzu wird ein Audio-Maskierungssignal erzeugt und anderen Fahrzeuginsassen zugespielt, so dass diese in ihrer Wahrnehmung des Gesprächs gestört werden, um das ungewollte Verständnis des privaten Gesprächs zu erschweren und bestenfalls unmöglich zu machen. Auf diese Weise entsteht ein privater Raum für den Sprecher, in dem er ungestört auch private Gespräche führen kann, ohne dass die Gefahr besteht, dass andere Fahrzeuginsassen vertrauliche Information aufnehmen können. Bei dem Gespräch kann es sich beispielsweise um ein Telefongespräch oder um ein Gespräch zwischen Fahrzeuginsassen handeln. Im letzteren Fall gibt es zwei Sprecher, die abwechselnd Sprachsignale abgeben, die andere Insassen möglichst nicht verstehen sollen, wobei selbstverständlich die Sprachverständlichkeit zwischen den beiden Gesprächsteilnehmern nicht beeinträchtigt werden soll.

[0029] Ähnliche Szenarien liegen ganz allgemein vor, wenn Personen sich in akustischen Zonen bzw. akustischen Umfeldern eines Raums befinden, die jeweils durch getrennte akustische Wiedergabegeräte beschallt werden. Solche akustischen Zonen können beispielsweise in Beförderungsmitteln, wie zum Beispiel Fahrzeugen, Zügen, Bussen, Flugzeugen, Fähren, etc., vorliegen, in denen sich Passagiere an Sitzplätzen aufhalten, die jeweils mit akustischen Wiedergabemitteln versehen sind. Der vorgeschlagene Ansatz zur Erzeugung von privaten akustischen Zonen ist jedoch nicht auf diese Beispiele beschränkt. Er kann ganz allgemein auf solche Situationen angewendet werden, in denen sich Personen an jeweiligen Standorten in einem Raum (z.B. in Theater- oder Kinosesseln) befinden und durch individuelle akustische Wiedergabemittel beschallt werden können und die Möglichkeit besteht, die Sprachsignale eines Sprechers, dessen Sprache von den anderen Personen nicht verstanden werden soll, zu erfassen.

[0030] In einem Ausführungsbeispiel ist zur Erzeugung von privaten akustischen Zonen an jedem Passagierplatz eines Fahrzeuges oder allgemeiner, eines akustischen Umfeldes, ein zonenbasiertes Audiosystem vorgesehen. Die einzelnen Komponenten des Audiosystems sind miteinander vernetzt und können wechselwirkend Informationen/Signale austauschen. Figur 1 zeigt schematisch ein Beispiel für ein derartiges zonenbasiertes Audiosystem 1. Ein Benutzer bzw. Passagier befindet sich an einem Sitzplatz 2 mit einer Nackenstütze 3, die zwei Lautsprecher 4 und zwei Mikrofone 5 aufweist.

[0031] Ein derartiges zonenbasiertes Audiosystem verfügt über einen, vorzugsweise über mindestens zwei Lautsprecher 4 für die aktive akustische Wiedergabe von persönlichen und individuellen Audiosignalen, welche durch die benachbarten Zonen nicht bzw. nur geringfügig wahrgenommen werden sollen. Der/die Lautsprecher 4 können dabei in der Nackenstütze 3, dem Sitz 2 selbst oder im Dachhimmel des Fahrzeugs angebracht sein. Die Lautsprecher verfügen über ein hinreichendes akustisches Design und können über eine entsprechende Signalverarbeitung angesteuert werden, um die akustische Beeinflussung von benachbarten Zonen so geringfügig wie möglich realisieren zu können.

[0032] Des Weiteren verfügt eine derartige Audiozone über eine Möglichkeit, unabhängig von den benachbarten Zonen und den darin aktiv wiedergegebenen Signalen, die Sprache des Insassen der primären akustischen Zone aufzuzeichnen. Dazu können ein oder mehrere Mikrofone 5 im Sitz 2 bzw. der Nackenstütze 3 integriert oder in der direkten akustischen Umgebung der Zone und des Insassen angebracht sein, wie in Figur 2 schematisch dargestellt ist. Bevorzugt sind die Mikrofone 5 so angeordnet, dass sie eine möglichst gute Erfassung der Sprache des telefonierenden Insassen ermöglichen. Kann ein Mikrofon in unmittelbarer Nähe des Mundes des Sprechenden platziert werden (wie das mittlere Mikrofon in Figur 2), so ist im Allgemeinen ein einzelnes Mikrofon ausreichend, um die Audiosignale des Sprechenden mit ausreichender Qualität zu erfassen. Beispielsweise kann das Mikrofon eines Telefon-Headsets zur Aufnahme der Sprachsignale herangezogen werden. Ansonsten sind zwei oder mehr Mikrofone zur Erfassung der Sprache von Vorteil, um diese mittels digitaler Signalverarbeitung besser und vor allem zielgerichteter aufzunehmen, wie nachfolgend erläutert wird.

[0033] Die Audiozone des Sprechers kann über eine entsprechende Signalverarbeitung verfügen, um die Sprachsignale des primären Insassen möglichst störungsfrei und unbeeinflusst von den benachbarten Zonen und den im Umfeld vorherrschenden Störungen (Wind, Rollgeräusch, Lüftung, etc.) aufzuzeichnen.

[0034] Das Sprachsignal des telefonierenden Fahrzeuginsassen wird somit an der Sitzposition erfasst (entweder direkt durch ein entsprechend angeordnetes Mikrofon oder indirekt mittels ein oder mehrerer entfernter Mikrofone mit entsprechender Signalverarbeitung) und von etwaigen Störsignalen getrennt, wie zum Beispiel Hintergrundgeräusche.

[0035] Aus diesem Sprachsignal kann ein Maskierungssignal, im Folgenden auch als Sprachverschleierungssignal bezeichnet, für einen mithörenden Passagier generiert werden. In Ausführungsbeispielen wird ein an die zu verschleiernde Sprache angepasstes breitbandiges Maskierungssignal für diesen Passagier erzeugt. Zusätzlich oder auch alternativ können auch Ablenkungssignale an den einzelnen Spracheinsätzen (Sprach-Onsets) innerhalb der Sprache des primären Sprechers generiert werden. Hierunter sind kurze Störsignale zu verstehen, die an bestimmten, für die Sprachverständlichkeit wichtigen Sprachabschnitten ausgegeben werden und ebenfalls an die zu verschleiernde Sprache angepasst sein können. Diese Ablenkungssignale werden zeitlich überlappend mit den für die Sprachverständlichkeit relevanten Sprachabschnitten ausgegeben, um den Informationsgehalt für den Zuhörer zu reduzieren und die Verständlichkeit der Sprache bzw. deren Interpretation zu beinträchtigen (informationelles maskieren), ohne den gesamten Schallpegel relevant zu erhöhen.

[0036] Angepasst an die jeweils lokalen akustischen Erfordernisse können diese Verschleierungssignale in einer räumlichen Weise (mehrkanalig) zugespielt werden, so dass eine räumliche Wahrnehmung der Verschleierungssignale entsteht. Auf diese Weise kann ein Mithören an den Sitzpositionen der mithörenden Personen bestmöglich vermieden werden.

[0037] Mit dem vorgeschlagenen Ansatz wird erreicht, dass der Gesamtschalldruckpegel an den Sitzpositionen der mithörenden Passagiere nur minimal steigt und die Belästigung bzw. Beeinträchtigung (Annoyance) der Passagiere nicht erhöht wird bzw. der lokale Hörkomfort bestmöglich erhalten bleibt, im Gegensatz zu einem Ansatz bei dem einfach ein lautes Störgeräusch zur Überdeckung der Sprache ausgegeben wird (energetische Maskierung).

[0038] Figur 3 stellt die Funktionalität und den grundlegenden Systemaufbau eines Ausführungsbeispiels für zwei Audiozonen exemplarisch dar. Die Sprachsignale des Insassen der primären akustischen Zone I werden mittels der in der Nackenstütze 3 des Sprechers angeordneten Mikrofone 5 dieser Zone erfasst und einer ersten digitalen Signalverarbeitung A unterzogen, um die Sprachsignale des primären Insassen möglichst störungsfrei und unbeeinflusst von den benachbarten Zonen und den im Umfeld vorherrschenden Störungen (Wind, Rollgeräusch, Lüftung, etc.) aufzuzeichnen. Alternativ kann/können der oder die Mikrofone 5 auch vor dem Sprecher angeordnet sein, wie in Figur 2 dargestellt, zum Beispiel im rückwärtigen Teil der Nackenstütze des vorderen Insassen oder im Dachhimmel, Lenkrad oder Armaturenbrett. Im gezeigten Beispiel befindet sich die mithörende Person im Sitz direkt vor dem Sprecher, dies muss jedoch nicht der Fall sein und die mithörende Person kann sich an einem beliebigen anderen Ort innerhalb des Fahrzeugs befinden.

[0039] Anschließend werden die auf diese Weise verarbeiteten Sprachsignale einer zweiten Signalverarbeitung B zugeführt, welche passende Sprachverschleierungssignale erzeugt, so dass die Sprachverständlichkeit des mithörenden Insassen reduziert wird. Die Sprachverschleierungssignale werden dann mittels der Lautsprecher 4' in der zweiten akustischen Zone II ausgegeben. Diese sind zum Beispiel in der Nackenstütze 3' des mithörenden Insassen angeordnet, um eine möglichst direkte und ungestörte Wiedergabe der Sprachverschleierungssignale zu erzielen. Wie bereits erwähnt, kann ein Sprachverschleierungssignal ein an das Sprachsignal des primären Insassen angepasstes breitbandiges Maskierungssignal und/oder ein an einzelnen Sprachansätzen einsetzendes Ablenkungssignal aufweisen. Auf diese Weise können akustische Zonen derart privat gestaltet werden, dass ein unerwünschtes Mithören über die Grenze einer akustischen Zone hinweg deutlich erschwert wird.

[0040] Bei einer alternativen Lösung werden - ähnlich wie bei einer aktiven Rauschunterdrückung - die geschätzten Sprachsignale am jeweiligen Hör- bzw. Mikrofonort durch eine aktive Zuspielung von adaptiven Löschsignalen reduziert. Da die Hörposition in der Praxis jedoch leicht variabel ist und gleichzeitig Hör- und Mikrofonort einige Zentimeter voneinander entfernt sind, können damit nur Sprachsignalanteile bis etwa 1.5 kHz aktiv reduziert werden. Da die Sprachverständlichkeit aber primär durch Konsonanten und damit Signalanteile mit Frequenzen über 2 kHz dominiert wird, ist dieser Ansatz alleine unzureichend bzw. allenfalls auch als kritisch zu bewerten, da bei einer unzureichenden Abstimmung (z.B. falschen Anpassung an die Kopfposition) die Löschsignale genau die relevanten privaten Informationen tragen und diese sogar verstärken können, so dass die Sprachverständlichkeit erhöht statt verringert wird. Im Gegensatz dazu ist der vorgeschlagene Ansatz weniger empfindlich gegenüber den genauen Kopfpositionen des Sprechers und der mithörenden Person und ermöglicht eine Reduzierung der Sprachverständlichkeit auch von höherfrequenten Sprachanteilen wie Konsonanten.

[0041] Auf Grund der Modularität des vorgeschlagenen Ansatzes sind auch Ausführungsbeispiele mit mehreren Audiozonen, wie beispielsweise im Massentransport (Bahn, Flugzeug, Zug) oder auch anderen Anwendungsfeldern (Entertainment, Kino, etc.) denkbar. Figur 4 stellt einen derartigen Multizonenansatz anhand eines mehrreihigen Fahrzeuges schematisch dar, in dem 6 akustische Zonen vorgesehen sind. Wie zuvor sind Lautsprecher und Mikrofone in die Nackenstützen der Passagiere integriert, wobei die Mikrofone auch in anderen Positionen vor den jeweiligen Sprechern angeordnet sein können, um eine günstige Anordnung zur Erfassung der Sprachsignale aufzuweisen. Ähnlich wie in Figur 3 wird in diesem Beispiel davon ausgegangen, dass der Sprecher hinter dem unerwünschten Mithörer (hier der Fahrer) sitzt. Die Sprachsignale des sprechenden Insassen können jedoch in gleicher Weise zur Erzeugung von Maskierungs- bzw. Verschleierungssignalen für andere Insassen als den Fahrer und auch für mehrere unerwünschte Mithörer herangezogen werden. Selbstverständlich kann sich auch der Sprecher an einem anderen Ort im Fahrzeug befinden als in dem in Figur 4 gezeigten Beispiel. Der hier offenbarte Ansatz kann ganz allgemein auf alle Szenarien angewendet werden, an denen die Sprache eines Sprechers erfasst und erzeugte Sprachverschleierungssignale gezielt an den oder die unerwünschten Mithörer ausgegeben werden können.

[0042] Wie eingangs erwähnt, kann es sich bei den Sprachsignalen um ein Telefongespräch handeln, das der Sprecher mit einer externen Person außerhalb des Raums führt, in dem sich die akustischen Zonen befinden. Alternativ kann das Gespräch auch zwischen Personen in dem Raum geführt werden, beispielsweise zwischen dem in Figur 4 gezeigten Sprecher und dem Insassen rechts neben ihm. In diesem Fall ist in dem zonenbasierten Audiosystem die gleiche Signalverarbeitung wie für den gezeigten Sprecher auch für den zweiten Sprecher vorzusehen, so dass auch dessen Sprache erfasst und verarbeitet wird, um passende Verschleierungssignale für den oder die Mithörer zu generieren. Bei einem abwechselnden Sprechen der beiden Sprecher muss lediglich der aktuelle Sprecher bestimmt und die diesem Sprecher zugehörigen Verschleierungssignale ausgegeben werden. Sprechen beide Sprecher gleichzeitig, so können auch beide Verschleierungssignale gleichzeitig ausgegeben werden.

[0043] Im Folgenden werden die erforderlichen Signalverarbeitungsschritte für einen beispielhaften Anwendungsfall beschrieben. In diesem Anwendungsfall führt ein "Hinten-Links"-sitzender Fahrzeugpassagier als interner Sprecher ein Telefonat mit einer Person außerhalb des Fahrzeugs. Zusätzlich zu der Sprache des internen Sprechers kann auch die, beispielsweise vom Lautsprecher der Kopfstütze des internen Sprechers ausgegebene Sprache des externen Sprechers (Far End Sprechersignal) als zu verschleiernde Sprache erfasst werden. Diese wird für die Mithörposition "Vorne Links" für den mithören Fahrzeuglenker retuschiert bzw. verschleiert. Selbstverständlich handelt es sich hierbei nur um ein mögliches Szenario und die vorgeschlagenen Verfahren können allgemein für alle möglichen Konfigurationen der Anordnung von Sprecherposition und Mithörposition herangezogen werden.

[0044] Das mittels der digitalen Signalverarbeitung A geschätzte Signal sigest für das zu verschleiernde Sprachsignal liefert die Basisgröße für die nachfolgende Erzeugung des Maskierungs- bzw. Verschleierungssignals. Bei dem zu verschleiernden Sprachsignal kann es sich um den aktiven internen Sprecher im Fahrzeugraum und/oder um den externen Sprecher außerhalb handeln. Bei dem Verschleierungssignal kann es sich um ein breitbandiges Maskierungssignal und/oder um Ablenkungssignale handeln. Diese generierten Signale (send to: out LS-Left & LS-Right) werden über die aktive Nackenstütze an der Mithörposition wiedergegeben. In Ausführungsbeispielen werden beide Verschleierungssignale erzeugt, addiert und gemeinsam wiedergegeben, um eine verstärkte Wirkung auf den Mithörer zu haben und dessen Verständlichkeit zu beeinträchtigen. Durch die Kombination der beiden Verschleierungssignale entsteht eine synergetische Wirkung dieser Signale bei der Reduzierung der Sprachverständlichkeit. Das andauernde breitbandige Maskierungssignal erzeugt ein Hintergrundrauschen, wobei die Lautstärke (Energie) des Signals im Vergleich zu einer Ausgabe nur eines Rauschsignals reduziert werden kann, so dass eine weniger störende Wirkung erzielt wird. Durch die zeitlich punktuelle Ausgabe der Ablenkungssignale an geeigneten Positionen (Sprach-Onsets) wird zielgerichtet die Sprachverständlichkeit dieser Sprachabschnitte (z.B. für Konsonanten) gestört, ohne dass die Gesamtenergie des Verschleierungssignals signifikant erhöht wird und die Hörer zusätzlich unangenehm beeinträchtigt werden. Es hat sich sogar herausgestellt, dass die Ablenkungssignale als weniger unangenehm empfundenen werden, wenn diese zusammen mit dem Rauschsignal dargeboten werden.

[0045] Figur 5 zeigt ein schematisches Blockschaltbild für die Generierung einer breitbandigen sprachsignalabhängigen Maskierung. Das Eingangssignal ist das zu verschleiernde Sprachsignal sigest. Die resultierenden zweikanaligen Ausgangssignale (out LS-Left & LS-Right) werden an die aktive Nackenstütze an der Mithörposition geschickt, gegebenenfalls mit Ablenkungssignalen überlagert, und an die mithörende Person mittels an/in der Nackenstütze angebrachter Lautsprecher ausgegeben.

[0046] Im Folgenden werden die Signalverarbeitungsschritte für die Erzeugung eines breitbandigen Rauschsignals zur Sprachmaskierung gemäß einem Ausführungsbeispiel im Detail beschrieben. Es sei angemerkt, dass nicht alle Schritte immer erforderlich sind und einige Schritte in einer anderen Reihenfolge ausgeführt werden können, wie der Fachmann zu erkennen weiß. Auch können einige Berechnungen gleichwertig im Frequenzbereich oder im Zeitbereich durchgeführt werden.

[0047] Zunächst wird das Sprachsignal sigest in den Frequenzbereich transformiert und sowohl zeitlich wie auch in Frequenzrichtung geglättet. Hierzu wird zunächst in Abschnitt 100 das Sprachsignal sigest in Blöcke unterteilt (beispielsweise werden 512 Abtastwerte bei einer Abtastrate von fs =44.1kHz in Blöcke mit der Dauer von 11,6 ms und 50% Überlappung angeordnet). Anschließend wird jeder Signalblock in Abschnitt 105 mittels einer Fourier-Transformation mit NFFT1 = 1024 Punkten in den Frequenzbereich transformiert.

[0048] In einem weiteren Schritt 110 werden die Fourier-Spektren mit einer Mel-Filterbank mit M = 24 Bänder gefiltert -d.h. die Spektren werden durch die Mel-Filterbank spektral komprimiert. Die Filterbank kann aus überlappenden Bändern mit dreiecksförmigem Frequenzgang bestehen. Die Mittenfrequenzen der Bänder sind äquidistant über der Mel-Skala aufgeteilt. Das unterste Frequenzband der Filterbank startet bei 0 Hz und das oberste Frequenzband endet bei der Hälfte der Abtastrate (fs). Für alle Bänder der Filterbank wird in Abschnitt 115 des Blockdiagramms pro Signalblock jeweils ein Kurzzeitenergiewert (RMS-Pegel bzw. spezifische Lautheitsverläufe der einzelnen Mel-Bänder) berechnet. Diese Kurzzeitenergiewerte werden in Abschnitt 120 über MA = 120 Blöcke in Form eines gleitenden Mittelwertes zeitlich gemittelt (Moving Average, 120 Blöcke entsprechen ca. 700 ms).

[0049] In Ausführungsbeispielen werden in Abschnitt 125 diese dynamischen Lautheitsverläufe in der unmittelbaren Frequenzumgebung vertauscht (Scrambling). Hierzu werden die Lautheitswerte der Bänder gemäß nachfolgender Tabelle vertauscht, wobei sich die Zuordnung des Bandes "in" aus der entsprechenden Position in der darunterliegenden Zeile "out" ergibt. So wird beispielsweise der Lautheitswert von Band Nummer 2 dem Band Nummer 4 zugeordnet und der Wert von Band 4 wird dem Band 5 zugewiesen, dessen Wert wird Band 3 zugeordnet, usw. Hierbei werden Vertauschungen der Lautheitswerte mit benachbarten bzw. übernächsten Bändern erzielt, d.h. der Unterschied zwischen einem Mel-Band und einem vertauschten Band beträgt in diesem Beispiel maximal zwei Mel-Bänder. Selbstverständlich handelt es sich bei der gezeigten Tabelle nur um ein mögliches Beispiel zur Vertauschung von Bändern und andere Realsierungen sind möglich.
  Bandzuordnung
in 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
out 1 4 2 5 3 6 7 10 8 11 9 12 13 16 14 17 15 18 19 22 20 23 21 24


[0050] Mittels der vorgeschlagenen Bandvertauschung werden die Lautheitswerte "verwürfelt" (scrambled), so dass eine gewisse "Unordnung" in der Verteilung der Lautheitswerte für einen zugehörigen Sprachabschnitt entsteht, wodurch die Beschreibung dessen spektraler Energie bzw. dessen Lautheitsverteilung verändert wird, ohne dass die gesamte Energie bzw. Lautheit des Sprachabschnitts geändert wird. Zum Beispiel wird ein besonders ausgeprägter Energiegehalt in einem Band in ein anderes Band verschoben oder eine geringe Energie (Lautheit) in einem Band wird in ein benachbartes Band transformiert. Es hat sich gezeigt, dass durch die Umverteilung der Energie in benachbarte Bänder ein besonders effektives Breitbandrauschsignal erzeugt werden kann, welches die Verständlichkeit des zugehörigen Sprachabschnitts stärker reduziert als ohne Bandvertauschung. Durch die Vertauschung / Verdrehen der Abfolge der Bins der zeitlich dynamischen Verläufe der Maskierungsbänder wird die Übertragung von Sprachinformation in dem Rauschsignal vermieden. Würde man die Sprachenergie in Frequenzbänder (z.B. Mel-Bänder wie oben beschrieben) erfassen und diese zeitlichen Energieverläufe direkt auf ein Rauschsignal, ebenfalls in gleiche Frequenzbänder aufgeteilt, in der Amplitude aufmodulieren, dann würde der Sprachinhalt hörbar - umso verständlicher, wenn schmale Frequenzbänder verwendet werden. Dieser Effekt wird durch die Bandvertauschung der Lautheitswerte deutlich reduziert.

[0051] Die gegebenenfalls vertauschten dynamischen Lautheitsverläufe können anhand der aktuellen Hintergrundspektren (inkl. aller Störgeräusche) in Abschnitt 130 des Blockdiagramms angepasst werden, um Hintergrundgeräusche und Umgebungssituation zu bewerten. Hierzu wird das Hintergrundgeräusch z.B. an der Mithörposition erfasst und ähnlich wie für das Sprachsignal werden die Hintergrundspektren mittels Frequenztransformation und zeitlicher und frequenzmäßiger Mittelungen bestimmt. Vorzugsweise wird hierfür ein an der Mithörposition angeordnetes Mikrofon verwendet. Alternativ können auch anderenorts (aber möglichst in der Nähe der Mithörposition) angeordnete Mikrofone - verwendet werden, um das Hintergrundgeräusch an der Mithörposition zu erfassen. Nur jene Bänder des Sprachsignals, die über dem Hintergrundspektrum liegen, müssen bei der Erzeugung des Maskierungssignals berücksichtigt werden. Sprachbänder, deren Energie unterhalb der Energie des entsprechenden Hintergrundgeräuschbandes liegen, können vernachlässigt werden, da sie für die Sprachverständlichkeit keine Rolle spielen bzw. bereits vom Hintergrundrauschen verdeckt werden. Dies kann beispielsweise geschehen, in dem der Lautheitswert solcher Sprachbänder auf null gesetzt wird. Mit anderen Worten wird dann, wenn ein Frequenzband bereits durch ein starkes Hintergrundgeräusch maskiert wird, in diesem Frequenzband kein zusätzliches Maskierungssignal erzeugt. So wird situativ entschieden, welche Signalanteile des breitbandigen Maskierungsrauschens zur Verschleierung der Sprache eingespielt werden.

[0052] In Abschnitt 135 erfolgt eine Interpolation der resultierenden Mithörschwellen (Frequenzachse abgetastet an 24 Frequenzen, die den 24 Mittenfrequenzen der Mel-Filterbank entsprechen) an allen Frequenzstützstellen der Fourier-Transformation. Durch die Interpolation wird für den gesamten Frequenzbereich der Fourier-Transformation wieder ein Spektralwert für das Sprachsignal erzeugt, zum Beispiel 1024 Werte für die oben genannte Fourier-Transformation mit NFFT1 = 1024 Punkten.

[0053] Schließlich erfolgt in Abschnitt 155 eine punktweise Multiplikation der Frequenzstützstellen (bzw. eine Faltung im Zeitbereich) der so erzeugten Frequenzwerte mit einem Rauschspektrum. Dieses kann durch einen Rauschgenerator (nicht gezeigt) gewonnen werden, dessen Rauschsignal analog zum Sprachsignal sigest durch eine Block-Segmentierung 145 und Fourier-Transformation 150 mit gleichen Dimensionierungen läuft. Auf diese Weise wird ein breitbandiges Rauschsignal als Maskierungssignal mit einer ähnlichen Frequenzcharakteristik (vom Vertauschen und Null-Setzen der Abschnitte 125 und 130 abgesehen) wie das Sprachsignal erzeugt. Alternativ kann das Maskierungssignal auch im Zeitbereich durch Faltung des Rauschsignals mit dem wieder in den Zeitbereich transformierten Spektralwerten des wie oben beschriebenen verarbeiteten Sprachsignals (siehe Abschnitte 100 bis 135) erzeugt werden. Durch einen Wechsel zwischen Frequenz- und Zeitbereich können bei den verschiedenen Verarbeitungsschritten unterschiedliche Frequenzauflösungen bzw. Zeitdauern verwendet werden. Für jeden Block des Sprachsignals wird so ein breitbandiges an den Sprachabschnitt des Blocks angepasstes Rauschspektrum erzeugt.

[0054] In Ausführungsbeispielen schließt sich in Abschnitt 160 eine räumliche Aufbereitung durch punktweise Multiplikation der Frequenzstützstellen (bzw. Faltung im Zeitbereich s.o.) mit binauralen Spektren einer akustischen Übertragungsfunktion an, die der Quellrichtung des Sprechers (bzw. der dominanten Richtung des Energieschwerpunkts des zu maskierenden Sprachsignals) aus der Sicht der mithörenden Person entspricht. Die Quellrichtung des Sprechers ist aus der räumlichen Anordnung der akustischen Zonen bekannt. In dem in Figur 4 gezeigten Beispiel ist die Quellrichtung des Sprechers direkt hinter der mithörenden Person. In Ausführungsbeispielen mit räumlicher Ausrichtung des Maskierungssignals ist eine mehrkanalige Wiedergabe (z.B. mittels zweier Lautsprecher) erforderlich. Ansonsten ist eine einkanalige Wiedergabe ausreichend, die vorzugsweise auch mittels zwei in der Nackenstütze der mithörenden Person angeordneten Lautsprechern erfolgt.

[0055] Das Breiband-Maskierungssignal kann so räumlich wiedergegeben werden und auf die Zieleinfallsrichtung des Direktsignals bzw. die prominent wahrgenommene Richtung des Sprechers angepasst werden. Bedingt durch die binaurale Lautheitsaddition erfolgt dadurch eine erheblich verbesserte Verdeckung bei geringeren Pegelüberschüssen des Maskierungsgeräusches.

[0056] In Abschnitt 165 erfolgt eine Rücktransformation (IFFT) der beiden (bei räumlicher Wiedergabe) resultierenden Spektren (pro Block) in den Zeitbereich und eine Überlagerung der Blöcke nach der Overlap-Add-Methode (siehe Abschnitt 170). Es wird angemerkt, dass für die räumliche Wiedergabe ein mehrkanaliges Signal entsteht, das z.B. durch eine Stereo-Wiedergabe abgespielt werden kann. Falls die vorherigen Schritte bereits im Zeitbereich ausgeführt wurden, so erübrigen sich selbstverständlich die Rücktransformation und die Überlagerung der Blöcke.

[0057] Die resultierenden Zeitsignale werden zu der jeweiligen aktiven Nackenstütze des Mithörers gesendet. Dort können in Ausführungsbeispielen, in denen auch Ablenkungssignale erzeugt werden, die Maskierungssignale mit den Ablenkungssignalen vor der Ausgabe über die Lautsprecher der Nackenstütze summiert werden.

[0058] Wie bereits erwähnt, kann die Signalverarbeitung teilweise im Frequenzbereich oder im Zeitbereich ausgeführt werden. Die oben genannten speziellen Werte sind nur Beispiele für eine mögliche Konfiguration und können auf vielerlei Weise verändert werden. So ist eine Frequenzauflösung der FFT-Transformation mit weniger als 1024 Punkten bzw. eine Aufteilung der Mel-Filter mit mehr oder weniger als 24 Filter möglich. Es ist auch möglich, dass die Frequenztransformation des Rauschsignals mit anderer Konfiguration der Blockgröße und/oder der FFT erfolgt als die des Sprachsignals. In diesem Fall wäre die Interpolation in Abschnitt 135 entsprechend anzupassen, um geeignete Frequenzwerte zu erzeugen. In einer weiteren Variation werden die blockweise berechneten Maskierungsgeräusche nach der Interpolation zuerst in den Zeitbereich zurücktransformiert und anschließend noch einmal in den Frequenzbereich gebracht, um dort die Verräumlichung - ggf. mit einer anderen spektralen Auflösung - zu berücksichtigen. Der Fachmann erkennt solche Variationen des erfindungsgemäßen Vorgehens zur Erzeugung eines breitbandigen sprachsignalabhängigen Maskierungssignals nach dem Studium der vorliegenden Offenbarung.

[0059] In Ausführungsbeispielen werden statt des Maskierungsrauschens Ablenkungssignale mit kurzer zeitlicher Dauer verwendet, die in zeitlicher und/oder frequenzmäßiger Hinsicht an für die Verständlichkeit besonders relevante Abschnitte im Sprachsignal angepasst sind. Im Folgenden wird ein Beispiel für die Erzeugung solcher Ablenkungssignale beschrieben. Figur 6 zeigt schematisch ein Beispiel für ein Blockschaltbild zur Generierung von sprachsignalabhängigen Ablenkungssignalen. Die Ablenkung des Mithörers erfolgt an signalabhängigen definierten Zeitpunkten. Dazu werden die kritischen Zeitpunkte (ti,distract) anhand dreier Informationsparameter im Sprachsignal bestimmt: Spektraler Zentroid "SC" (entspricht etwa der Tonhöhe), Kurzzeitenergie "RMS" (entspricht ungefähr der Lautstärke) und Anzahl der Nulldurchgänge "ZCR" (zur Unterscheidung Sprachsignal / Hintergrundrauschen).

[0060] In einem digitalen Speicher sind eine Reihe von vorab gewählten Ablenkungssignale (z.B. Vogelrufe, Zirpen, ...) mit dazugehörigen Parametern (SC und RMS), erhoben durch zusätzliche Voranalysen, abgespeichert. Geeignete Ablenkungssignale weisen vorzugsweise folgende Eigenschaften auf: Sie sind zum einen natürlich Signale, welche den Hörer aus anderen Situationen / aus dem täglichen Leben bekannt sind und somit nicht mit dem zu verdeckenden Signal und Kontext in Verbindung stehen. Des Weiteren sind Sie dadurch charakterisiert, dass Sie akustisch markante Signale von kurzer Dauer darstellen und ein möglichst breitbandiges Spektrum aufweisen. Weitere Beispiele für solche Signale sind Wassertropfgeräusche bzw. Wasserwellenschläge oder kurzzeitige Windböen. Üblicherweise sind die Ablenkungssignale länger als die relevanten Sprachabschnitte (z.B. Konsonanten) und überdecken diese vollständig. Es ist auch möglich, Ablenkungssignale unterschiedlicher Länge zu speichern und passend zu der Dauer des aktuellen kritischen Zeitpunkts auszuwählen.

[0061] Ein Ablenkungssignal wird ausgewählt und an den aktuellen Sprachabschnitt zeitlich und frequenzmäßig angepasst. Das angepasste Ablenkungssignal kann dann aus einer virtuellen räumlichen Position an den Mithörer wiedergegeben werden. Für die Verräumlichung (BRTF) können kurze Impulsantworten (256 Punkte) für die Simulation der Außenohrübertragungsfunktion verwendet werden, damit diese Ablenkungssignale vom Mithörer möglichst nahe und präsent am Kopf lokalisiert werden und so eine starke Ablenkungswirkung erzielen. Für die räumliche Wiedergabe ist eine mehrkanalige (z.B. in Stereo) Wiedergabe erforderlich.

[0062] Im Folgenden werden die Signalverarbeitungsschritte für die Erzeugung von diskreten, räumlich verteilten, kurzen Ablenkungssignalen gemäß einem Ausführungsbeispiel im Detail beschrieben. Es sei angemerkt, dass nicht alle Schritte immer erforderlich sind und einige Schritte in einer anderen Reihenfolge ausgeführt werden können, wie der Fachmann zu erkennen weiß. Auch können einige Berechnungen gleichwertig im Frequenzbereich oder im Zeitbereich durchgeführt werden. Einige der Verarbeitungsschritte entsprechen denjenigen zur Erzeugung von breitbandigen Maskierungssignalen und müssen deshalb in Ausführungsbeispielen, die beide Signalarten zur Verschleierung von Sprache verwenden, nicht erneut ausgeführt werden.

[0063] In Abschnitt 200 wird das Sprachsignal sigest in Blöcke (BlockLength = 512 Samples, fs = 44.1kHz) mit der Dauer von 11.6 ms und 50% Überlappung (HopSize = 256) unterteilt (vgl. Abschnitt 100).

[0064] Aus diesen Blöcken XBuffern(m), mit n = Blockindex und m = Zeitsample, wird in Abschnitt 205 die Anzahl der Nulldurchgänge (zero-crossing-rate, ZCR) pro Signalblock ermittelt. Dies kann mittels folgender Formel erfolgen:



[0065] In Abschnitt 210 wird jeder Signalblock einer Fourier-Transformation mit NFFT2 = 1024 Punkte (vgl. Abschnitt 105) unterzogen.

[0066] Aus diesen Spektren S(k,n) mit k = Frequenzindex und n = Blockindex werden in den Abschnitten 215 und 220 zwei weitere Parameter berechnet: die Kurzzeitenergie (RMS) und der Spektrale Schwerpunkt (Spectral Centroid, SC):





[0067] Die Verläufe der Kurzzeitenergie RMS und der Nulldurchgangsrate ZCR können weiterhin mittels signalabhängiger Schwellwerte gefiltert und Bereiche, die diesen Schwellwerten nicht genügen, ausgeblendet werden (z.B. auf null gesetzt). Die Schwellwerte können zum Beispiel so gewählt werden, dass ein bestimmter Prozentsatz der Signalwerte darüber oder darunter liegen.

[0068] Jedes Spektrum wird in Abschnitt 225 mit einem rekursiven zeitdiskreten Filter 1. Ordnung: H(z) = Bs(z)/As(z), wobei Bs = 0.3 und As(z) = 1 - (Bs-1)*z-1 in beide Richtungen spektral geglättet (= akausales, null-phasiges Filter 2. Ordnung).

[0069] Die resultierenden Spektren werden in Abschnitt 230 mit einem rekursiven zeitdiskreten Filter 1. Ordnung: H(z) = Bt(z)/At(z), wobei Bt = 0.3 und At(z) = 1 - (Bs-1)*z-1 zeitlich geglättet.

[0070] Für die Detektion von für die Sprachverständlichkeit relevanten Abschnitten (Onsets) des Sprachsignals (Onset-Detektion) wird in Abschnitt 235 zuerst eine Onset-Detektionsfunktion ermittelt. Dazu werden die spektral und zeitlich gemittelten Spektren über die Frequenzachse addiert. Das resultierende Signal wird logarithmiert und zeitlich differenziert, wobei negative Werte Null gesetzt werden. Vor der Logarithmierung kann eine Regularisierung (z.B. die Addition einer kleinen Zahl an allen Frequenzstützstellen) stattfinden, um Nullwerte zu vermeiden.

[0071] Diese Onset-Detektionsfunktion wird nach lokalen Maxima untersucht, wobei diese mindestens eine vorgegebene Anzahl von Blöcken voneinander entfernt sein müssen. Die so gefundenen Maxima können weiter mittels eines signalabhängigen Schwellwerts gefiltert werden, so dass nur besonders ausgeprägte Maxima verbleiben Derart bestimmte lokale Maxima der Onset-Detektionsfunktion sind Kandidaten für wahrnehmungs-relevante Abschnitte des Sprachsignals, die selektiv mittels Ablenkungssignal gestört werden sollen.

[0072] In Ausführungsbeispielen werden die so ermittelten Maxima der Onset-Detektionsfunktion in Abschnitt 240 über eine Logikeinheit auf Plausibilität anhand der Parameter: ZCR, RMS und SC überprüft. Nur wenn diese Werte in einem definierten Bereich liegen, werden diese Maxima als relevante, kritische Zeitpunkte ti,distract festgelegt. Dies kann beispielsweise dadurch erfolgen, dass zu den Zeiten von ermittelten Maxima der Onset-Detektionsfunktion die Werte von RMS, SC und/oder ZCR bestimmte logische Bedingungen erfüllen müssen (z.B. RMS>X1; X2<SC<X3; ZCR>X4 mit X1 bis X4 vorgegebenen Schwellwerten). In Ausführungsbeispielen werden zum Beispiel nur solche Maxima berücksichtigt, die in Zeitabschnitten liegen, die den oben genannten Filterbedingungen für RMS und ZCR genügen (d.h. nicht in ausgeblendeten Bereichen liegen). Die Bedingung, dass ZCR und RMS gleichzeitig bestimmte Schwellwertbedingungen erfüllen müssen, kann auch dazu genutzt werden, den Verlauf von SC zu filtern, indem die Werte von SC bei Erfüllung der Schwellwertbedingungen beibehalten werden und dazwischenliegende Werte interpoliert bzw. extrapoliert werden, wodurch die Funktion SCint entsteht.

[0073] An den ermittelten Zeitpunkten ti,distract werden aus einem Bouvier von N in einem Speicher 250 digital abgelegten Ablenkungssignalen je eines zufällig ausgewählt (mittels Abschnitt 245). Zu diesen Ablenkungssignalen finden sich im Speicher 250 zusätzliche Metadaten: SC und RMS-Werte.

[0074] Das ausgewählte Ablenkungssignal wird in Abschnitt 255 in Blöcke unterteilt (vgl. oben mit BlockLength2 und Hopsize = BlockLength2 bzw. Overlap = 0) und anschließend in Abschnitt 260 mit NFFT2 Punkte Fourier-Transformiert. Die Parameter dieser Frequenztransformation können unterschiedlich und unabhängig von der obigen Ausführung für das zu maskierende Sprachsignal sein. Alternativ könnte die Frequenzdarstellung eines Ablenkungssignals auch direkt im Frequenzbereich abgelegt werden.

[0075] Die resultierenden Spektren können in Abschnitt 265 signalabhängig von sigest zum jeweiligen Zeitpunkt ti,distract anhand der SC Parameterverhältnisse in der Frequenzlage (z.B. durch Einseitenbandmodulation) und/oder anhand der RMS Parameterverhältnisse in der Verstärkung angepasst werden. Hierzu wird das Verhältnis der spektralen Schwerpunkte SC des jeweiligen Sprachsignalabschnitts an einem Onset-Zeitpunkt ti,distract und des zugehörigen Ablenkungssignals gebildet und die Frequenzlage des Ablenkungssignals wird so angepasst, dass sie mit der des Sprachsignals möglichst übereinstimmt. Dies kann dadurch erfolgen, dass der Wert der Funktion SCint des interpolierten spektralen Schwerpunkts an einem Onset-Zeitpunkt SCint(ti,distract) mit dem SC-Wert des ausgewählten Ablenkungssignals verglichen und ein Verstimmungsparameter bestimmt wird, wobei positive Werte des Verstimmungsparameter ein Anheben in der Tonhöhe des Ablenkungssignals mittels Einseitenbandmodulation bedeuten und negative Werte zu einer Absenkung der Tonhöhe führen.

[0076] Auch die Energie (RMS) des Ablenkungssignals wird an die Energie des Sprachsignalabschnitts angepasst, so dass ein vorbestimmtes Energieverhältnis für das Ablenkungssignal zu Sprachsignal erzielt wird. Aufgrund der hohen Wirksamkeit bei der Reduzierung der Sprachverständlichkeit können die Ablenkungssignale mit einer geringen Lautstärke wiedergegeben werden, so dass der Gesamtschalldruckpegel an den Sitzpositionen der mithörenden Passagiere nur minimal steigt und die Belästigung bzw. Beeinträchtigung der Passagiere nicht erhöht wird bzw. der lokale Hörkomfort bestmöglich erhalten bleibt.

[0077] In Ausführungsbeispielen werden die resultierenden modifizierten Spektren der Ablenkungssignale abhängig von einer zufälligen Richtungsauswahl je ti,distract Zeitpunkt in Abschnitt 270 räumlich variabel durch eine binaurale Raum-Übertragungsfunktion (BRTF) mittels punktweiser Multiplikation der Frequenzstützstellen (bzw. Faltung im Zeitbereich) der entsprechenden Spektren abgebildet. Hierzu wird in Abschnitt 275 für ein Ablenkungssignal zufällig eine Richtung ausgewählt. Im Speicher 280 befinden sich zu den möglichen Richtungen passende binaurale Raum-Übertragungsfunktionen (BRTF). Wie bereits oben für das Maskierungsrauschen ausgeführt, kann die Verräumlichung im Frequenz- oder Zeitbereich ausgeführt werden. Im Zeitbereich wird hierzu eine Faltung mit der Impulsantwort einer ausgewählten Außenohrübertragungsfunktion durchgeführt. Die Verräumlichung der Ablenkungssignale erfolgt vorzugsmäßig so dass die Ablenkungssignale vom Mithörer möglichst nahe und präsent am Kopf lokalisiert werden, damit diese eine starke Ablenkungswirkung erzielen. Für die räumliche Wiedergabe ist eine mehrkanalige (z.B. in Stereo) Wiedergabe erforderlich, ansonsten wäre eine einkanalige Wiedergabe ausreichend, die jedoch vorzugsweise auch mittels zwei in der Nackenstütze integrierten Lautsprechern erfolgt.

[0078] Im Falle einer Verräumlichung des Ablenkungssignals im Frequenzbereich werden in Abschnitt 285 die Faltungsergebnisse durch eine inverse Fourier-Transformation (IFFT) mit NFFT2 Punkte zurück in den Zeitbereich transformiert. Die rücktransformierten Zeitblöcke werden in Abschnitt 290 mit Hilfe der Overlap-and-Add Methode miteinander überlagert. Falls die vorherigen Schritte bereits im Zeitbereich ausgeführt wurden, so erübrigt sich selbstverständlich die Rücktransformation und die Überlagerung der Blöcke.

[0079] Die resultierenden Zeitsignale werden zu der jeweiligen aktiven Nackenstütze des Mithörers gesendet. Dort können in Ausführungsbeispielen, in denen auch Maskierungsrauschsignale erzeugt werden, die Maskierungssignale mit den Ablenkungssignalen vor der Ausgabe über die Lautsprecher der Nackenstütze summiert werden.

[0080] Das sprachsignalangepasste Ablenkungssignal erzeugt zufällig räumlich verteilte Anreger / Trigger-Informationen und verschleiert das Sprach-Zielsignal verbessert, ohne erhebliche permanent einwirkende Signalpegel.

[0081] Wie bereits erwähnt, kann die Signalverarbeitung teilweise im Frequenzbereich oder im Zeitbereich ausgeführt werden. Die oben genannten speziellen Werte sind nur Beispiele für eine mögliche Konfiguration der Frequenztransformation und können auf vielerlei Weise verändert werden. In einer möglichen Variation werden die energie- und frequenzmäßig angepassten Spektren (siehe Abschnitt 265) zuerst in den Zeitbereich zurücktransformiert und anschließend noch einmal in den Frequenzbereich gebracht, um dort die Verräumlichung - ggf. mit einer anderen spektralen Auflösung - zu berücksichtigen. Der Fachmann erkennt solche Variationen des erfindungsgemäßen Vorgehens zur Erzeugung von sprachsignalabhängigen Ablenkungssignalen nach dem Studium der vorliegenden Offenbarung.

[0082] In Ausführungsbeispielen werden beide Verschleierungssignale - breitbandiges Maskierungsrauschen und Ablenkungssignale - vor der Ausgabe summiert und gemeinsam wiedergegeben. Durch das Maskierungsrauschen, das vorzugsweise aus der Richtung des Sprechers wahrgenommen wird, wird ein breitbandiges, an die spektralen Eigenschaften des jeweiligen Sprachabschnitts angepasstes Rauschsignal erzeugt, dem punktuell (in zeitlicher wie frequenzmäßiger Hinsicht) kurze Ablenkungssignale an besonders relevanten Stellen überlagert werden. Diese Ablenkungssignale werden räumlich in Kopfnähe wahrgenommen und führen zu einer besonders wirksamen Reduzierung des Sprachverständlichkeit, selbst wenn sie mit geringer Lautstärke bzw. Energie wiedergegeben werden. Durch die Kombination mit dem breitbandigen Maskierungsrauschen wird das kurzzeitige An- und Ausschalten der Ablenkungssignale jedoch weniger als störend bzw. beeinträchtigend wahrgenommen. Der Gesamtschalldruckpegel an den Sitzpositionen der mithörenden Passagiere steigt nur minimal und die Belästigung bzw. Beeinträchtigung der Passagiere wird nicht erhöht bzw. der lokale Hörkomfort bleibt bestmöglich erhalten.

[0083] Die obige Beschreibung von Ausführungsbeispielen weist eine Vielzahl von Details auf, die für die durch die Ansprüche definierte Erfindung nicht wesentlich sind. Die Beschreibung der Ausführungsbeispiele dient dem Verständnis der Erfindung und ist rein illustrativ und ohne beschränkende Wirkung auf den Schutzbereich zu verstehen. Der Fachmann erkennt, dass die beschriebenen Elemente und ihre technischen Effekte in unterschiedlicher Weise miteinander kombiniert werden können, so dass weitere durch die Ansprüche abgedeckte Ausführungsbeispiele entstehen können. Weiterhin können die beschriebenen technischen Merkmale in Vorrichtungen und Verfahren, beispielsweise durch programmierbare Vorrichtungen ausgeführt, verwendet werden. Sie können insbesondere durch Hardwareelemente oder durch Software implementiert werden. Bekanntermaßen erfolgt die Implementierung von digitaler Signalverarbeitung bevorzugt durch speziell ausgebildete Signalprozessoren. Die Kommunikation zwischen einzelnen Komponenten der beschriebenen Vorrichtung kann drahtgebunden (z.B. mittels eines Bussystems) oder drahtlos (z.B. mittels Bluetooth oder WiFi) erfolgen. Ausdrücklich soll auch Schutz für eine computerimplementierte Realisierung und den zugehörigen Programm- oder Maschinencode in Form von Datenträgern oder in einer herunterladbaren Darstellung beansprucht werden.


Ansprüche

1. Verfahren zur Maskierung eines Sprachsignals in einem zonenbasierten Audiosystem, aufweisend:

Erfassen eines zu maskierenden Sprachsignals in einer Audiozone;

Transformieren des erfassten Sprachsignals in spektrale Bänder;

Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern;

Erzeugen eines Rauschsignals basierend auf den vertauschten Spektralwerten; und

Ausgeben des Rauschsignals als Maskierungssignal für das Sprachsignal in einer anderen Audiozone.


 
2. Verfahren nach Anspruch 1, wobei das Erzeugen eines Rauschsignals basierend auf den vertauschten Spektralwerten aufweist:

Erzeugen eines breitbandigen Rauschsignals;

Transformieren des erzeugten Rauschsignals in den Frequenzbereich; und

Multiplizieren der Frequenzdarstellung des Rauschsignals mit einer Frequenzdarstellung des Sprachsignals unter Berücksichtigung der vertauschten Spektralwerte.


 
3. Verfahren nach Anspruch 2, wobei die Frequenzdarstellung des Sprachsignals durch eine Interpolation der Spektralwerte der Bänder nach dem Vertauschen von Spektralwerten erzeugt wird.
 
4. Verfahren nach einem der vorherigen Ansprüche, weiter aufweisend:

Schätzen eines Hintergrundrauschspektrums;

Vergleichen von Spektralwerten des Sprachsignals mit dem Hintergrundrauschspektrum; und

Berücksichtigen nur von Spektralwerten des Sprachsignals, die größer als die entsprechenden Spektralwerte des Hintergrundrauschspektrums sind.


 
5. Verfahren nach einem der vorherigen Ansprüche, wobei die Transformation des erfassten Sprachsignals in spektrale Bänder für Blöcke des Sprachsignals und mittels einer Mel-Filterbank erfolgt und optional eine zeitliche Glättung der Spektralwerte für die Mel-Bänder erfolgt.
 
6. Verfahren nach einem der vorherigen Ansprüche, wobei das Rauschsignal bei der Ausgabe mittels einer mehrkanaligen Wiedergabe räumlich dargestellt wird, vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion.
 
7. Verfahren nach Anspruch 6, wobei das Rauschsignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus der dominanten Richtung des Sprechers des zu maskierenden Sprachsignals zu stammen scheint.
 
8. Verfahren nach einem der vorherigen Ansprüche, weiter aufweisend:

Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal;

Erzeugen eines Ablenkungssignals für den bestimmten Zeitpunkt; und

Ausgeben des Ablenkungssignals zu dem bestimmten Zeitpunkt als weiteres Maskierungssignal in der anderen Audiozone.


 
9. Verfahren nach Anspruch 8, wobei der für die Sprachverständlichkeit relevante Zeitpunkt anhand von Extremwerten einer spektralen Funktion des Sprachsignals bestimmt wird, wobei die spektrale Funktion basierend auf einer Addition von, optional gemittelten, Spektralwerten über die Frequenzachse bestimmt wird.
 
10. Verfahren nach Anspruch 8 oder 9, wobei der für die Sprachverständlichkeit relevante Zeitpunkt anhand von Parametern des Sprachsignals, wie Nulldurchgangsrate, Kurzzeitenergie und/oder spektraler Schwerpunkt, verifiziert wird.
 
11. Verfahren nach einem derAnsprüche 8 bis 10, wobei das Ablenkungssignal für den bestimmten Zeitpunkt zufällig aus einer Menge von vorgegebenen Ablenkungssignalen ausgewählt und hinsichtlich einer spektralen Charakteristik und/oder seiner Energie an das Sprachsignal angepasst wird.
 
12. Verfahren nach einem der Ansprüche 8 bis 11, wobei das Ablenkungssignal bei der Ausgabe mittels einer mehrkanaligen Wiedergabe räumlich dargestellt wird, vorzugsweise durch Multiplikation mit binauralen Spektren einer akustischen Übertragungsfunktion.
 
13. Verfahren nach Anspruch 12, wobei das Ablenkungssignal in der anderen Audiozone derart räumlich ausgegeben wird, dass es aus einer zufälligen Richtung und/oder in Kopfnähe eines Hörers in der anderen Audiozone zu stammen scheint.
 
14. Vorrichtung zur Erzeugung eines Maskierungssignals in einem zonenbasierten Audiosystem, die ein zu maskierende Sprachsignal empfängt und das Maskierungssignal basierend auf dem Sprachsignal erzeugt, aufweisend:

Mittel zum Transformieren des erfassten Sprachsignals in spektrale Bänder;

Mittel zum Vertauschen von Spektralwerten von zumindest zwei spektralen Bändern; und

Mittel zum Erzeugen eines Rauschsignals als Maskierungssignal basierend auf den vertauschten Spektralwerten.


 
15. Vorrichtung nach Anspruch 14, weiter aufweisend:

Mittel zum Bestimmen eines für die Sprachverständlichkeit relevanten Zeitpunkts im Sprachsignal;

Mittel zum Erzeugen eines Ablenkungssignals für den relevanten Zeitpunkt; und

Mittel zum Addieren des Rauschsignals und des Ablenkungssignals und zum Ausgeben des Summensignals als Maskierungssignal.


 
16. Vorrichtung nach Anspruch 14 oder 15, weiter aufweisend:
Mittel zum Erzeugen einer mehrkanaligen Darstellung des Maskierungssignals, die eine räumliche Wiedergabe des Maskierungssignals ermöglicht.
 
17. Zonenbasiertes Audiosystem mit einer Mehrzahl von Audiozonen, wobei eine Audiozone zumindest ein Mikrofon zum Erfassen eines Sprachsignals und eine andere Audiozone mindestens einen Lautsprecher aufweist, wobei Mikrofon und Lautsprecher bevorzugt in Nackenstützen von Sitzen für Insassen eines Fahrzeugs angeordnet sind, wobei das Audiosystem eine Vorrichtung zur Erzeugung eines Maskierungssignals gemäß den Ansprüchen 14 bis 16 aufweist, die ein Sprachsignal von einem Mikrofon der einen Audiozone erhält und das Maskierungssignal an den oder die Lautsprecher der anderen Audiozone sendet.
 




Zeichnung
















Recherchenbericht









Recherchenbericht