[0001] Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung individuell
anpassbarer binauraler Audiosignale.
[0002] Die Realisierung plausibler oder gar authentischer virtueller akustischer Umgebungen
ist seit längerer Zeit Ziel technischer Entwicklung im Bereich binauraler Audiosysteme
und -verfahren. Diese Verfahren zielen auf die Erzeugung eines möglichst naturgetreuen
räumlichen Höreindrucks beim Hörer (Nutzer, Versuchsperson, Patient usw.). Die wesentlichen
Parameter bzw. sog. cues (Hinweise) für räumliches Hörens stellen richtungs- und frequenzabhängige
Laufzeit- und Pegeldifferenzen dar, die die Schallsignale einer Quelle beim Eintreffen
an beiden Ohren bzw. den Trommelfellen eines Hörers aufweisen. Hierzu sei verwiesen
auf die sog. Duplextheorie des Hörens nach Lord Rayleigh.
[0003] Diese Parameter müssen von einem System zur Simulation virtueller (Raum-)Akustik
(auch kurz VAE bzw. virtual acoustic environment genannt) korrekt hergestellt werden
können. Im Allgemeinen spricht man dabei von der interauralen Laufzeitdifferenz (auch
kurz ITD bzw. interaural time delay genannt) oder von der interauralen Pegeldifferenz
(auch kurz ILD bzw. interaural level difference genannt). Letztere ist im Wesentlichen
auf den Kopf als Hindernis bei der Schallausbreitung zurückzuführen, feinere Unterschiede
lassen sich auf die spezifische Form der Außenohren zurückführen. Die interaurale
Laufzeitdifferenz ITD ergibt sich dagegen hauptsächlich aus dem geometrischen Abstand
beider Ohren, welcher positionsabhängig zu unterschiedlichen Eintreffzeitpunkten des
Schalls einer Quelle an den Trommelfellen führt. Die ITD lässt sich nur innerhalb
eines Frequenzbereichs bis ca. 1500 Hz sinnvoll für die Lokalisation auswerten, oberhalb
davon verhindern Ambiguitäten diese Auswertung und die Pegeldifferenz ILD bestimmt
zunehmend die wahrgenommene Schalleinfallsrichtung. Beide Aspekte sind teilweise gegeneinander
austauschbar (sog. "Laufzeit-Intensitäts-Trading"), wovon z.B. die Stereofonie profitiert,
die so wahlweise als Laufzeit-, Pegel- oder gemischte Stereofonie realisierbar ist.
[0004] Eine vollständige, frequenzabhängige Beschreibung sowohl der zeitlichen als auch
der spektralen Informationen des Schallfelds stellt die kopfbezogene oder Außenohr-
Übertragungsfunktion dar. Sie ist definiert als das Verhältnis der folgenden Übertragungsfunktionen:
Zum einen der Übertragungsfunktion gemessen am Trommelfell eines Hörers (wahlweise
auch am geblockten Ohrkanaleingang eines Kunstkopfes) und zum zweiten der Übertragungsfunktion
eines Kugelmikrofons in Kopfmitte bei dessen Abwesenheit. Diese sogenannte kopfbezogenen
Übertragungsfunktion (auch kurz HRIR bzw. HRTF genannt, wobei HRIR für head related
impulse response und HRTF für head related transfer function stehen) ist per Definition
nachhallfrei. In der
GB-A-2 369 976 wird beispielsweise ein Verfahren zur Synthese einer gemittelten Diffus-Feld-HRTF
beschrieben. Ein Verfahren und eine Vorrichtung zur Verarbeitung von interauraler
Zeitverschiebung ("Method and Apparatus for Processing Interaural Time Delay in 3D
Digital Audio") wird in
US 7,174,229 B1 beschrieben. In
US 6,795,556 wird die Modifizierung von kopfbezogenen Übertragungsfunktion (HRTFs) beschrieben.
Verfahren zur Messung von HRTFs werden in der
EP 0912077 B1 oder der
DE 69523643 T2 beschrieben.
[0005] Werden hingegen Kunstkopfübertragungsfunktionen einer elektro-akustischen Quelle
in einem nachhallbehafteten Raumschallfeld vermessen, so spricht man unterscheidend
dazu von BRIRs oder BRTFs (binaural room impulse responses bzw. transfer functions),
also von kopfbezogenen Übertragungsfunktionen, die auch den nachhallenden Raum mit
umfassen. Mittels einer solchen kopfbezogenen Übertragungsfunktion kann man den akustischen
Eindruck sog. virtueller Schallquellen mit hoher Plausibilität erzeugen. Filtert man
nämlich ein beliebiges nachhallfreien Audiosignal mit den HRTF des linken und rechten
Ohres, stellt sich bei der Wiedergabe z.B. über Kopfhörer ein Schallereignis mit mehr
oder minder korrektem Richtungs- und Entfernungseindruck ein. Etwas vereinfachend
besagt die Theorie der Binauraltechnik, dass die auf diese Weise mögliche, perfekte
Rekonstruktion des Schalldruckzeitverlaufs am Trommelfell zu einem, dem realen Hören
eines identischen Hörereignisses führt.
[0006] An sich bekannt sind rechnerbezogene Verfahren und Systeme für numerische Raumakustiksimulation,
die Datenbanken mit HRTF-Datensätzen eines individuell vermessenen Hörers oder eines
Kunstkopfes in hoher räumlicher Winkelauflösung aufweisen und die das Berechnen der
vollständigen Raumimpulsantwort an ausgewählten Hörerplätzen ermöglichen, jedoch idealerweise
nur für diesen individuellen Hörer oder für einen Hörer, dessen Physiognomie bzw.
Anthropometrie nur unwesentlich von der des verwendeten Kunstkopfes abweicht. Dazu
werden, vereinfacht gesagt, unter Verwendung eines Strahlenmodells aus der Optik,
mögliche Schallpfade von der Quelle zum Hörer nachgebildet. Jeder Schallpfad entspricht
einer Raumreflexion; durch Gewichtung der Schallpfade mit der der Einfallsrichtung
des Schallpfads entsprechenden HRTF des linken und rechten Ohres und nach Superpositionierung
aller derart gewichteten Reflexionen der Raumimpulsantwort ergibt sich eine binaurale
Raumimpulsantwort des virtuellen Raums. Dieser Raum kann nun durch Filterung nachhallfreien
Audiomaterials mit dieser BRIR hörbar gemacht werden; man spricht dann auch von "Auralisation".
[0007] Alternativ dazu können auch die BRIRs direkt in-situ gemessen werden. Dazu werden
die BRIRs unter Verwendung elektroakustischer Anregequellen (Lautsprecher) und eines
sog. Kunstkopf-Torsosimulators bzw. Roboters (auch kurz als HATS bezeichnet; head
and torso simulator) vermessen. Ein solcher Roboter (HATS) ermöglicht aufgrund einer
Nachbildung der multiplen Freiheitsgrade der Kopfbewegung (z.B. 4 rotatorische, 3
translatorische) eine automatisierte und räumlich feine Vermessung der BRIRs für Kopfbewegungen
eines Hörers und kann eine deutlich höhere Klangqualität und Nähe zum Original erzielen.
In dem Artikel
Lindau, A.; Weinzierl, S. (2007): "Fabian - Schnelle Erfassung binauraler Raumimpulsantworten
in mehreren Freiheitsgraden." von A. Lindau und S. Weinzierl, erschienen in "Fortschritte
der Akustik", Tagungsband der 33. DAGA Stuttgart, Deutschland, wird eine solche Technologie unter der Bezeichnung FABIAN vorgestellt. Der HATS
FABIAN wird durch einen Softwaregesteuerten automatisierbaren Roboter realisiert,
der aus einem mit Außenohren abgeformtem Kunstkopf und generisch nachempfundenem menschlichem
Körper besteht. Der Roboter dient zum Erreichen natürlicher Schallfeldbeeinflussung
(Beugung, Abschattung, Reflektion) als Resultat am Ort der eigentlichen Messung des
Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal. Durch Verwendung
eines solchen HATS kann eine verbesserte Auralisation erreicht werden.
[0008] Eine weitere Verbesserung durch Erhöhung der Plausibilität binauraler raumakustischer
Simulation ergibt sich, wenn die Interaktivität des Hörers berücksichtigt wird, d.h.
wenn das Reagieren der Simulation auf Kopfbewegungen des Hörers berücksichtig wird.
Wünschenswert wäre es, wenn jedwede gewollte oder unbewusste Kopfbewegung kompensiert
werden könnte, um somit zu einem plausiblen und fehlerfreien räumlichen Hören beizutragen.
Dazu müssten jedoch für jede in einer späteren Auralisation zu berücksichtigenden
Kopfstellung des Hörers (evtl. bzgl. verschiedener translatorischer und rotatorischer
Freiheitsgrade) die kopfbezogenen Übertragungsfunktionen als HRTFs bzw. BRIRs vorliegen.
Bekannt ist bereits, eine auf moderner Computerhardware ausgeführte Implementation
echtzeitfähiger, zeitvarianter schneller Faltungsalgorithmen, die den Kopfbewegungen
des Hörers (durch sog. head tracking) folgend, die HRTFs oder BRIRs unhörbar schnell
austauschen, so dass sich z.B. im Falle von HRTFs relative Bewegungen zwischen Quelle
und Empfänger oder im Falle von BRIRs ein Raumschallfeld, welches sich bei Kopfbewegungen
nicht mehr "mitdreht" simulieren lassen. Zudem können auch typische Abbildungsartefakte
der sog. statischen Kunstkopftechnik, wie "Vorne-Hinten-Vertauschungen" und "Im-Kopf-Lokalisation",
wirkungsvoll eliminiert bzw. reduziert werden.
[0009] In der
US 7174229 B1 werden ein Verfahren und eine Vorrichtung zur Verarbeitung interauraler Zeitverzögerung
in 3D digitalen Audiosignalen bzw. -daten beschrieben. Für das Wiedereinbringen extrahierter
oder modellierter ITDs in HRTF-Datensätzen (keine Räume) wird allerdings ein umständliches
zweistufiges Delay aus samplegenauen FIFO-Puffern und fraktionalen Allpassfiltern
(Auftrennung von sample- und subsample-delay) verwendet. Somit benötigt dieser Vorschlag
eine ungenannte Anzahl von expilizit für jede fraktionale Zeiteinheit entworfener
Filter, die z.B. durch Parallelschaltung realisiert werden und durch Anwahl mit einem
Schalter selektierbar gemacht werden müssen.
[0010] In der
US 6795556 wird ein Verfahren beschrieben, das auf eine Skalierung von empirischen "non standard"
HRTF-Cues abzielt, sowohl im Zeit- als auch im Frequenzbereich ab. Auch dieses Verfahren
geht nicht über das zuvor beschriebene hinaus.
[0011] Obwohl die bekannten Verfahren und Vorrichtungen bereits mittels datenbasierter,
dynamischer binauraler Simulation eine hochplausible Simulation von Raumakustik ermöglichen,
bestehen noch viele Herausforderungen, um zu einer perzeptiven Perfektionierung gelangen
zu können. Hier sind insbesondere folgende Aufgabenbereiche zu nennen:
[0012] Die Wahrnehmbarkeit von Latenz bei der Verarbeitung der Kopfbewegung, die minimal
notwendige Granularität des Gridrasters der BRIRs bzgl. Kopfbewegungen in allen rotatorischen
Freiheitsgraden, die Diskriminierbarkeit räumlich getrennter Quellen, beschleunigte
BRIR-Messverfahren, die Simulation natürlicher Quellrichtcharakteristika (Sprecher,
Instrumente) und/oder die optimale Frequenzgangsentzerrung der Wiedergabestrecke.
[0013] Im Kreise der Erfinder wurde eine Evaluation der Simulationsumgebung durch direkten
A-B-Vergleich (also Vergleich unter direktem Schalten von einer Quelle zu einer anderen,
um einen unbeeinflußten und möglichst objektiven Vergleich zu ermöglichen) von simuliertem
und realem Schallfeld durchgeführt, die neben einer erfreulich geringen Erkennungsrate
von 52.6% leider auch eine Anzahl verbleibender perzeptiver Artefakte zeigte, von
denen als besonderes prägnante Probleme das Auftreten von Klangverfärbung und Lokalisationsfehler
hervortreten.
[0014] Demnach ist es Aufgabe der Erfindung, ein Verfahren der eingangs genannten Art vorzuschlagen,
das die zuvor genannten Probleme in vorteilhafter Weise überwindet. Insbesondere soll
das Auftreten perzeptiver Artefakte wie beispielsweise von Lokalisationsfehlern, Latenzwahrnehmung
oder Überblendungsfehlern eliminiert oder zumindest deutlich reduziert werden. Außerdem
soll eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen werden.
[0015] Gelöst wird die Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie
durch eine Vorrichtung mit den Merkmalen des nebengeordneten Anspruchs.
[0016] Demnach wird ein Verfahren vorgeschlagen, bei dem zur Erzeugung individuell anpassbarer
binauraler Audiosignale folgende Schritte ausgeführt werden:
aus kopfbezogenen Übertragungsfunktionen, die verschiedenen Kopfpositionen zugeordnet
sind, werden mittels Extraktion von interauralen Laufzeiten laufzeitbefreite kopfbezogene
Übertragungsfunktionen und dazu korrespondierende Laufzeit-Differenzen berechnet;
mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale erzeugt, die sich
jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von Kopfpositions-Daten
die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen für eine aktuelle Kopfposition
verwendet werden; und
aus den laufzeitbefreiten Audiosignalen werden die individuell anpassbaren binauralen
Audiosignale erzeugt, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite
Audiosignal mit einer zeitlichen Verzögerung in Abhängigkeit von der für die aktuelle
Kopfposition berechneten Laufzeit-Differenz und in Abhängigkeit eines individuellen
Skalierungsfaktors beaufschlagt wird.
[0017] Ebenfalls wird eine Vorrichtung zur Durchführung des Verfahrens vorgeschlagen, wobei
die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale folgende
Komponenten aufweist:
eine erste Schaltung, die aus kopfbezogenen Übertragungsfunktionen, die verschiedenen
Kopfpositionen zugeordnet sind, interaurale Laufzeiten extrahiert und daraus Laufzeit-Differenzen
berechnet;
eine zweite Schaltung, die mittels einer Binauralsynthese laufzeitbefreite Audiosignale
erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei diese Schaltung
in Abhängigkeit von Kopfpositions-Daten die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen
für eine aktuelle Kopfposition verwendet; und
mindestens eine dritte Schaltung, die aus den laufzeitbefreiten Audiosignalen die
individuell anpassbaren binauralen Audiosignale erzeugt, indem diese Schaltung zumindest
für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal mit einer zeitlichen
Verzögerung in Abhängigkeit von der für die aktuelle Kopfposition berechneten Laufzeit-Differenz
und in Abhängigkeit eines individuellen Skalierungsfaktors beaufschlagt wobei sie
in der Lage ist, die kopfpositionsbedingten Veränderungen der Laufzeitdifferenzen
im Signal auf unhörbare Weise zu vollziehen.
[0018] Demnach wird vorgeschlagen, aus kopfbezogenen Übertragungsfunktionen, wie z.B. BRIRs,
die interauralen Laufzeiten zu extrahieren, um somit laufzeitbefreite Übertragungsfunktionen
zu erhalten, und aus den extrahierten Laufzeiten Laufzeitdifferenzen zu berechnen,
die in einem späteren Schritt zusammen mit einem individuellen Skalierungsfaktor verwendet
werden, um die Audiosignale damit zu beaufschlagen, welche durch eine Binauralsynthese
in Abhängigkeit der aktuellen Kopfposition mittels der laufzeitbefreiten Übertragungsfunktionen
erzeugt wurden. Demzufolge wird in einem mehrstufigen Verfahren die kopfbezogene Übertragungsfunktionen
von den interauralen Laufzeiten befreit, die sich auf eine bestimmte Anthropometrie
(z.B. die eines Kunstkopfes) beziehen, und es werden laufzeitbefreite Audiosignale
mittels einer Binauralsynthese erzeugt und anschließend durch eine zeitliche Verzögerung,
die individuell gewichtet wird (Skalierungsfaktor), mit den für die jeweilige Person
bzw. den Nutzer passenden Laufzeiten beaufschlagt, so dass ein deutlich verbesserter
räumlicher Höreindruck erzielt werden kann. Insbesondere entspricht die zeitliche
Verzögerung einem Wert, der aus der Wichtung der für die aktuelle Kopfposition berechneten
Laufzeit-Differenz und dem individuellen Skalierungsfaktor berechnet wird.
[0019] Vorzugsweise wird das Verfahren dynamisch gestaltet, indem bei einer auftretenden
Änderung der Kopfposition von einer ersten Kopfposition in eine zweite Kopfposition
die zeitliche Verzögerung zwischen einem ersten Wert und einem zweiten Wert adaptiv
mittels einer Abtastratenkonversion bzw. sample rate conversion (SRC) verändert wird.
Durch die Anwendung eines SRC-Verfahrens, das auf Basis zeitlich kurzer Audioblöcke
- wahrgenommen latenzlos - arbeitet, ist eine nahtlose Änderung der Laufzeitdifferenz
bei Kopfbewegungen möglich.
[0020] Mit dem Verfahren können die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen
für eine Vielzahl von Kopfpositionen und/oder für eine Vielzahl von Audiosignal-Quellen
berechnet werden. Bei der Vielzahl von Kopfpositionen kann es sich z.B. um die Auflösung
der Blickrichtung in kleinen Winkeländerungen bzw. -schritten, von z.B. 1 Grad, handeln.
Die Anzahl der Quellen (Schall- bzw. Audioquellen) kann sehr groß sein, wobei pro
Quelle und für jeden Signalpfad (linker und rechter Ohrkanal) ein Audiosignal erzeugt
wird. Diese können dann nach der individuellen Gewichtung (Laufzeit-Verzögerung) für
jeden Signalpfad superpositioniert werden.
[0021] Die zu Beginn des Verfahren durchgeführte Extraktion der interauralen Laufzeiten
aus den kopfbezogenen Übertragungsfunktionen kann z.B. mittels eines der folgenden
Verfahren durchgeführt werden: Onset-Verfahren, interaurales Kreuzkorrelationsverfahren,
frequenzabhängige Gruppenlaufzeitdifferenzbildung, Differenzbildung der frequenzabhängig
linear angenäherten Phasengradienten oder Bestimmung des Exzessphasenanteils aus Division
der Ü.-funktionen vor und nach Hilbertransformation. Insbesondere das Onset-Verfahren
führt zu sehr guten Ergebnissen, was später noch im Detail beschrieben wird.
[0022] Die Erfindung löst in vorteilhafter Weise das Problem, dass bei Auralisationsverfahren
normalerweise die kopfbezogenen Übertragungsfunktionen HRTFs oder BRIRs immer nur
für die Anthropometrie eines bestimmten Individuums bzw. für einen bestimmten Kunstkopf
gelten, wodurch individuellen Unterschiede, wie z.B. die des Kopfdurchmessers nicht
exakt durch die in den Übertragungsfunktionen enthaltenen Laufzeitinformationen repräsentiert
werden, was dazu führt, dass andere Hörer, also "fremde" Personen, eine mehr oder
minder stark verzerrte Wahrnehmung von Lokalisation und - bei Kopfbewegungen - die
Empfindung einer naturgemäß nicht vorhandenen, räumlichen Bewegung der Audiosignale
(Lokalisationsinstabilität) erfahren.
[0023] Durch die Erfindung werden also Lokalisationsfehler aufgrund eines falschen Kopfdurchmessers
(Abweichung vom Kunstkopf) vermieden. Als Nebenaspekt der gewählten Vorgehensweise
(Laufzeitbefreiung und quasi-minimalphasige Überblendung) ergeben sich zudem deutliche
Verbesserungen hinsichtlich der Latenzaspekte und der hörbaren Fehler bei der Überblendung
bei Kopfbewegungen.
[0024] Untersuchungen der Erfinder haben gezeigt, dass die auftretenden Artefakte unterschiedlich
starken Einfluss auf die Authentizität der Hörwahrnehmung haben. So können offensichtliche
Klangfarbenfehler ohne direkte Referenz schnell unmerkbar werden, da beim Hörer eine
Gewöhnung eintritt; das absolute Klangfarbengedächtnis ist im Allgemeinen eher schlecht.
Schwerwiegender erscheint die Adaption an Abweichungen in den Kopfdimensionen und
die daraus resultierenden falschen Laufzeitinformationen von Schallsignalen. So führt
ein zu großer Kopfdurchmesser im generischen Datensatz zu einer wahrgenommen Bewegung
frontaler Quellen in entgegengesetzte Kopfbewegungsrichtung; im ungekehrten Falle
"folgen" die Quellen scheinbar in geringem Maße den Bewegungen des Hörers. Dieses
Artefakt kann sehr störend sein und Adaptionsfähigkeiten sind bisher nicht untersucht.
Die Erfindung reduziert auch die normalerweise auftretenden Überblendungsfehler ("Stottern"),
die dadurch entstehen, dass bei einem Echtzeitaustausch der HRTFs bzw. BRIRs Filter
mit Laufzeitversätzen ineinander überblendet werden. Dieses zeitliche "missalignment"
führt zu typischen kammfilterartigen Überblendartefakten, die besonders bei quasistationären
Inhalten (bei Sprachanwendungen z.B. bei Vokalen, bei Musik z.B. bei "Streicherteppichen")
deutlich und störend zu Tage treten. Die Erfindung reduziert diese Überblendungsfehler,
indem die Überblendung der Übertragungsfunktionen und das Einfügen von Laufzeitdifferenzen
bei der Binauralsynthese zeitlich aufeinander folgend und nicht - wie herkömmlich
üblich - zeitgleich erfolgen.
[0025] Nachfolgend wird die Erfindung und die sich daraus ergebenden Vorteile anhand von
Ausführungsbeispielen und mit Bezug auf die beiliegenden Zeichnungen beschrieben,
die folgende schematische Darstellungen wiedergeben:
- Fig. 1
- zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren;
- Fig. 2
- veranschaulicht die Extraktion von interauralen Laufzeiten und die Berechnung von
individuellen Laufzeitdifferenzen;
- Fig. 3
- zeigt als Blockschaltbild den Teil der erfindungsgemäßen Vorrichtung, der eine individuelle
skalierbare Audiosignal-Verzögerung auf der Basis der berechneten individuellen Laufzeitdifferenzen
bewirkt;
- Fig. 4a
- zeigt als Blockschaltbild eine Schaltung zur Durchführung einer dynamischen Binauralsynthese;
- Fig. 4b
- zeigt das Blockschaltbild nach Fig. 4a mit erläuternder Beschriftung einzelner Schaltungs-
bzw. Funktionsblöcke;
- Fig. 5a
- zeigt als Blockschaltbild eine erfindungsgemäß ausgestaltete Schaltung zur Durchführung
einer individualisierten dynamischen Binauralsynthese und zum Einsatz in der erfindungsgemäßen
Vorrichtung; und
- Fig. 5b
- zeigt das Blockschaltbild nach Fig. 5a mit erläuternder Beschriftung einzelner Schaltungs-
bzw. Funktionsblöcke;
[0026] Die Fig. 1 zeigt das Ablaufdiagramm für ein erfindungsgemäßes Verfahren 100, das
mehre Schritte aufweist, die im wesentlichen folgendes beinhalten:
In einem ersten Schritt 110 werden aus normalen kopfbezogenen Übertragungsfunktionen,
wie z.B. BRIRs, laufzeitbefreite Übertragungsfunktionen gewonnen sowie interaurale
Laufzeiten extrahiert und in Differenzen umgerechnet. Dies wird noch näher anhand
der Fig. 2 beschrieben, die ein schematisches Blockschaltbild einer ersten Schaltung
A darstellt.
[0027] In einem zweiten Schritt 120 wird mittels der laufzeitbefreite Übertragungsfunktionen
eine Binauralsynthese durchgeführt, um laufzeitbefreite Audiosignale L' bzw. R' zu
erzeugen. Dies wird noch eingehender anhand der Fig. 5a/b beschrieben. Die an sich
bekannte Binauralsynthese wird noch anhand der Fig. 4a/b beschrieben.
[0028] In einem dritten Schritt 130 wird eine Echtzeit-Synthese durchgeführt, um die ersten
Audiosignale individuell mit einer skalierbaren Zeitverzögerung zu beaufschlagen.
Dies wird noch näher anhand der Fig. 3 sowie Fig. 5a/b beschrieben.
[0029] Zunächst soll hier der erste Schritt 110 beschrieben werden: Wie die Fig. 2 veranschaulicht
umfasst die Schaltung A mehrere Funktionsblöcke 111 bis 117, die jeweils einen Teilschritt
der Schrittfolge 110 (s. Fig. 1) repräsentieren. Die Fig. 2 veranschaulicht somit
Vorverarbeitung der Impulsantwortdatensätze, wobei eine nahezu unhörbar genaue Extraktion
der ITD aus empirischen HRTF-/BRIR-Datensätzen durch Onsetdetektion erzielt werden
kann.
[0030] Zunächst werden in einem Teilschritt 111 normale Übertragungsfunktionen BRIR (alternativ
auch HRIR) aus einer Datenbank ausgelesen. Dann folgt eine Überabtastung um einen
Betrag, der eine mehr als gehörgenaue Extraktion der Laufzeiten aus den Impulsantworten
erlaubt (z.B. 10-fach bzgl. einer üblichen Audioabtastrate von 44.1 oder 48kHz) im
Block 112. Danach können in einem Block 113 dann die Onsets (Beginn der Audiosignale
bzw. - daten) aufgefunden werden. Anschließend wird im Block 114 die die Länge der
onsetbefreiten (quasi-minimalphasigen) Impulsantwort bestimmt und in einem Block 115
als Vektor angelegt. Durch anschließende, z.B. wieder 10-fache, Unterabtastung im
Block 116 ergeben sich im Block 117 laufzeitfreie Übertragungsfunktionen sowie die
extrahierten Laufzeiten, die als Laufzeitdifferenzen ITD berechnet und abgespeichert
werden. Zusätzlich können noch beschreibende Metadatensätze DSI hinzugefügt werden.
Das anhand der Fig. 2 veranschaulichte Verfahren verwendet das Onset-Verfahren zur
Bestimmung der laufzeitbefreiten Impulsantworten. Hierauf wird später noch näher eingegangen.
[0031] Zunächst sei hier angemerkt, dass zwischen den an sich bekannten filtertheoretischen
Aspekten von Übertragungsfunktionen, wie HRTFs oder BRIRs, und der Erfindung folgende
Zusammenhänge bestehen:
Lineare, zeitinvariante und nichtrekursive Systeme, zu denen Außenohr- und binaurale
Raumübertragungsfunktionen zu zählen sind, sind laut der elementaren Filtertheorie
vollständig durch ihre endliche Impulsantwort beschrieben. Im digitalen Falle handelt
sich damit um FIR- (finite impulse response) Filter. Diese werden in Form von mit
den Filterkoeffizienten gewichteten, akkumulierenden delaylines technisch realisiert;
somit stellen sie Implementierungen der diskreten Faltungsumme dar. Die zeitliche
Auflösung entspricht dabei der Abtastrate des Audiosignals (z.B. 44.1 kHz). Im Falle
empirischer HRTFs oder BRIRs liegen zumeist gemischtphasige Filter xmix(n) vor. Sie lassen sich in drei Anteile zerlegen:

[0032] Die interaurale Laufzeitdifferenz ergibt sich als Differenz der Laufzeiten der HRTF
bzw. BRIR des linken und rechten Ohres. Diese Laufzeiten ergeben sich wiederum als
Summe des linearphasigen (reiner Laufzeitanteil) und des allpasshaltigen (frequenzabhängige
Phasengangsverzerrungen ohne spektrale Verzerrungen) dem sog. Exzessphasenanteil.

[0033] Der verbleibende minimalphasige Anteil X
minimal(n) beschreibt allein die spektralen Veränderungen (ILD) und enthält keine absoluten
oder relativen Laufzeitinformationen mehr.
[0034] Die interaurale Laufzeitdifferenz ITD ist frequenzabhängig. Der für eine korrekte
Lokalisation wesentliche Anteil (< 1500Hz) ist jedoch relativ konstant und lässt sich
mehr oder minder artefaktfrei extrahieren. Als Verfahren eignet sich insbesondere
die Onset-Detektion, wie es anhand der Fig. 2 veranschaulicht wird. Als Alternative
eignet sich auch die Bestimmung des Exzessphasenanteils durch Nutzung der Hilberttransformation,
frequenzbereichsspezifisches Phasengradienten-Matching, Maximum der interauralen Kreuzkorrelation
oder die frequenzbereichsspezifische Bestimmung der interauralen Gruppenlaufzeitdifferenz.
[0035] Diese genannten Methoden unterschieden sich im Wesentlichen darin, ob sie den Allpassanteil
ebenfalls extrahieren können (Hilbertverfahren) oder nicht (alle anderen). Hörbare
Fehler in Folge der Vernachlässigung des Allpassanteils treten jedoch nur für wenige
Einfallsrichtungen des Schalls auf. Zum überwiegenden Teil sind empirische HRTFs lediglich
aus Kombinationen minimalphasiger und linearphasiger Anteile gebildet. Nachweislich
hörbare Fehler beim Zusammensetzen "nicht-allpassenthaltender" Laufzeiten mit analytisch
perfekt minimalphasigen Spektren ergeben sich nur am contralateralen (abgewandten)
Ohr bei stark lateralem Schalleinfall. Inwieweit diese Verfahren auch auf in Räumen
vermessene BRIRs anwenden lassen (und nicht nur auf nachhallfreie HRTFs) wurde von
den Erfindern untersucht. Dabei ergab sich, dass im Falle von BRIRs nur das Onset-Verfahren
genau genug (vgl. dagegen Kreuzkorrelationsverfahren), robust genug (vgl. dagegen
Phasengradientenverfahren), überhaupt anwendbar (vgl. dagegen Gruppenlaufzeitdifferenzverfahren)
und klangfarbentreu (vgl. dagegen Hilbertverfahren) ist. Intrinsisch bedingt konserviert
das Onsetverfahren zudem mögliche Allpassanteile der BRIRs in vorteilhafter Weise;
sie gehen nicht verloren, sondern bleiben in den laufzeitfreien Spektren erhalten,
die daher hier als quasi-minimalphasig bezeichnet werden. In formalen und kriterienfreien
Hörversuchen wurde bestätigt, dass bei der Resynthese der extrahierten Laufzeiten
und den quasi-minimalphasigen Spektren auch bei kontralateralem Schalleinfall erwartungsgemäß
keine Lokalisationsfehler auftreten. Weitere formale Hörversuche zeigten, dass die
aufgrund der Hilberttransformation auftretenden Veränderungen der Nachhallstruktur
in jedem Falle hörbar sind.
[0036] Es sind zudem geometrisch-modellbasierte Ansätze bekannt, die aus Angaben anthropometrischer
Daten des Kopfes die ITD winkelabhängig berechnen. Diese Methoden weisen subjektiv
jedoch Mängel auf und haben den wesentlichen Nachteil, dass für eine modellbasiert
zu generierende ITD die Schalleinfallsrichtung, d.h. die virtuellen Quellpositionen,
auf denen empirische HRTF- oder BRIR-Datensätze basieren, bekannt sein müssen. Bei
HRTFs ist dies ein banales Problem, da eine HRTF ja genau den Schalleinfall für eine
spezifische Richtung, bzw. einen spezifischen Einfallswinkel beschreibt. Bei der Vermessung
von Schallfeldern in Räumen mit beweglichen Kunstköpfen sind jedoch beliebige Quellpositionen
denkbar (z.B. bei simulierte Konzertsituationen). Diese sind aus den Datensätzen nicht
mehr zwingend funktional basiert extrahierbar. Die an sich bekannte modellbasierte
ITD-Genese ist also eher nur für parametrische, numerisch-modellhafte Ansätze der
virtuellen Akustik und weniger für in-situ vermessen BRIRs geeignet.
[0037] Gemäß der Erfindung werden die kopfbezogenen Übertragungsfunktionen von den Laufzeiten
befreit. Nach der Trennung von quasi-minimalphasigem Spektrum und Laufzeit können
beide dann getrennt der Resynthese zugeführt werden, wobei eine skalierbare und auf
das Individuum angepasste Resynthese durchgeführt werden kann (s. Fig. 3 und Fig.
5a/b). Vorteile hierbei sind Latenzreduktion und eine Verkürzung der vorzuhaltenden
HRTFs (wenn diese, wie bisher implizit angenommen als FIR-Filter ausgeführt sind)
um eben die extrahierte Laufzeit. Prinzipiell lassen sich die HRTFs auch als IIR-Filter
(infinite impulse response) - entweder durch Modellierung/Schätzung von gemessenen
HRTFs die zwangsweise immer als FIR-Filter (finite impulse response) vorliegen, oder
durch parametrische Modellierung wesentlicher Features - generieren.
[0038] Das hier beschriebene Verfahren ist prinzipiell auf in beliebiger Weise erzeugte
kopfbezogene Übertragungsfunktionen anwendbar. Sie wird hier aber am Beispiel von
als FIR-Filtern vorliegenden empirischen HRTF-/BRIR-Datensätzen beschrieben, wie sie
z.B. mit dem eingangs genannten Roboter (HATS FABIAN, siehe Lindau et al. 2007) vermessen
wurden.
[0039] In Bezug auf die in der Fig. 2 veranschaulichten Extraktion aus bestehenden Übertragungsfunktionen
BRIR/HRIR ist zu sagen, dass diese mittels des besagten Roboters FABIAN gewonnen werden
können:
Der von den Erfindern eingesetzte Roboter FABIAN besitzt Bewegungsmöglichkeiten in
7 Freiheitsgraden (4 rotatorische, 3 translatorische). Der durch Softwaresteuerung
automatisierbare Roboter besteht aus einem mit Außenohren abgeformtem Kunstkopf und
generisch nachempfundenem menschlichem Körper. Der Roboter dient zum Erreichen natürlicher
Schallfeldbeeinflussung (Beugung, Abschattung, Reflektion) als Resultat am Ort der
eigentlichen Messung des Schallfelds, der beiden Mikrofonmembranen am geblockten Ohrkanal.
[0040] Die im Folgenden beschriebenen Algorithmen der Erfindung beziehen sich exemplarisch
auf die Verwendung von BRIR-Datensätzen, die mit einem solchen Roboter gewonnen werden
können. Das Verfahren ist aber nicht auf diese Datensätze beschränkt, sondern auf
jegliche Auralisationsverfahren anwendbar, die räumliche Schalllokalisation durch
Filterung kopfbezogener Impulsantworten mit Audiosignalen realisieren.
[0041] Das Verfahren erreicht eine wesentliche Verbesserung der auf empirischen HRTF-/BRIR-Datensätzen
basierenden dynamischen Binauralsynthese und bietet insbesondere folgende Vorteile:
- i) eine nahezu unhörbar genaue Extraktion und
- ii) eine ebenfalls unhörbare individuelle, echtzeitfähige Rekonstruktion und Manipulation
(frequenzunabhängige Skalierung) der interauralen Laufzeitdifferenz.
[0042] Das Verfahren 100 (s. Fig. 1) umfasst dazu in einen Vorverarbeitungs-Schritt 110
(s. Fig. 1 sowie auch Teilblöcke in Fig. 2) und einen Echtzeit-Resynthese-Schritt
130 (s. Fig. 1 sowie auch Fig. 3), der einem dynamischen Binauralsynthese-Algorithmus
bzw. Schritt 120 (s. Fig. 1 sowie auch Fig. 4a/b) nachgeschaltet wird (siehe Fig.
5a/b).
[0043] Zur Funktionsweise und zum Aufbau der erfindungsgemäßen Vorrichtung (s. Fig. 5a/b)
sowie des von ihr ausgeführten Verfahrens (s. insbes. Fig. 1) ist zu sagen:
Zunächst erfolgt im Rahmen des Schritts 110 die Vorverarbeitung der Impulsantwortdatensätze.
Das vorzuschlagende Verfahren setzt dazu bei der Extraktion der interauralen Laufzeit
aus generischen HRTF-/BRIR-Datensätzen an. Die Gewinnung der BRIR-Datensätze (Block
111 in Fig. 2) erfolgt vorzugsweise mittels des zuvor beschrieben Roboters in realen
Räumen für beliebige Anzahlen von elektroakustischen Quellen und unter Verwendung
eines fein aufgelöster Kopfbewegungsrasters innerhalb physiologisch sinnvoller Drehbereiche.
[0044] Liegen die empirischen Datensätze vor, so werden zunächst die Laufzeiten extrahiert
(insbes. Block 113) und die interauralen Laufzeitdifferenz ITD berechnet. Dabei sei
die ITD definiert als:

wobei TL - t
lauf (linkes Ohr) und TR = - t
lauf (rechtes Ohr)
[0045] Wie bereits erwähnt, erweist sich das Onsetverfahren unter den Methoden zur Extraktion
als das am besten geeignete Verfahren. Die anderen Verfahren zeigten geringere Robustheit
bei empirischen Datensätzen binauraler Raumimpulsantworten. Das Hilbertverfahren erscheint
zudem ungeeignet zu sein, da es aufgrund der inhärenten Energiekompaktierung in Richtung
des Beginns der Impulsantwort die enthaltene Reflexionsstruktur des Raumschallfelds
in evtl. hörbarem Ausmaße verändert. Dies konnten die Erfinder anhand von auditorisch-modellhaften
numerischen Vorversuchen und durch einen formalen Hörversuch plausibilisieren. Das
Onset-verfahren wird so eingestellt, dass das natürliche Messgrundrauschen (typ. ca.
-50 bis -90 dB relativ zum Betrags-Maximalwert der Impulsantwort) bestimmt wird und
dann ein Schwellwert deutlich oberhalb davon gewählt wird (z.B. um 15 dB höher, also
-35dB
rel). Der Impulsantwortendatensatz wird dann maschinell und jeweils vom Beginn der Impulsantworten
an durchsucht und anhand der Zeitpunkte des Überschreitens des Schwellwertkriteriums
in linken und rechten Kanal der HRTF/BRIR durch Differenzbildung die ITD berechnet
(siehe Formel 3). Die Laufzeiten werden entfernt und die nun laufzeitfreien Impulsantworten
erneut gespeichert (Block 117). Das Onsetverfahren wird auf das 10-fach überabgetastete
Zeitsignal angewandt, um somit eine Diskretisierung der ITD in 2.3µs-Schritten, zu
erhalten. Diese Auflösung entspricht in etwa einem Fünftel des gerade wahrnehmbarem
ITD-Schwellwerts. Die so extrahierte Laufzeit bzw. Laufzeitdifferenz ITD kann nun
in einem textbasierten Listenformat (z.B.
*.txt,
*.csv,
*.xml) maschinenlesbar dem laufzeitbefreiten Datensatz beigelegt werden.
[0046] Die anhand der Fig. 2 veranschaulichte Vorverarbeitungsprozedur umfasst somit folgende
Teilschritte:
| 111: |
Impulsantwort einlesen (*.wav file) |
| 112: |
Impulsantwort 10 x überabtasten |
| 113: |
Finde Onset nach Pegel-Kriterium; Schreibe Matrix der Onsetindizes für linken und
rechten Kanal; Berechne ITD aus Differenz der Onsetindizes; Korrigiere Berechnungsergebnis
um Überabtastfaktor; Finde maximale Laufzeit im Datensatz |
| 114: |
Bestimme neue Impulsantwortlänge, new_len=size_IR - max_time_of_flight (ergibt Länge
der kürzestmöglichen IR im überabgetasteten Bereich, dient als Ziellänge für alle
im Folgenden extrahierten IRs) |
| 115: |
Extrahiere aus Impulsantwort Vektor der Länge new_len beginnend bei Onsetindizes |
| 116: |
Extrahierte Impulsantwort 10 x unterabtasten |
| 117: |
Speichere IR als neue *.wav Datei |
[0047] Außerdem: Speichere ITDs in maschinenlesbarer Datei; schreibe auch eine datensatzbeschreibende
*.xml Datei DSI (mit Informationen über Start und Endpunkte, Auflösungen, für Azimut
und Elevation).
[0048] Diese Verarbeitung wird in einer ersten Schaltung A durchgeführt, die Teil der Vorrichtung
ist (s. Fig. 5a/b).
[0049] Eine weitere Schaltung B mit Funktionsblöcken BA und BB (s. Fig. 4a/b) wird in einer
abgewandelten Form (mit Funktionsblock BB
*) ebenfalls in der Vorrichtung (s. Fig. 5a/b) eingesetzt und dient einer individuellen,
adaptiven Echtzeit-Resynthese, die nachfolgend noch näher beschrieben wird:
[0050] Ausgangspunkt bzw. Vorbedingung für die individualisierte binaurale Audiowiedergabe
ist das Vorhandensein eines Echzeitfaltungsalogorithmus, wie er an sich bekannt ist
und anhand der Fig. 4a/b veranschaulicht wird. Dieser sollte die Faltung blockbasiert
und individuell für jede einzelne zu auralisierende Schallquelle vornehmen können.
Dabei unterscheidet sich der technische Vorgang der schnellen Echtzeitfaltung von
laufzeitbehafteten und laufzeitlosen BRIRs nicht, allerdings ergeben sich aufgrund
der Datenaufbereitung spezielle klangliche Vorteile, die weiter unten noch beschrieben
werden.
[0051] Zur Abwandlung des Faltungsprozess bzw. zur Laufzeitindividualisierung wird vorzugsweise
auf eine sogenannte "jack audio server"-Architektur zurückgegriffen und damit ein
eigenständiges PlugIn realisiert. Funktionsgleiche Lösungen können z.B. auch aus Anordnungen
spezieller DSP-Hardware oder mittels Verfahren im Rahmen der VST-PlugIn-Architektur
(d.h. auf der VST-Schnittstelle basierend) realisiert werden. Nach dem Start der rechnergesteuerten
Vorrichtung (z.B. PC) liest diese eine Konfigurationsdatei, eine Datensatzbeschreibungsdatei
und danach die textbasierte Liste der ITDs des aktuell vom klassischen Faltungsprozess
auralisierten BRIR-Datensatzes ein. Dann meldet es sich beim Audioserver an und stellt
je Instanz (d.h. je individuell anpassbar zu auralisierender Audioquelle) zwei Ein-
und Ausgänge zu Verfügung (für linkes und rechtes binaurales Signal des Faltungsprozesses).
Die Eingänge können dann in PlugIn-Manier mit den Ausgängen des Faltungsprozesses
verbunden werden (siehe auch Fig. 5a/b). Für mehrere zu auralisierende Quellen sind
jeweils ein eigener Faltungsprozess und ein Prozess zur Laufzeitindividualisierung
zu starten. Der Prozess zur Laufzeitindividualisierung kopiert nun blockweise das
Ausgangsergebnis des Faltungsprozesses (binaurale Zeitsignale ohne Laufzeitdifferenzen,
siehe L' und R' in Fig. 5a/b) in seine eigenen Eingangspuffer. Damit die Grundlatenz
in dieser seriellen Kaskadierung nicht über die Gebühr ansteigt haben sich Blockgrößen
von 128-512 samples für beide Prozesse bewährt.
[0052] Die fehlende Laufzeitdifferenz kann nun als kopfpositionsspezifische Verzögerungszeit
VDL und ohne hörbare Artefakte in einen der beiden Audiokanäle eingefügt werden. Die
geschieht hier z.B. für L' im Block VDL/SCR bzw. S, wobei der Block VDL/SCR die dynamische
Anpassung der Laufzeit bei Kopfbewegung darstellt und der Block S die statische Anpassung,
die sich bei fester Kopfposition dann ergibt bzw. einstellt. Für die Anpassung liest
der Individualisierungsprozess die Kopfbewegungsdaten als Datenstrom des Headtrackers
HTDAT (z.B. via ein IP-basiertes Transportprotokoll) mit, die dieser wie bisher auch
an den Faltungsprozess sendet. Bei der Initialisierung des Individualisierungsprozesses
muss dieser die, durch die initiale Kopfposition bestimmte, erste wirksame interaurale
Laufzeitdifferenz durch um einen fixen Betrag zeitverzögertes oder vorgreifendes Abspielen
realisieren. Der Einfachheit wg. kann die erste Zeitdifferenz zu 0, bzw. der erste
Konversionsfaktor zu 1, angenommen werden. Anschließend werden kopfpositionsbedingte
Veränderungen der interauralen Laufzeitdifferenz wie folgt erreicht: Je verarbeitetem
Audioblock wird die aktuelle Kopfposition und damit eine Veränderung der Laufzeitdifferenzen
geprüft. Wurden Veränderungen der Laufzeitdifferenzen detektiert, wird deren Ausmaß
durch Differenzbildung (delta ITD = neue ITD - alte ITD) bestimmt. Aus der fraktionalen
Verhältnisbildung der Audioblocklänge mit der um das Ausmaß der Veränderung der Laufzeitdifferenzen
(delta-ITD) korrigierten Audioblocklänge ergibt sich ein Verhältnis, welches als Konversionsfaktor
in einem Algorithmus zur Echtzeitabtastratenkonversion in höchster Audioqualität verwendet
werden kann. Dieser erreicht die Anpassung der veränderten Verzögerungswerte durch
ein um den Konversionsfaktor beschleunigtes oder verzögertes Abspielen, in dem es
aus dem vorliegenden Signal neue Abtastwerte an anderen, einer höheren oder niedrigeren
Abtastrate entsprechenden, Zeitpunkten interpoliert und diese stattdessen ausgibt.
[0053] Mit Hilfe einer Abtastratenkonversion SRC können korrekte Amplitudenwerte zu beliebigen
kontinuierlichen Zeitpunkten aus den Abtastzeitpunkten digitaler Zeitsignale gefunden
werden. An sich bekannt ist auch die sog. fraktionale Abtastratenkonversion (siehe
Smith III, J.O. (2002): Digital Audio Resampling Home Page. Web published at http://www-ccrma.stanford.edu/-jos/resample/,
Stanford: Center for Computer Research in Music and Acoustics (CCRMA), Stanford University). Nach Shannons Theorem der perfekten Rekonstruktion des Zeitverlaufs abgetasteter
Signale durch ebenso perfekte Tiefpassfilter (Antialiasingfilter) nutzt das Verfahren
der bandbeschränkten Interpolation hierzu eine Tabelle interpolierter quasikontinuierlicher
Filterkoeffizienten, um die jeweilige Tiefpassimpulsantwort effektiv in kontinuierlicher
Zeitsignalform verfügbar zu machen. Eine einzelne vorberechnete Filtertabelle genügt
bereits für alle Interpolationszeiten und SRC-Verhältnisse. Je nach Abtastratenkonversionsverhältnis
fS
neu/fS
alt (d.h. der Konversionsfaktor ist <1 oder >1) ist ein Filter mit niedrigerer oder höherer
Eckfrequenz aus der Tabelle auszulesen. Das wiederum ist möglich, da die Filterimpulsantwort
quasikontinuierlich, d.h. mit sehr hoher Abtastgenauigkeit in sehr großer Länge tabelliert
ist. Für jeden aktuell zu resampelnden Block von Ausgangssamples - bei Blöcken von
sehr kurzer Dauer ist variable Konversion somit annähernd in "Echtzeit" möglich -
wird das Interpolationsergebnis an den neuen Abtastzeitpunkten durch Bildung der Faltungssumme
der Zeitsignalsamples mit der neuen Tiefpassimpulsantwort berechnet. Je nach benötigter
Güte (d.h. Bandbreite und Sperrdämpfung des Interpolators) kann die Tabellengröße
des Interpolatortiefpasses durch geeignete Formeln abgeschätzt werden. Benutzt wird
hier ein hochqualitativer, bandbegrenzter Fliesskomma-Interpolator auf Basis einer
analytisch beschriebenen sinc-Funktion mit einem worst case Signalrauschverhältnis
von 97 dB bei einer Bandbreite von 97%.
[0054] Wie bereits erwähnt, kann der je zu verarbeitendem Audioblock aktuelle Konversionsfaktor
jeweils mithilfe der Differenz der zur vorherigen und zur aktuellen Kopfposition gehörenden
ITD bestimmt werden. Eine jederzeit verfügbare Softwarebibliothek erlaubt eine unhörbare
und kontinuierliche Änderung des Konversionsfaktors, so dass die der jeweiligen Kopfhaltung
entsprechenden Laufzeitdifferenz korrekt resynthetisiert werden kann. Für die praktische
Realisierung der interauralen Laufzeitdifferenz bedeutet das, dass mittels der o.g.
Bibliothek zur bandbeschränkten Interpolation aus einer variablen Anzahl Eingangssamples
eine immergleiche - der zu Grunde liegenden Audioblocklänge entsprechende - Anzahl
neuer Ausgangssamples erzeugt wird. Je nach Abtastratenkonversionsverhältnis fsneu/fsait
(<1 oder >1) benötigt die Abtastratenkonversion dafür weniger oder mehr Samples als
die zu Grunde liegende aktuelle Blockgröße. Aufgrund dieser Differenz erhält man als
Ergebnis - außer dem Block neu interpolierter Ausgangsamples - eine feste zeitliche
Verschiebung des Einlesebereichs der Abtastratenkonversion um die Anzahl im vorhergegangen
Block von einer Abtastratenkonversion weniger oder zusätzlich benötigten Samples.
In der Fig. 5a/b wird diese Verschiebung durch den Block S als implizite, feste und
samplegenaue Verzögerung dargestellt, deren aktueller Wert sich aus allen vorhergegangenen
Laufzeitdifferenzveränderungen ergibt.
[0055] Wurde während zweier Audioblöcke keine Veränderungen der interauralen Laufzeitdifferenz
detektiert, bleibt dieser feste Verzögerungswert (statisches Delay S) einfach erhalten
und realisiert so weiterhin die korrekte interaurale Laufzeitdifferenz.
[0056] Im Vorgriff auf die im Folgenden beschrieben individuelle Skalierung des Konversionsfaktors,
ist zudem zu betonen, dass diese feste Verzögerung ebenfalls korrekt individuell skaliert
ist, da sie nur aus der Akkumulation von Rückgabewerten der bereits individuell skalierten
Abtastratenkonversion resultiert.
[0057] Ein bedeutender Vorteil der Erfindung besteht nun darin, dass die Laufzeitdifferenz
durch einfache Skalierung des jeweils aktuellen Konversionsfaktors individuell angepasst
werden kann. Dazu wird die ITD, z.B. vor der Berechnung des Konversionsfaktors, einfach
mit einem festen Wert skaliert (praktische Werte liegen zw. 50-150%). Damit ergibt
sich zwischen den Ausgangssignalen L
* und R
* eine individuell angepasste ITD
*. Bereits mit einer solchen frequenzunabhängigen Skalierung der ITD konnte eine perzeptiv
deutlich verbesserte Anpassung an das jeweilige Individuum erzielt werden. Zudem ist
diese Skalierung der ITD, welche näherungsweise einer nachträglichen Skalierung des
Kopfdurchmessers entspricht, in Echtzeit regelbar. Wie ein optimaler, individueller
Skalierungsfaktor gefunden werden kann, soll anhand der folgenden zwei Beispiele verdeutlicht
werden:
[0058] Der Ansatz für das erste Beispiel beruht auf der Einrichtung des Faktors durch die
Versuchsperson selbst: Da der Korrekturwert in Echtzeit einregelbar ist, kann dieser
zu Beginn der virtuellen akustischen Anwendung mit Hilfe einer geeigneten akustischen
Szene (z.B. Darstellung einer einzelnen frontalen Schallquelle, die kurze gut lokalisierbare
Rauschpulse abgibt) eingestellt werden. Dazu verstellt die Person den Korrekturwert
beginnend von einem zunächst sehr hoch gewählten Startwert (z.B. 150% der ITD) in
negativer Richtung, bis sich eine korrekte Lokalisationsempfindung, gekennzeichnet
durch eine stabile frontale Quellenlokalisation, d.h. vor allem ohne die den Kopfbewegungen
folgende Interaktionsbewegungen einstellt. Der zu Beginn hoch gewählte Startwert macht
das zu minimierende Artefakt besonders gut hörbar.
[0059] Ein weiterer Ansatz, der als zweites Beispiel dienen soll, beruht auf einer Vorhersage
des individuellen Korrekturwerts auf Basis eines anthropometrischen Maßes. Es wurden
Voruntersuchungen mit mehreren Versuchspersonen durchgeführt. Dabei wurde ein Hörversuch
entsprechend der oben genannten akustischen Szenerie durchgeführt; zusätzlich zur
virtuellen Quelle konnten die Versuchspersonen jedoch auch die reale Schallquelle
hören. Das Ziel war es, den Konversionsfaktor der Simulation so einzustellen, dass
sich beim Umschalten zw. Simulation und Realität eine möglichst gute Übereinstimmung
ergab. Dieser Versuch wurde je Versuchperson 10-mal wiederholt. Zusätzlich wurden
vier als geeignete erachtete Maße des Kopfes von jeder Person erhoben. Anschließend
wurde die Vorhersage der Mittelwerte des individuellen Skalierungsfaktors aus den
Kopfabmessungen durch multiple lineare Regression überprüft. Diese ergab, dass allein
die Intertragusdistanz als Maß des Kopfdurchmessers, gemessen mit einem Tastzirkel
in Millimetern von der incisura anterior des linken zu der des rechten Ohres genügt,
um den Konversionsfaktor vorherzusagen. Grafische Darstellungen der Untersuchungen
zeigten die Regressionsgerade und das 95%-ige Konfidenzintervall des linearen Modells
sowie die individuellen Mittelwertdaten aus der Eichstichprobe. Das 95%-KI zeigte
dabei an, dass der Konversionsfaktor mit einer Genauigkeit von ±1.25% (mittlerer Modellbereich)
bis +2.5% (äußere Modellbereiche) vorhergesagt werden kann.
[0060] Die Variabilität des Skalierungsfaktors innerhalb der Stichprobe betrug dabei ±4%,
d.h. dass im nichtindividualisierten Fall ein worst-case Fehler von bis zu 8% der
ITD hätte auftreten können. Die individuelle Vorhersage halbiert bzw. viertelt (im
günstigsten Fall) diesen Fehler. Ein Fehler von 1.25% der ITD entspricht dabei einem
Lokalisationsfehler von etwas über 1° und liegt damit (wieder: im günstigsten Fall)
schon nahezu im Bereich der gerade wahrnehmbaren Loksalisationsänderung. Die Regressionsformel
zur Vorhersage des individuellen Korrekturfaktors lautet dabei:

[0061] Diese Regressionsgleichung liefert zwar eine Vorhersage des individuellen Korrekturfaktors,
sie ist in dieser Form jedoch nur auf Datensätze anwendbar, die mit dem FABIAN HATS
Roboter vermessen wurde. Eine Möglichkeit zur Verallgemeinerung auf beliebige HRTF/BRIR-Datensätze
ergäbe sich durch eine Korrektur des Ergebnisses der o. g. Formel durch Multiplikation
mit dem Kopfdurchmesserverhältnis Intertragusdistanz
Fremd / Intertragusdistanz
Fabian.Diese Korrektur setzt natürlich voraus, dass die Intertragusdistanz des fremden Datensatzes
bekannt ist.
[0062] Das Prinzip der erfindungsgemäßen Resyntheseprozedur wird anhand der Fig. 3 veranschaulicht:
- a) Initialisierung
- i) Lese *.xml Konfigurationsdatei
- ii) Lese Datensatzdefinition aus *.xml Beschreibungsdatei
- iii) Lege 1 oder 2-dimensionales Array durch Lesen der ITDs aus maschinenlesbarer
Datei an
- iv) Setze initialen Skalierungsfaktor der ITD = 1
- v) Initialisere Ringpuffer des SRC-Prozesses
- vi) Starte OSC-Server für Empfang der Kopfbewegungsdaten
- vii) Initialisiere jack client.
- viii)Starte Echtzeitbedienungsmodi (OSC, GUI, Keyboard)
- b) Echtzeitprozess
- i) Kopiere Einganssamples für Links und Rechts in Ringpuffer
- a. Lese ITD bzgl. Kopfposition laut head tracking
- b. Skaliere ITD in Echtzeit, wenn gewollt (ITDnew=ITD*scaling_factor)
- c. Rechne ITD fraktional in Samples um (delay_new=ITDnew/sample_size)
- d. Bestimme ITD-Veränderung seit letzter Berechnung (delta_delay=delay_new - delay_old)
- e. Bestimme fraktionalen SRC-Faktor

(ratio=output_samples/(input_samples-delta_delay))
- ii) Übergebe an SRC-Prozess: Faktor, Eingangs- und Ausgangspuffer für linken Kanal.
- iii) Speichere ungenutzte Samples im Ringpuffer
- iv) Berechne input_buffer_lenght des nächsten Zyklus'

(input_buffer_lenght = output_samples + ungenutzte Samples)
- v) Gebe Ergebnis aus: linker Kanal aus SRC-Prozess; rechter Kanal aus Ringpuffer
[0063] Durch die Erfindung ergeben sich u.a. folgende besondere Vorteile und Verbesserungen
gegenüber dem Stand der Technik:
- 1) Durch das Erreichen einer deutlich genaueren Lokalisation für alle Kopfpositionen
unter Verwendung generischer Datensätze sorgt die individuell skalierte ITD wesentlich
für die Erhöhung der Plausibilität einer binauralen Simulation.
- 2) Die sich aufgrund der Extraktion der ITD ergebende quasi-minimalphasige Überblendung
hat deutlich hörbare auditive Vorteile, da bei der Überblendung quasiminimalphasiger
Spektren so gut wie keine Überblendungsartefakte mehr auftreten.
- 3) Ein weiterer wesentlicher Vorteil ergibt sich aus der Quasi-Minimalphasigkeit der
Spektren. Sie bildet eine Grundlage für alle effizienten spektralen & temporalen Kompressions-
und Interpolationsverfahren für HRTF-/BRIR-Datensätze und kann z.B. auch auf beschränkten
Plattformen, wie z.B. Mobilfunkgeräten, eingesetzt werden.
- 4) Die Operationalisierung der ITD erlaubt eine getrennte Interpolation von ILD- und
ITD-Features. So kann z.B. die perzeptiv wichtigere ITD durchaus mit einer sehr feinen
Auflösung resynthetisiert werden, während die minimalphasigen Spektren mit relativ
grober Auflösung (z.B. 5 Grad) verarbeitet werden, was wiederum auch den Einsatz in
Mobilfunkgeräten erleichtert.
- 5) Die Entfernung der akustischen Laufzeit aus allen BRIR-Datensätzen führt zu Latenzminimierung
und Speicherplatzreduktion, so dass auch hier sich insbesondere der Einsatz bei Mobilfunkgeräten
anbietet.
- 6) Die Implementierung der ITD durch Resampling führt zu einer "physikalischeren"
Modellierung des Schallfelds, da sich aufgrund des verlangsamten bzw. beschleunigten
Abspielens innerhalb des SRC-Prozesses eine (zumindest für den Direktschall korrekte)
Imitation des Dopplereffekts einstellt.
- 7) Durch die Aufspaltung der Faltung in Einzelprozesse je Quelle wird die Vorraussetzung
für eine parallelisierte Berechnung (Erhöhung der Berechnungseffizienz) geschaffen.
[0064] Die Erfindung ermöglicht das Erreichen zahlreicher Verbesserungen, wie z.B. den Vorteil
der fehlerfreien Überblendung, die Latenzminimierung, den Dopplereffekt. Hervorzuheben
sind auch die Wahl der bandbegrenzten Interpolation zur Abtastratenkonversion bei
der Generierung der variablen ITD, die Echtzeitfähigkeit der ITD-Manipulation, die
unhörbare Extraktionsmethode und die PlugIn-Architektur. Ebenso sind wichtige Aspekt,
wie z.B. die effektive und getrennte Reduktion und Interpolation von ITD und ILD (d.h.
HRTF/BRIR-Spektren), hervorzuheben.
[0065] Die individuelle Anpassung der laufzeitbefreiten ITDs an das jeweilige Individuum
kann durch Skalierung des jeweils aktuellen Konversionsfaktors im Rahmen einer Abtastratenkonversion
erfolgen, die bei Änderung der Kopfposition eine dynamische Anpassung ermöglicht.
Sofern ein statischer Zustand sich einstellt, d.h. die Kopfposition sich nicht ändert,
stellt sich auch eine statische Anpassung der ITDs (automatisch) ein. Oder die individuelle
Anpassung erfolgt durch Skalierung der ITDs, die zu der vorherigen und aktuellen Kopfposition
gehören, bevor der (unskalierte) Konversionsfaktor berechnet wird.
[0066] Mit anderen Worten: Die Individualisierung und Anpassung der sich zwischen den Ausgangsignalen
L
* und R
* ergebenden Laufzeit-Differenz ITD
* kann erreicht werden durch Skalierung des jeweils aktuellen Konversionsfaktors (Anwendung
des Faktors ISF auf den Block VDL/SRC; siehe Fig. 5a/b). Alternativ kann die Individualisierung
und Anpassung der sich zwischen den Ausgangsignalen L
* und R
* ergebenden Laufzeit-Differenz ITD
* erreicht werden durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen
(xBIR
*) korrespondierenden Laufzeit-Differenzen (ITD).
[0067] Die Erfindung ist in vielen Anwendungen einsetzbar. Durch das vorgeschlagene Verfahren
kann eine ein wesentliche Verbesserung aller bisher existierender Echtzeit-Anwendungen
zur binauralen (Raum-)Akustiksimulation (3D Virtual Auditory Displays im Allgemeinen,
räumliche Akustik in Computerspielen, Virtuelle Chaträume, Binaurale Guidance & Alerting
Systeme, binaurale Walkthroughs z. B. durch virtuelle Architektur oder durch multimodale
Mediashows) erzielt werden. Mögliche Anwendungen sind die nachträgliche Ergänzung
kommerzieller 3D Audio APIs. Auch die Qualität zukünftig denkbarer rich media Anwendungen
die empfängerseitig einen Mulitmedia-PC voraussetzen wie z. B. binaurales Teleconferencing
via VoIP oder binaurales Streaming von Livekonzerten kann wesentlich an wahrnehmbarer
Qualität gewinnen.
1. Verfahren (100) zur Erzeugung individuell anpassbarer binauraler Audiosignale (L
*, R
*),
gekennzeichnet durch folgende Schritte:
aus kopfbezogenen Übertragungsfunktionen (xRIR), die verschiedenen Kopfpositionen
(1...k) zugeordnet sind, werden mittels Extraktion von interauralen Laufzeiten (TL,
TR) laufzeitbefreite kopfbezogene Übertragungsfunktionen (xRIR*) und dazu korrespondierende Laufzeit-Differenzen (ITD) berechnet (Schritt 110);
mittels einer Binauralsynthese werden laufzeitbefreite Audiosignale (L', R') erzeugt,
die sich jeweils auf einen binauralen Signalpfad beziehen, wobei in Abhängigkeit von
Kopfpositions-Daten (HTDAT) die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen
(xRIR*) für eine aktuelle Kopfposition (1...k) verwendet werden (Schritt 120); und
aus den laufzeitbefreiten Audiosignalen (L', R') werden die individuell anpassbaren
binauralen Audiosignale (L*, R*) erzeugt, indem zumindest für einen Signalpfad das erzeugte laufzeitbefreite Audiosignal
(L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für die aktuelle
Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit eines
individuellen Skalierungsfaktors (ISF) beaufschlagt wird (Schritt 130).
2. Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass die zeitliche Verzögerung (VDL) einem Wert entspricht, der aus der Wichtung der für
die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und dem individuellen
Skalierungsfaktor (ISF) berechnet wird (Schritt 130).
3. Verfahren (100) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei einer auftretenden Änderung der Kopfposition (1...k) von einer ersten Kopfposition
(k=1) in eine zweite Kopfposition (k=2) die zeitliche Verzögerung (VDL) zwischen einem
ersten Wert und einem zweiten Wert adaptiv mittels einer Abtastratenkonversion (SRC)
verändert wird (Schritt 130).
4. Verfahren (100) nach Anspruch 3, dadurch gekennzeichnet, dass für die Abtastratenkonversion (SRC) ein aktueller Konversionsfaktor verwendet wird,
der jeweils entsprechend der Änderung von der zur vorherigen und zur aktuellen Kopfposition
gehörenden Laufzeit-Differenz (ITD) ermittelt wird (Schritt 130).
5. Verfahren (100) nach einem der Ansprüche 1-4, dadurch gekennzeichnet, dass die zwischen den individuell anpassbaren binauralen Audiosignalen (L*, R*) sich ergebende Laufzeit-Differenz (ITD*) durch Skalierung des jeweils aktuellen Konversionsfaktors individuell angepasst
wird (Schritt 130).
6. Verfahren (100) nach einem der Ansprüche 1-4, dadurch gekennzeichnet, dass die zwischen den individuell anpassbaren binauralen Audiosignalen (L*, R*) sich ergebende Laufzeit-Differenz (ITD*) durch Skalierung der zu den laufzeitbefreiten kopfbezogenen Übertragungsfunktionen
(xBIR*) korrespondierenden Laufzeit-Differenzen (ITD) individuell angepasst wird.
7. Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die laufzeitbefreiten kopfbezogenen Übertragungsfunktionen (xRIR*) für eine Vielzahl von Kopfpositionen (1...k) und/oder für eine Vielzahl von Audiosignal-Quellen
(1...n) berechnet werden (Schritt 110).
8. Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die interauralen Laufzeiten (TL, TR) aus den kopfbezogenen Übertragungsfunktionen
(xRIR) mittels eines der folgenden Verfahren extrahiert werden: Onset-Verfahren, interaurales
KreuzkorrelationsVerfahren, frequenzspezifische Gruppenlaufzeit-Differenzbildung,
frequenzbereichsspezifisches Phasengradienten-Matching oder Exzessphasenbestimmung
durch Hilbert-Transformation (Schritt 110).
9. Verfahren (100) nach Anspruch 8, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass das natürliche Messgrundrauschen bestimmt
wird und dann ein Schwellwert oberhalb davon, der niedriger als das Betrags-Maximum
der Impulsantwort ist, bestimmt wird (Schritt 110).
10. Verfahren (100) nach Anspruch 9, dadurch gekennzeichnet, dass der Schwellwert um mindestens 10 dB oberhalb des natürlichen Messgrundrauschen bestimmt
und/oder das der Schwellwert um mindestens 10 dB niedriger als das Betrags-Maximum
der Impulsantwort ist (Schritt 110).
11. Verfahren (100) nach Anspruch 10, dadurch gekennzeichnet, dass der Schwellwert im mittleren Bereich der Messdynamik liegt (Schritt 110).
12. Verfahren (100) nach Anspruch 8, dadurch gekennzeichnet, dass das Onset-Verfahren so eingestellt wird, dass ein prozentualer Wert vom Betrags-Maximum
der Impulsantwort als Onset detektiert wird, insbesondere als ein zwischen 10% und
90% liegender Wert detektiert wird (Schritt 110).
13. Vorrichtung zur Durchführung des Verfahrens nach einem der der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass die Vorrichtung zur Erzeugung räumlich wahrnehmbarer binauraler Audiosignale (L
*, R
*) umfasst:
.. eine erste Schaltung (A), die aus kopfbezogenen Übertragungsfunktionen (xRIR),
die verschiedenen Kopfpositionen (1...k) zugeordnet sind, interaurale Laufzeiten (TL,
TR) extrahiert und daraus Laufzeit-Differenzen (ITD) berechnet;
eine zweite Schaltung (BB), die mittels einer Binauralsynthese laufzeitbefreite Audiosignale
(L', R') erzeugt, die sich jeweils auf einen binauralen Signalpfad beziehen, wobei
diese Schaltung in Abhängigkeit von Kopfpositions-Daten (HTDAT) die laufzeitbefreiten
kopfbezogenen Übertragungsfunktionen (xRIR*) für eine aktuelle Kopfposition (1...k) verwendet; und
mindestens eine dritte Schaltung (BA*; C*), die aus den laufzeitbefreiten Audiosignalen (L', R') die individuell anpassbaren
binauralen Audiosignale (L*, R*) erzeugt, indem diese Schaltung zumindest für einen Signalpfad das erzeugte laufzeitbefreite
Audiosignal (L') mit einer zeitlichen Verzögerung (VDL) in Abhängigkeit von der für
die aktuelle Kopfposition (1...k) berechneten Laufzeit-Differenz (ITD) und in Abhängigkeit
eines individuellen Skalierungsfaktors (ISF) beaufschlagt.