[0001] Die Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur Dekorrelation
von Lautsprechersignalen durch eine Änderung der wiedergegebenen akustischen Szene.
[0002] Für ein dreidimensionales Hörerlebnis kann beabsichtigt sein, dem jeweiligen Hörer
eines Audiostückes oder Zuseher eines Filmes durch eine dreidimensionale akustische
Wiedergabe ein realistischeres Hörerlebnis zu vermitteln, indem beispielsweise akustisch
Eindrücke vermittelt werden, der Hörer oder Zuschauer befände sich innerhalb der wiedergegebenen
akustischen Szene. Hierfür können auch psychoakustische Effekte genutzt werden. Wellenfeldsynthese-
oder Higher-Order-Ambisonics-Algorithmen werden eingesetzt, um mit einer Anzahl oder
Vielzahl von Lautsprechern innerhalb eines Wiedergaberaumes ein bestimmtes Klangfeld
zu erzeugen. Dafür können die Lautsprecher so angesteuert werden, dass die Lautsprecher
Wellenfelder erzeugen, die akustischen Quellen ganz oder teilweise entsprechen, die
an einem nahezu beliebigen Ort einer wiedergegebenen akustischen Szene angeordnet
sind.
[0003] Wellenfeldsynthese (WFS) oder Higher Order Ambisonics (HOA) ermöglicht dem Hörer
einen hochqualitativen räumlichen Höreindruck, indem eine große Anzahl an Ausbreitungskanälen
genutzt wird, um virtuelle akustische Quellenobjekte räumlich darzustellen. Um eine
umfassendere Nutzererfahrung zu erhalten, können diese Wiedergabesysteme durch räumliche
Aufnahmesysteme ergänzt werden, um weitere Anwendungen, wie etwa interaktive Anwendungen,
zu ermöglichen oder um die Wiedergabequalität zu verbessern. Die Kombination aus dem
Lautsprecher-Array, dem einhausenden Raum bzw. Volumen wie etwa ein Wiedergaberaum
und dem Mikrophon-Array wird als Lautsprecher-Einhausung-Mikrophon System (LEMS) bezeichnet
und in vielen Anwendungen durch simultane Beobachtung der Lautsprechersignale und
der Mikrophonsignale identifiziert. Jedoch ist bereits durch Stereophone Kompensation
akustischer Echos (Stereophonic Acoustic Echo Cancellation - AEC) bekannt, dass die
typischerweise starken Kreuzkorrelationen der Lautsprechersignale eine hinreichende
Systemidentifikation verhindern können, wie es beispielsweise in [BMS98] beschrieben
ist. Dies wird als das Mehrdeutigkeitsproblem bezeichnet. In diesem Fall ist das Ergebnis
der Systemidentifikation lediglich eines von unendlich vielen Lösungen, die durch
die Korrelationseigenschaften der Lautsprechersignale bestimmt sind. Das Ergebnis
dieser unvollständigen Systemidentifikation beschreibt dennoch das Verhalten des echten/realen
LEMS für die momentanen Lautsprechersignale und kann deshalb für verschiedene adaptive
Filteranwendungen, beispielsweise AEC oder Hörraumentzerrung (Listening Room Equalization
- LRE) verwendet werden. Jedoch ist dieses Ergebnis nicht mehr korrekt, wenn sich
die Kreuzkorrelationseigenschaften der Lautsprechersignale ändern, wodurch das auf
diesen adaptiven Filtern beruhende Verhalten des Systems instabil werden kann. Diese
mangelnde Robustheit stellt eine wesentliche Hürde für die Anwendbarkeit vieler Technologien,
wie etwa AEC oder adaptive LRE, dar.
[0004] Für viele Anwendungen im Bereich der akustischen Wiedergabe kann eine Identifikation
eines Lautsprecher-Einhausungs-Mikrofon Systems (Loudspeaker-Enclosure-Microphone
System), bzw. LEMS notwendig sein. Bei einer großen Anzahl von Ausbreitungspfaden
zwischen Lautsprechern und Mikrophonen, wie es beispielsweise für eine Wellenfeldsynthese
(WFS) der Fall sein kann, kann diese Aufgabe aufgrund des Mehrdeutigkeitsproblems
(im Englischen als nonuniqueness problem bezeichnet), d.h. aufgrund eines unterbestimmten
Systems, besonders herausfordernd sein. Werden in einer akustischen Wiedergabeszene
weniger virtuelle Quellen dargestellt, als das Wiedergabesystem Lautsprecher umfasst,
so kann das Mehrdeutigkeitsproblem auftreten. In einem solchen Fall kann das System
nicht eindeutig identifiziert werden und Methoden oder Verfahren, die eine Systemidentifikation
umfassen, leiden an einer schwachen oder geringen Robustheit bzw. Stabilität gegenüber
variierenden Korrelationseigenschaften der Lautsprechersignale. Ein gegenwärtiger
Behelf gegen das Mehrdeutigkeitsproblem beinhaltet eine Modifizierung der Lautsprechersignale
(d.h. eine Dekorrelation), so dass das System bzw. LEMS eindeutig identifiziert werden
kann und/oder die Robustheit unter gegebenen Bedingungen zu erhöhen. Jedoch können
die meisten bekannten Ansätze die Audioqualität reduzieren oder würden das synthetisierte
Wellenfeld möglicherweise stören, wenn sie bei einer Wellenfeldsynthese angewendet
würden.
[0005] Für den Zweck der Dekorrelation von Lautsprechersignalen sind drei Möglichkeiten
bekannt, um die Robustheit der Systemidentifikation, also der Identifikation oder
Schätzung des realen LEMS, zu erhöhen:
Aus [SMH95], [GT98] und [GE98] ist ein Hinzufügen von bezüglich verschiedener Lautsprechersignale
unabhängigem Rauschen zu den Lautsprechersignalen vorgeschlagen. In [MHBOI], [BMS98]
werden verschiedene nichtlineare Vorverarbeitungen für jeden Wiedergabekanal vorgeschlagen.
In [Ali98], [HBK07] werden verschiedene zeitvariante Filterungen für jeden Lautsprecherkanal
vorgeschlagen. Obwohl die genannten Techniken die wahrgenommene Klang- oder Schallqualität
im Idealfall nicht beeinträchtigen sollten, sind sie im Allgemeinen nicht gut geeignet
für WFS: da die Lautsprechersignale für WFS analytisch bestimmt werden, kann eine
zeitvariante Filterung das reproduzierte Wellenfeld signifikant stören. Wenn eine
hohe Qualität der Audiowiedergabe angestrebt ist, wird ein Hörer möglicherweise eine
Hinzufügung von Rauschsignalen oder eine nichtlineare Vorverarbeitung, die beide die
Audioqualität reduzieren können, nicht akzeptieren. In [SHK13] wird ein für WFS geeigneter
Ansatz vorgeschlagen, bei dem die Lautsprechersignale vorgefiltert werden, so dass
eine Veränderung der Lautsprechersignale im Sinne einer zeitvarianten Rotation des
wiedergegebenen Wellenfeldes erreicht wird.
[0006] Die Aufgabe der vorliegenden Erfindung besteht deshalb darin, eine Vorrichtung und
ein Verfahren zur Erzeugung einer Mehrzahl von Lautsprechersignalen zu schaffen, das
eine verbesserte Systemidentifikation ermöglicht.
[0007] Diese Aufgabe wird durch den Gegenstand der unabhängigen Patentansprüche gelöst.
[0008] Der Kerngedanke der vorliegenden Erfindung besteht darin, erkannt zu haben, dass
obige Aufgabe dadurch gelöst werden kann, dass durch zeitvariante Modifizierung von
Metainformationen eines virtuellen Quellenobjektes, wie etwa die Position oder Art
des virtuellen Quellenobjektes dekorrelierte Lautsprechersignale erzeugbar sind.
[0009] Gemäß einem Ausführungsbeispiel umfasst eine Vorrichtung zur Erzeugung einer Mehrzahl
von Lautsprechersignalen einen Modifizierer, der ausgebildet ist, um Metainformationen
eines virtuellen Quellenobjektes zeitvariant zu modifizieren. Das virtuelle Quellenobjekt
weist die Metainformationen und ein Quellensignal auf.
[0010] Die Metainformationen bestimmen bspw. Eigenschaften wie etwa eine Position oder eine
Art des virtuellen Quellenobjektes. Durch Modifizierung der Metainformationen kann
beispielsweise die Position oder die Art, wie etwa eine Abstrahlcharakteristik, des
virtuellen Quellenobjektes modifiziert werden. Die Vorrichtung umfasst ferner einen
Renderer, der ausgebildet ist, um das virtuelle Quellenobjekt und die modifizierten
Metainformationen in eine Vielzahl von Lautsprechersignalen zu überführen. Durch die
zeitvariante Modifizierung der Metainformationen anhand definierter Regeln, welche
in den weiteren Merkmalen des Anspruchs 1 definiert sind, kann eine Dekorrelation
der Lautsprechersignale erreicht werden, so dass eine stabile, d.h. robuste, Systemidentifikation
bereitstellbar ist, um basierend auf der verbesserten Systemidentifikation eine robustere
LRE oder eine robustere AEC zu ermöglichen, da die Robustheit der LRE und/oder AEC
von der Robustheit der Systemidentifikation abhängig ist. Eine robustere LRE oder
eine robustere AEC kann für eine verbesserte Wiedergabequalität der Lautsprechersignale
genutzt werden.
[0011] Vorteilhaft an dieser Ausführungsform ist, dass mittels des Renderer basierend auf
den zeitvariant modifizierten Metainformationen dekorrelierte Lautsprechersignale
erzeugbar sind, so dass auf eine zusätzliche Dekorrelation durch eine zusätzliche
Filterung oder eine Addition von Rauschsignalen verzichtet werden kann.
[0012] Ein alternatives Ausführungsbeispiel schafft ein Verfahren zur Erzeugung einer Mehrzahl
von Lautsprechersignalen basierend auf einem virtuellen Quellenobjekt mit einem Quellensignal
und Metainformationen, die die Position oder die Art des virtuellen Quellenobjektes
bestimmen. Das Verfahren umfasst ein zeitvariantes Modifizieren der Metainformationen
anhand definierter Regeln, welche in den weiteren Merkmalen des Anspruchs 7 definiert
sind, und ein Überführen des virtuellen Quellenobjektes und der modifizierten Metainformationen
in eine Vielzahl von Lautsprechersignalen.
[0013] Vorteilhaft an diesem Ausführungsbeispiel ist, dass durch die Modifikation der Metainformationen
bereits dekorrelierte Lautsprechersignale erzeugbar sind, so dass gegenüber einer
nachträglichen Dekorrelation von korrelierten Lautsprechersignalen eine erhöhte Wiedergabequalität
der akustischen Wiedergabeszene erzielbar ist, da eine Addition nachträglicher Rauschsignale
oder eine Anwendung nichtlinearer Operationen vermieden werden kann.
[0014] Weitere vorteilhafte Ausführungsformen sind der Gegenstand der abhängigen Patentansprüche.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug
nehmend auf die beiliegenden Zeichnungen erläutert. Es zeigen:
- Fig. 1
- eine Vorrichtung zur Erzeugung einer Mehrzahl von dekorrelierten Lautsprechersignalen
basierend auf virtuellen Quellenobjekten;
- Fig. 2
- eine schematische Aufsicht auf einen Wiedergaberaum, an dem Lautsprecher angeordnet
sind;
- Fig. 3
- eine schematische Übersicht zur Modifikation von Metainformationen verschiedener virtuellen
Quellenobjekten;
- Fig. 4
- eine schematische Anordnung von Lautsprechern und Mikrophonen in einem experimentellen
Prototypen;
- Fig. 5a
- die Ergebnisse erzielbarer Echo Return Loss Enhancement (ERLE) für die Kompensation
akustischer Echos (AEC) in vier Plots für vier Quellen mit unterschiedlicher Amplitudenoszillation
des Prototypen;
- Fig. 5b
- den normierten Systemabstand für die Systemidentifikation für die Amplitudenoszillationen;
- Fig. 5c
- einen Plot an welchem an der Abszisse die Zeit und an der Ordinate die Werte der Amplitudenoszillation
angegeben sind;
- Fig. 6a
- ein Signalmodell zu Identifizierung eines Loudspeaker Enclosure Microphone System
(LEMS);
- Fig. 6b
- ein Signalmodell eines Verfahrens zur Systemschätzung gemäß Fig. 6a und zur Dekorrelation
von Lautsprechersignalen;
- Fig. 6c
- ein Signaimodell einer MIMO Systemidentifikation mit einer Lautsprecherdekorrelation,
wie sie in den Fig. 1 und 2 beschrieben ist.
[0015] Bevor nachfolgend Ausführungsbeispiele der vorliegenden Erfindung im Detail anhand
der Zeichnungen näher erläutert werden, wird darauf hingewiesen, dass identische,
funktionsgleiche oder gleichwirkende Elemente, Objekte und/oder Strukturen in den
unterschiedlichen Figuren mit den gleichen Bezugszeichen versehen sind, so dass die
in unterschiedlichen Ausführungsbeispielen dargestellte Beschreibung dieser Elemente
untereinander austauschbar ist bzw. aufeinander angewendet werden kann.
[0016] Fig. 1 zeigt eine Vorrichtung 10 zur Erzeugung einer Mehrzahl von dekorrelierten
Lautsprechersignalen basierend auf virtuellen Quellenobjekten 12a, 12b und/oder 12c.
Bei einem virtuellen Quellenobjekt kann es sich um jedwede Art von geräuschemittierenden
Objekten, Körpern oder Personen handeln, wie etwa ein oder mehrere Menschen, Musikinstrumente,
Tiere, Pflanzen, Geräte oder Maschinen. Die virtuellen Quellenobjekte 12a-c können
Elemente einer akustischen Wiedergabeszene sein, wie etwa eines Orchesters, welches
ein Stück aufführt. Bei einem Orchester kann ein virtuelles Quellenobjekt beispielsweise
ein Instrument oder eine Gruppe von Instrumenten sein. Zusätzlich zu einem Quellensignal
wie etwa ein Monosignal eines wiedergegebenen Tones oder Geräusches bzw. einer Ton-
oder Geräuschfolge des virtuellen Quellenobjektes 12a-c, können einem virtuellen Quellenobjekt
auch Metainformationen zugeordnet sein. Die Metainformationen können beispielsweise
einen Ort des virtuellen Quellenobjektes innerhalb der von einem Wiedergabesystem
reproduzierten akustischen Wiedergabeszene umfassen. Beispielsweise kann dies eine
Position eines jeweiligen Instrumentes innerhalb des wiedergegebenen bzw. reproduzierten
Orchesters bedeuten. Die Metainformationen können alternativ oder zusätzlich auch
eine Richt- oder Abstrahlcharakteristik des jeweiligen virtuellen Quellenobjektes
umfassen, wie etwa Informationen darüber, in welche Richtung das jeweilige Quellensignal
des Instrumentes abgespielt wird. Ist ein Instrument eines Orchesters beispielsweise
eine Trompete, so wird der Trompetenschall bevorzugt in eine bestimmte Richtung (die
Richtung, in welche der Schallbecher weist), abgestrahlt. Ist das Instrument alternativ
hierzu beispielsweise eine Gitarre, so strahlt die Gitarre verglichen mit der Trompete
in einem größeren Abstrahlwinkel ab. Die Metainformationen eines virtuellen Quellenobjektes
können die Abstrahlcharakteristik und die Orientierung der Abstrahlcharakteristik
in der reproduzierten Wiedergabeszene umfassen. Die Metainformationen können alternativ
oder zusätzlich auch eine räumliche Ausdehnung des virtuellen Quellenobjektes in der
reproduzierten Wiedergabeszene umfassen. Basierend auf den Metainformationen und dem
Quellensignal kann ein virtuelles Quellenobjekt zwei- oder dreidimensional im Raum
beschrieben werden.
[0017] Eine reproduzierte Wiedergabeszene kann beispielsweise auch ein Audioteil eines Filmes
sein, also die Geräuschkulisse zum Film. Eine reproduzierte Wiedergabeszene kann beispielsweise
mit einer Filmszene ganz oder teilweise übereinstimmen, so dass das virtuelles Quellenobjekt
beispielsweise eine im Wiedergaberaum positionierte und richtungsabhängig sprechende
Person oder ein sich unter Abgabe von Geräuschen im Raum der reproduzierten Wiedergabeszene
bewegendes Objekt, wie etwa ein Zug oder ein Auto, sein kann.
[0018] Vorrichtung 10 ist ausgebildet, um Lautsprechersignale zur Ansteuerung von Lautsprechern
14a-e zu erzeugen. Die Lautsprecher 14a-e können an oder in einem Wiedergaberaum 16
angeordnet. Der Wiedergaberaum 16 kann beispielsweise ein Konzert- oder Kinosaal sein,
in welchem sich ein Hörer oder Zuschauer 17 befinden kann. Durch Erzeugen und Wiedergabe
der Lautsprechersignale an den Lautsprechern 14a-e kann in dem Wiedergaberaum 16 eine
Wiedergabeszene reproduziert werden, die auf den virtuellen Quellenobjekten 12a-c
basiert. Vorrichtung 10 umfasst einen Modifizierer 18, der ausgebildet ist, um die
Metainformationen eines oder mehrerer der virtuellen Quellenobjektes 12a-c zeitvariant
zu modifizieren. Der Modifizierer 18 ist ferner ausgebildet, um die Metainformationen
mehrerer virtueller Quellenobjekte einzeln, d.h. für jedes virtuelle Quellenobjekt
12a-c, oder für mehrere virtuellen Quellenobjekte zu modifizieren. Modifikation Beispielsweise
ist der Modifizierer 18 ausgebildet, um die Position des virtuellen Quellenobjektes
12a-c in der reproduzierten Wiedergabeszene oder die Abstrahlcharakteristik des virtuellen
Quellenobjektes 12a-c zu modifizieren.
[0019] In anderen Worten kann eine Anwendung von Dekorrelationsfiltern eine unkontrollierte
Änderung der wiedergegebenen Szene bewirken, wenn Lautsprechersignale dekorreliert
werden, ohne die resultierenden akustischen Effekte in dem Wiedergaberaum zu betrachten,
wohingegen Vorrichtung 10 eine natürliche, d.h. kontrollierte Änderung der virtuellen
Quellenobjekte ermöglicht. Durch eine zeitvariante Veränderung der gerenderten, d.h.
reproduzierten, akustischen Szene durch eine Modifikation der Metainformationen derart,
dass die Position oder die Abstrahlcharakteristik, d.h. die Quellenart, eines oder
mehrerer virtueller Quellenobjekte 12a-c. Dies kann durch einen Zugang zum Wiedergabesystem,
d.h. durch eine Anordnung des Modifizierers 18, ermöglicht werden. Modifikationen
der Metainformationen der virtuellen Quellenobjekte 12a-c und mithin der reproduzierten
akustischen Wiedergabeszene können intrinsisch, d.h. systemintern, kontrolliert werden,
sodass eine Begrenzung der durch die Modifikation eintretenden Effekte möglich ist,
beispielsweise indem die eintretenden Effekte von dem Hörer 17 nicht wahrgenommen
oder als nicht störend empfunden werden.
[0020] Vorrichtung 10 umfasst einen Renderer 22, der ausgebildet ist, um die Quellensignale
der virtuellen Quellenobjekte 12a-c und die modifizierten Metainformationen in eine
Vielzahl von Lautsprechersignalen zu überführen. Der Renderer 22 weist Komponentenerzeuger
23a-c und Signalkomponentenaufbereiter 24a-e auf. Der Renderer 22 ist ausgebildet,
um mittels der Komponentenerzeuger 23a-c das Quellensignal des virtuellen Quellenobjektes
12a-c und die modifizierten Metainformationen so in Signalkomponenten zu überführen,
dass ein Wellenfeld durch die Lautsprecher 14a-e erzeugbar ist und durch das Wellenfeld
das virtuelle Quellenobjekt 12a-c an einer Position 25 innerhalb der reproduzierten
akustischen Wiedergabeszene darstellbar ist. Die reproduzierte akustische Wiedergabeszene
kann zumindest teilweise innerhalb oder außerhalb des Wiedergaberaumes 16 angeordnet
sein. Die Signalkomponentenaufbereiter 24a-e sind ausgebildet, um die Signalkomponenten
einer oder mehrerer virtueller Quellenobjekte zu Lautsprechersignalen zur Ansteuerung
der Lautsprecher 14a-e aufzubereiten. An oder in einem Wiedergaberaum 16 kann, bspw.
abhängig von der reproduzierten Wiedergabeszene und/oder einer Größe des Wiedergaberaumes
16 eine Vielzahl von Lautsprechern, von bspw. mehr als 10, 20, 30, 50, 300 oder 500
angeordnet oder anbringbar sein. In anderen Worten kann der Renderer als Multiple
Input (virtuelle Quellenobjekte) Multiple Output (Lautsprechersignale) - MIMO - System
beschrieben werden, der Eingangssignale einer oder mehrerer virtueller Quellenobjekte
in Lautsprechersignale zu überführen. Die Komponentenerzeuger und/oder die Signalkomponentenaufbereiter
können alternativ auch in zwei oder mehreren separaten Komponenten angeordnet sein.
[0021] Der Renderer 22 kann alternativ oder zusätzlich eine Vorentzerrung derart umsetzen,
dass in dem Wiedergaberaum 16 die reproduzierte Wiedergabeszene so wiedergegeben wird,
als würde sie in einer Freifeldumgebung oder einer anders gearteten Umgebung, wie
etwa ein Konzertsaal, wiedergegeben, d.h. der Renderer 22 kann Verzerrungen akustischer
Signale, die von dem Wiedergaberaum 16 verursacht werden, ganz oder teilweise kompensieren,
wie etwa durch eine Vorentzerrung. In anderen Worten ist der Renderer 22 ausgebildet,
um für das darzustellende virtuelle Quellenobjekt 12a-c Lautsprechersignale zu erstellen.
[0022] Werden mehrere virtuelle Quellenobjekte 12a-c in Lautsprechersignale überführt, so
kann ein Lautsprecher 14a-e zu einem Zeitpunkt Ansteuersignale, die auf mehreren virtuellen
Quellenobjekten 12a-c basieren, wiedergeben.
[0023] Vorrichtung 10 umfasst Mikrophone 26a-d, die so an oder in dem Wiedergaberaum 16
anbringbar sind, so dass die von den Lautsprechern 14a-e erzeugten Wellenfelder von
den Mikrophonen 26a-d erfasst werden können. Ein Systemberechner 28 der Vorrichtung
10 ist ausgebildet, um basierend auf den Mikrophonsignalen der Mehrzahl von Mikrophonen
26a-d und den Lautsprechersignalen eine Übertragungscharakteristik des Wiedergaberaumes
16 zu schätzen. Eine Übertragungscharakteristik des Wiedergaberaumes 16, d.h. eine
Charakteristik, wie der Wiedergaberaum 16 die von den Lautsprechern 14a-e erzeugten
Wellenfelder beeinflusst, kann beispielsweise durch eine variierende Anzahl von Personen,
welche sich in dem Wiedergaberaum 16 aufhalten, durch Veränderungen von Mobiliar wie
etwa eine veränderliche Kulisse des Wiedergaberaumes 16 oder durch eine veränderliche
Position von Personen oder Gegenständen innerhalb des Wiedergaberaumes 16 verursacht
sein. Beispielsweise können durch eine zunehmende Anzahl von Personen oder Objekten
in dem Wiedergaberaum 16 Reflexionspfade zwischen Lautsprechern 14a-e und Mikrophonen
26a-d blockiert oder erzeugt werden. Die Schätzung der Übertragungscharakteristik
kann auch als Systemidentifikation dargestellt werden. Sind die Lautsprechersignale
korreliert, kann bei der Systemidentifikation das Mehrdeutigkeitsproblem auftreten.
[0024] Der Renderer 22 kann ausgebildet sein, um ein zeitvariantes Rendering-System, basierend
auf der zeitveränderlichen Übertragungscharakteristik des Wiedergaberaumes 16 zu implementieren,
so dass eine veränderte Übertragungscharakteristik kompensierbar und eine Verringerung
einer Audioqualität vermeidbar ist. In anderen Worten kann der Renderer 22 eine adaptive
Entzerrung des Wiedergaberaumes 16 ermöglichen. Alternativ oder zusätzlich kann der
Renderer 22 ausgebildet sein, um die erzeugten Lautsprechersignale mit Rauschsignalen
zu überlagern eine Dämpfung zu den Lautsprechersignalen hinzuzufügen und/oder die
Lautsprechersignale zu verzögern, indem die Lautsprechersignale bspw. unter Verwendung
eines Dekorrelationsfilters gefiltert werden. Ein Dekorrelationsfilter kann bspw.
für eine zeitvariante Phasenverschiebung der Lautsprechersignale genutzt werden. Durch
einen Dekorrelationsfilter und/oder die Addition von Rauschsignalen kann eine zusätzliche
Dekorrelation der Lautsprechersignale erreicht werden, beispielsweise, wenn Metainformationen
bei einem virtuellen Quellenobjekt 12a-c nur in geringfügigem Umfang vom Modifizierer
18 modifiziert werden, sodass die vom Renderer 22 erzeugten Lautsprechersignale in
einem Maß korreliert sind, welches für eine Wiedergabeszene reduziert werden soll.
[0025] Durch Modifikation der Metainformationen der virtuellen Quellenobjekte 12a-c mittels
des Modifizierers 18 kann eine Dekorrelation der Lautsprechersignale und mithin eine
Verringerung oder Vermeidung von Systeminstabilitäten erreicht werden kann. Eine Systemidentifikation
kann verbessert werden, indem beispielsweise eine Veränderung, d.h. Modifikation der
räumlichen Eigenschaften der virtuellen Quellenobjekte 12a-c ausgenutzt wird.
[0026] Gegenüber einer Veränderung der Lautsprechersignale kann die Modifikation der Metainformationen
zielgerichtet erfolgen und, nach psychoakustischen Kriterien, so erfolgen, dass der
Hörer 17 der reproduzierten Wiedergabeszene die Modifikation nicht wahrnimmt oder
sie als nicht störend empfindet. So kann eine Verschiebung der Position 25 eines virtuellen
Quellenobjektes 12a-c in der reproduzierten Wiedergabeszene zu veränderten Lautsprechersignalen
und mithin zu einer ganz oder teilweisen Dekorrelation der Lautsprechersignale führen,
so dass auf ein Hinzufügen von Rauschsignalen oder eine Anwendung von nichtlinearen
Filteroperationen, wie etwa in Dekorrelationsfiltern, vermieden werden kann. Wird
beispielsweise ein Zug in der reproduzierten Wiedergabeszene dargestellt, so kann
es beispielsweise für den Hörer 17 unbemerkt bleiben, wenn der entsprechende Zug mit
einer großen Entfernung zu dem Hörer 17, wie etwa 200, 500 oder 1.000 m, um bspw.
1, 2 oder 5 m im Raum verschoben wird.
[0027] Mehrkanalreproduktionssysteme, wie WFS, wie sie beispielsweise in [BDV93] vorgeschlagen
ist, Higher-Order-Ambisonics (HOA), wie sie beispielsweise in [Dan03] vorgeschlagen
ist, oder ähnliche Verfahren können Wellenfelder mit mehreren virtuellen Quellen oder
Quellenobjekten unter anderem durch Darstellen der virtuellen Quellenobjekte in Form
von Punktquellen, Dipolquellen, Quellen mit nierenförmiger Abstrahlcharakteristik
oder ebene Wellen abstrahlende Quellen reproduzieren. Wenn diese Quellen stationäre
räumliche Eigenschaften, wie etwa ortsfeste Positionen der virtuellen Quellenobjekte
oder unveränderliche Abstrahl- oder Richtcharakteristiken, kann eine konstante akustische
Wiedergabeszene identifiziert werden, wenn eine entsprechende Korrelationsmatrix vollen
Rang aufweist, wie es in Fig. 6 detailliert erläutert ist.
[0028] Vorrichtung 10 ist ausgebildet, um eine Dekorrelation der Lautsprechersignale durch
eine Modifikation der Metainformationen der virtuellen Quellenobjekte 12a-c zu erzeugen
und/oder eine zeitveränderliche Übertragungscharakteristik des Wiedergaberaumes 16
zu berücksichtigen.
[0029] Die Vorrichtung stellt eine zeitvariante Veränderung der reproduzierten akustischen
Wiedergabeszene für WFS, HOA oder ähnliche Wiedergabemodelle dar, um die Lautsprechersignale
zu dekorrelieren. Solch eine Dekorrelation kann eine Abhilfe sein, wenn das Problem
der Systemidentifikation unterbestimmt ist. Im Gegensatz zu Lösungen aus dem Stand
der Technik erlaubt Vorrichtung 10 eine kontrollierte Änderung der reproduzierten
Wiedergabeszene, um eine hohe Qualität der WFS oder HOA Wiedergabe zu erhalten.
[0030] Fig. 2 zeigt eine schematische Aufsicht auf einen Wiedergaberaum 16, an dem Lautsprecher
14a-h angeordnet sind. Vorrichtung 10 ist ausgebildet, um Lautsprechersignale basierend
auf einem oder mehreren virtuellen Quellenobjekten 12a und/oder 12b zu erstellen.
Eine wahrnehmbare Modifikation der Metainformationen der virtuellen Quellenobjekte
12a und/oder 12b kann von dem Hörer störend empfunden werden. Wird beispielsweise
ein Ort oder eine Position des virtuellen Quellenobjektes 12a und/oder 12b zu stark
verändert, so kann für den Hörer beispielweise der Eindruck entstehen, dass sich ein
Instrument eines Orchesters im Raum bewegt. Alternativ, wenn die reproduzierte Wiedergabeszene
zu einem Film gehört, kann der akustische Eindruck entstehen, dass sich das virtuelle
Quellenobjekt 12a und/oder 12b mit einer akustischen Geschwindigkeit, die sich von
einer durch die Bildfolge implizierten optischen Geschwindigkeit eines Objekts unterscheidet,
so dass sich das virtuelle Quellenobjekt bspw. unterschiedlich schnell oder in eine
unterschiedliche Richtung bewegt. Durch Veränderung der Metainformationen eines virtuellen
Quellenobjektes 12a und/oder 12b innerhalb gewisser Intervalle oder Toleranzen kann
ein wahrnehmbarer oder als störend empfundener Eindruck verringert oder verhindert
werden.
[0031] Für eine Perzeption akustischer Szenen kann ein räumliches Hören in einer Median-Ebene,
das bedeutet in einer Horizontalebene des Hörers 17, bedeutend sein, wohingegen ein
räumliches Hören in der Sagittal-Ebene, d.h. eine linke und rechte Körperhälfte des
Hörers 17 mittig trennende Ebene, eine untergeordnete Rolle spielen kann. Für Wiedergabesysteme,
die ausgebildet sind, um dreidimensionale Szenen wiederzugeben, kann die Wiedergabeszene
zusätzlich in der dritten Dimension geändert werden. Eine Lokalisierung von akustischen
Quellen durch den Hörer 17 kann in der Sagittal-Ebene ungenauer sein als in der Median-Ebene.
Es ist vorstellbar, die nachfolgend für zwei Dimensionen (Horizontalebene) definierten
Grenzwerte für die dritte Dimension beizubehalten oder zu erweitern, da Grenzwerte,
die aus einem zweidimensionalen Wellenfeld abgeleitet sind, sehr konservative Untergrenzen
für mögliche Änderungen der gerenderten Szene in der dritten Dimension darstellen.
Obwohl die folgenden Erläuterungen auf Wahrnehmungseffekte in zweidimensionalen Wiedergabeszenen
in der Median-Ebene konzentriert sind, welche ein Optimierungskriterium für viele
Wiedergabesysteme sind, gelten die Erläuterungen auch für dreidimensionale Systeme.
[0032] Prinzipiell können verschiedene Arten von Wellenfeldern reproduziert werden, wie
beispielsweise Wellenfelder von Punktquellen, ebene Wellen oder Wellenfelder von allgemeinen
Mehrpolquellen, wie etwa Dipole. In einer zweidimensionalen Ebene, d.h. unter Berücksichtigung
lediglich zweier Dimensionen, ist die wahrgenommene Position einer Punktquelle oder
einer Mehrpolquelle durch eine Richtung und eine Entfernung beschreibbar, wohingegen
ebene Wellen durch eine Einfallsrichtung beschreibbar sind. Der Hörer 17 kann die
Richtung einer Schallquelle durch zwei räumliche Auslösereize lokalisieren, interaurale
Pegelunterschiede (interaural level differences - ILDs) und interaurale Zeitunterschiede
(interaural time differences - ITDs). Die Modifikation der Metainformationen eines
jeweiligen virtuellen Quellenobjektes kann zu einer Veränderung der jeweiligen ILDs
und/oder zu einer Veränderung der jeweiligen ITDs für den Hörer 17 führen.
[0033] Die Entfernung einer Schallquelle kann bereits durch den absoluten monauralen Pegel
wahrgenommen werden, wie es in [Bla97] beschrieben ist. In anderen Worten kann die
Entfernung durch eine Lautstärke und/oder eine Entfernungsänderung durch eine Lautstärkenänderung
wahrgenommen werden.
[0034] Der interaurale Pegelunterschied beschreibt einen Pegelunterschied zwischen beiden
Ohren des Hörers 17. Ein einer Schallquelle zugewandtes Ohr kann einem höheren Schalldruckpegel
als ein der Schallquelle abgewandtes Ohr ausgesetzt sein. Dreht der Hörer 17 den Kopf,
bis beide Ohren in etwa dem gleichen Schalldruckpegel ausgesetzt sind und der interaurale
Pegelunterschied nur noch gering ist, so kann der Hörer der Schallquelle zugewandt
sein oder alternativ mit dem Rücken zur Schallquelle positioniert sein. Eine Modifizierung
der Metainformationen des virtuellen Quellenobjektes 12a oder 12b bspw. so dass das
virtuelle Quellenobjekt an einem anderen Ort dargestellt wird oder eine veränderte
Richtcharakteristik aufweist, kann an den Ohren des Hörers 17 zu einer unterschiedlichen
Veränderung der jeweiligen Schalldruckpegel und mithin zu einer Veränderung des interauralen
Pegelunterschiedes führen, wobei diese Änderung für den Hörer 17 wahrnehmbar sein
kann.
[0035] Interaurale Zeitunterschiede können aus unterschiedlichen Laufzeiten zwischen einer
Schallquelle und einem mit einer geringeren Entfernung bzw. mit einer größeren Entfernung
angeordneten Ohr eines Hörers 17 resultieren, so dass eine von der Schallquelle emittierte
Schallwelle eine größere Zeit zu dem weiter entfernt angeordneten Ohr benötigt. Eine
Modifizierung der Metainformationen des virtuellen Quellenobjektes 12a oder 12b bspw.
so dass das virtuelle Quellenobjekt an einem anderen Ort dargestellt wird, kann zu
einer unterschiedlichen Veränderung der Abstände zwischen dem virtuellen Quellenobjekt
und beiden Ohren des Hörers 17 und mithin zu einer Veränderung des interauralen Zeitunterschiedes
führen, wobei diese Änderung für den Hörer 17 wahrnehmbar sein kann.
[0036] Eine nicht wahrnehmbare oder nicht störende Änderung des ILD, kann je nach reproduziertem
Szenario zwischen 0,6 dB und 2 dB liegen. Eine Variation eines ILD um 0,6 dB entspricht
einer Abnahme des ILD von ca. 6,6 % oder einer Zunahme um ca. 7,2 %. Eine Änderung
des ILD um 1 dB entspricht einer prozentualen Zunahme des ILD um ca. 12 % bzw. einer
prozentualen Abnahme um 11 %. Eine Zunahme des ILD um 2 dB entspricht einer prozentualen
Zunahme des ILD um ca. 26 %, wohingegen eine Abnahme um 2 dB einer prozentualen Abnahme
von 21 % entspricht. Ein Wahrnehmungsgrenzwert für einen ITD kann von einem jeweiligen
Szenario der akustischen Wiedergabeszene abhängig sein und bspw. 10, 20, 30 oder 40
µs betragen. Durch bei einer Modifikation der Metainformationen des virtuellen Quellenobjektes
12a oder 12b möglicherweise nur gering, d.h. im Bereich von einigen 0,1 dB, veränderten
ILDs, kann eine Veränderung der ITDs möglicherweise von dem Hörer 17 möglicherweise
früher wahrgenommen oder als störend empfunden werden als eine Veränderung des ILD.
[0037] Die Modifikation der Metainformationen beeinflusst die ILDs möglicherweise nur geringfügig,
wenn der Abstand einer Schallquelle zum Hörer 17 gering verschoben wird. ITDs können
aufgrund der früheren Wahrnehmbarkeit und der linearen Veränderung bei einem Positionswechsel
eine strengere Einschränkung für eine nicht hörbare oder nicht störende Veränderung
der reproduzierten Wiedergabeszene darstellen. Werden ITDs von 30 µs zugelassen, kann
dies zu einer maximalen Änderung einer Quellenrichtung zwischen der Schallquelle und
dem Hörer 17 von bis zu α
1 = 3° für frontal, d.h. in einer Betrachtungsrichtung 32 oder einem Frontalbereich
34a, 34b des Hörers 17, angeordnete Schallquellen und/oder eine Veränderung von bis
zu α
2 = 10° für lateral, d.h. seitlich, angeordnete Schallquellen. Eine seitlich angeordnete
Schallquelle kann sich in einem der Seitenbereiche 36a oder 36b befinden, die sich
zwischen den Frontalbereichen 34a und 34b erstrecken. Die Frontalbereiche 34a und
34b können beispielsweise derart definiert sein, dass sich in einem Winkel von ± 45°
bezüglich der Blickrichtung 32 der Frontalbereich 34a des Hörers 17 und ± 45° entgegen
der Blickrichtung der Frontalbereich 34b erstreckt, sodass der Frontalbereich 34b
im Rücken des Hörers angeordnet sein kann. Alternativ oder zusätzlich können die Frontalbereiche
34a und 34b auch einen kleinere oder größeren Winkel umfassen bzw. voneinander verschiedene
Winkelbereiche umfassen, so dass beispielsweise der Frontalbereich 34a einen größeren
Winkelbereich als der Frontalbereich 34b umfasst. Prinzipiell können Frontalbereiche
34a und 34b und/oder Seitenbereiche 36a und 36b unabhängig von einander zusammenhängend
oder beabstandet zueinander angeordnet sein. Die Blickrichtung 32 kann bspw. durch
einen Stuhl oder Sessel auf oder in welchem der Hörer 14 sitzt oder durch eine Richtung,
in welcher der Hörer 17 auf eine Leinwand blickt beeinflusst sein.
[0038] In anderen Worten kann Vorrichtung 10 ausgebildet sein, um die Blickrichtung 32 des
Hörers 17 zu berücksichtigen, so dass frontal angeordnete Schallquellen wie das virtuelle
Quellenobjekt 12a um bis zu α
1 = 3° und lateral angeordnete Schallquellen wie das virtuelle Quellenobjekt 12b um
bis zu α
2 =10° bezüglich ihrer Richtung modifiziert werden. Gegenüber einem System, wie es
in [SHK13] vorgeschlagen ist, kann Vorrichtung 10 eine bezüglich der virtuellen Quellenobjekte
12a und 12b individuelle Verschiebung eines Quellenobjektes ermöglichen, wohingegen
in [SHK13] lediglich die reproduzierte Wiedergabeszene als ein Ganzes rotiert werden
kann. In anderen Worten hat ein System, wie es bspw. [SHK13] beschrieben ist, keine
Informationen über die gerenderte Szene sondern berücksichtigt Informationen über
die erzeugten Lautsprechersignale. Vorrichtung 10 ändert die der Vorrichtung 10 bekannte
gerenderte Szene.
[0039] Während Änderungen der reproduzierten Wiedergabeszene durch Änderung der Quellenrichtung
um 3° bzw. 10° möglicherweise für den Hörer 17 nicht wahrnehmbar sind, ist es ebenfalls
vorstellbar, wahrnehmbare Wechsel der reproduzierten Wiedergabeszene zu akzeptieren,
die als nicht störend empfunden werden können. So kann bspw. eine Änderung des ITD
um bis zu 40 µs oder 45 µs zugelassen werden. Zusätzlich kann bspw. eine Rotation
der gesamten akustischen Szene um bis zu 23° von vielen oder den meisten Hörern als
nicht störend empfunden werden [SHK13]. Dieser Grenzwert kann durch eine unabhängige
Modifikation der individuellen Quellen oder Richtungen aus denen die Quellen wahrgenommen
werden, um wenige bis einige Grad erhöht werden, so das seine Verschiebung der akustischen
Wiedergabeszene um bis zu 28°, 30° oder 32° möglich sein kann.
[0040] Der Abstand 38 einer akustischen Quelle, wie etwa einem virtuellen Quellenobjekt,
kann möglicherweise von einem Hörer nur ungenau wahrgenommen werden. Experimente zeigen,
dass eine Variation des Abstandes 38 von bis zu 25 % für Hörer in der Regel nicht
wahrgenommen oder als störend empfunden wird, was eine eher starke Variation des Quellenabstandes
erlaubt, wie es beispielsweise in [Bla97] beschrieben ist.
[0041] Eine Periode bzw. ein Zeitabstand zwischen Änderungen in der reproduzierten Wiedergabeszene
kann einen konstanten oder variablen Zeitabstand zwischen einzelnen Änderungen aufweisen,
wie etwa 5 Sekunden, 10 Sekunden oder 15 Sekunden, um eine hohe Audioqualität zu gewährleisten.
Die hohe Audioqualität kann dadurch erreicht werden, dass ein Intervall von ca. 10
Sekunden zwischen Szenenänderungen bzw. Änderungen von Metainformationen einer oder
mehrerer virtueller Quellenobjekte eine genügend hohe Dekorrelation der Lautsprechersignale
ermöglicht und die Seltenheit der Änderungen bzw. Modifikationen dazu beiträgt, dass
Änderungen der Wiedergabeszene nicht wahrnehmbar oder nicht störend sind.
[0042] Eine Variation oder Modifikation der Abstrahlcharakteristiken einer allgemeinen Mehrpolquelle
kann die ITDs unbeeinflusst lassen, wohingegen die ILDs beeinflusst werden können.
Dies kann beliebige Modifizierungen der Abstrahlcharakteristiken ermöglichen, die
solange als von einem Hörer 17 unbemerkt oder als nicht störend wahrgenommen werden,
solange die ILDs am Ort des Hörers kleiner gleich dem jeweiligen Schwellwert (0,6
dB bis 2 dB) sind.
[0043] Dieselben Grenzwerte können für eine monaurale Pegeländerung, d.h. bezüglich eines
Ohres des Hörers 17, bestimmt werden.
[0044] Vorrichtung 10 ist ausgebildet, um ein ursprüngliches virtuelles Quellenobjekt 12a,
mit einer zusätzlichen, abgebildeten virtuellen Quelle 12'a zu überlagern, die das
gleiche oder ein ähnliches Quellensignal emittiert. In anderen Worten ist der Modifizierer
18 ausgebildet, um ein Abbild des virtuellen Quellenobjektes (12a) zu erstellen. Die
abgebildete virtuelle Quelle 12'a kann in etwa an einer virtuellen Position P
1 angeordnet sein, an welcher das virtuelle Quellenobjekt 12a ursprünglich angeordnet
ist. Die virtuelle Position P
1 weist einen Abstand 38 zu dem Hörer 17 auf. In anderen Worten kann die zusätzliche
abgebildete virtuelle Quelle 12'a eine vom Modifizierer 18 erstellte abgebildete Version
des virtuellen Quellenobjektes 12a sein, so dass die abgebildete virtuelle Quelle
12'a das virtuelle Quellenobjekt 12 ist. In anderen Worten kann das virtuelle Quellenobjekt
12a durch den Modifizierer 18 in das abgebildete virtuelle Quellenobjekt 12'a abgebildet
worden sein. Das virtuelle Quellenobjekt 12a kann durch die Modifikation der Metainformationen
bspw. an eine virtuelle Position P
2 mit einem Abstand 42 zu dem abgebildeten virtuellen Quellenobjekt 12'a und einem
Abstand 38' zu dem Hörer 17 bewegt werden. Alternativ oder zusätzlich ist vorstellbar,
dass der Modifizierer 18 die Metainformationen des Abbildes 12'a modifiziert.
[0045] Ein Bereich 43 kann dargestellt werden, als eine Teilfläche eines Kreises mit einem
Abstand 41 um das abgebildete virtuelle Quellenobjekt 12'a, der einen Abstand von
zumindest dem Abstand 38 zu dem Hörer 17 aufweist. Ist der Abstand 38' zwischen dem
modifizierten virtuellen Quellenobjekt 12a größer, als der Abstand 38 zwischen der
abgebildeten virtuellen Quelle 12'a, sodass das modifizierte Quellenobjekt 12a innerhalb
des Bereiches 43 angeordnet ist, kann das virtuelle Quellenobjekt 12a in dem Bereich
43 um das abgebildete virtuelle Quellenobjekt 12'a bewegt werden, ohne, dass das abgebildete
virtuelle Quellenobjekt 12'a und das virtuelle Quellenobjekt 12 als separate akustische
Objekte wahrgenommen werden. Der Bereich 43 kann bis zu 5, 10 oder 15 m um das abgebildete
virtuelle Quellenobjekt 12'a herum reichen und von einem Kreis mit dem Radius R
1, der dem Abstand 38 entspricht, begrenzt sein.
[0046] Alternativ oder zusätzlich kann Vorrichtung 10 ausgebildet sein, um den Präzedenz-Effekt,
auch bekannt als Haas-Effekt auszunutzen, wie er in [Bla97] beschrieben ist. Gemäß
einer Beobachtung von Haas kann eine akustische Reflexion einer Schallquelle, die
bis zu 50 ms nach dem direkten, beispielweise unreflektierten, Anteil des Schalls
bei dem Hörer 17 ankommt, nahezu perfekt in die räumliche Wahrnehmung der ursprünglichen
Quelle aufgenommen werden. Das heißt, dass zwei voneinander getrennte akustische Quellen
als eine wahrnehmbar sind.
[0047] Fig. 3 zeigt eine schematische Übersicht zur Modifikation von Metainformationen verschiedener
virtuellen Quellenobjekten 121-125 in einer Vorrichtung 30 zur Erzeugung einer Mehrzahl
von dekorrelierten Lautsprechersignalen. Obwohl Fig. 3 und die zugehörigen Erläuterungen
für eine klare Darstellung zweidimensional gehalten sind, gelten alle Beispiele auch
für den dreidimensionalen Fall.
[0048] Das virtuelle Quellenobjekt 121 ist eine räumlich begrenzte Quelle, wie etwa eine
Punktquelle. Die Metainformationen des virtuellen Quellenobjektes 121 können beispielsweise
so modifiziert werden, dass das virtuelle Quellenobjekt 121 über mehrere Intervallschritte
auf einer Kreisbahn bewegt wird.
[0049] Das virtuelle Quellenobjekt 122 ist ebenfalls eine räumlich begrenzte Quelle wie
etwa eine Punktquelle. Eine Änderung der Metainformationen des virtuellen Quellenobjektes
122 kann beispielsweise derart erfolgen, dass die Punktquelle über mehrere Intervallschritte
unregelmäßig in einem begrenzten Bereich oder Volumen bewegt wird. Das Wellenfeld
der virtuellen Quellenobjekte 121 und 122 kann allgemein modifiziert werden, indem
die Metainformationen modifiziert werden, so dass die Position des jeweiligen virtuellen
Quellenobjektes 121 oder 122 modifiziert wird. Prinzipiell ist dies für ein beliebiges
virtuelles Quellenobjekt mit einer begrenzten räumlichen Ausdehnung, wie etwa ein
Dipol oder eine Quelle mit einer nierenförmigen Abstrahlcharakteristik, möglich.
[0050] Das virtuelle Quellenobjekt 123, repräsentiert eine ebene Schallquelle repräsentiert,
und kann bezüglich der angeregten ebenen Welle variiert werden. Durch Modifikation
der Metainformationen kann ein Abstrahlwinkel des virtuellen Quellenobjektes 123 und/oder
ein Einfallswinkel auf den Hörer 17 beeinflusst werden.
[0051] Das virtuelle Quellenobjekt 124 ist ein virtuelles Quellenobjekt mit einer begrenzten
räumlichen Ausdehnung, wie etwa eine Dipolquelle mit einer richtungsabhängigen Abstrahlcharakteristik,
wie es durch die Kreislinien angedeutet ist. Zur Veränderung bzw. Modifikation der
Metainformationen des virtuellen Quellenobjektes 124 kann die richtungsabhängige Abstrahlcharakteristik
rotiert werden.
[0052] Für richtungsabhängige virtuelle Quellenobjekte, wie beispielsweise das virtuelle
Quellenobjekt 125 mit einer nierenförmigen Abstrahlcharakteristik, können die Metainformationen
so modifiziert werden, dass das Abstrahlmuster abhängig vom jeweiligen Zeitpunkt modifiziert
ist. Für das virtuelle Quellenobjekt 125 ist dies beispielshaft durch einen Wechsel
von einer nierenförmigen Abstrahlcharakteristik (durchgezogene Linie) zu einem hypernierenförmigen
Richtcharakteristik (gestrichelte Linie) dargestellt. Für omnidirektionale virtuelle
Quellenobjekte bzw. Schallquellen kann eine zusätzliche, zeitvariante richtungsabhängige
Richtcharakteristik addiert bzw. erzeugt werden.
[0053] Die verschiedenen Möglichkeiten, wie etwa eine Änderung der Position eines virtuellen
Quellenobjektes wie eine Punktquelle oder Quelle mit begrenzter räumlicher Ausdehnung,
eine Änderung des Einfallswinkels einer ebenen Welle, eine Änderung der Abstrahlcharakteristik,
eine Rotation der Abstrahlcharakteristik oder ein Hinzufügen einer richtungsabhängigen
Richtcharakteristik zu einem omnidirektional abstrahlenden Quellenobjekt, können miteinander
kombiniert werden. Hierbei können die Parameter, welche für das jeweilige Quellenobjekt
als zu modifizieren gewählt oder bestimmt werden, beliebig und voneinander verschieden
sein. Ferner kann die Art der Änderung der räumlichen Eigenschaften sowie eine Geschwindigkeit
der Änderung derart gewählt werden, dass die Änderung der reproduzierten Wiedergabeszene
entweder von einem Hörer unbemerkt bleibt oder bezüglich der Wahrnehmung durch den
Hörer akzeptabel ist. Darüber hinaus können die räumlichen Eigenschaften für zeitlich
individuelle Frequenzbereiche unterschiedlich variiert werden.
[0054] Im Nachfolgenden wird anhand von Fig. 4 unter Verweis auf Fig. 5c und Fig. 6c ein
aus einer Vielzahl von möglichen Aufbauten zur Verifikation der erfindungsgemäßen
Erkenntnisse beschrieben. Fig. 5c zeigt einen beispielhaften Verlauf einer Amplitudenoszillation
eines virtuellen Quellenobjektes über die Zeit. In der Fig. 6c wird ein Signalmodell
einer Erzeugung dekorrelierter Lautsprechersignale durch eine Veränderung bzw. Modifikation
der akustischen Wiedergabeszene erläutert. Dabei handelt es sich um einen Prototypen
zur Darstellung der Effekte. Der Prototyp ist bspw. bezüglich der verwendeten Lautsprecher
und/oder Mikrophone, der Abmessungen und/oder Abstände zwischen Bauteilen experimentell
aufgebaut.
[0055] Fig. 4 zeigt eine schematische Anordnung von Lautsprechern und Mikrophonen in einem
experimentellen Prototypen. Eine beispielhafte Anzahl von N
L = 48 Lautsprechern ist in einem Lautsprechersystem 14S angeordnet. Die Lautsprecher
sind äquidistant auf einer Kreislinie mit einem Radius von bspw. 1,5 m angeordnet,
so dass sich ein beispielhafter Winkelabstand von 2 π/48 = 7,5° ergibt. Eine exemplarische
Anzahl von N
M = 10 Mikrophonen ist in einem Mikrophonsystem 26S auf einer Kreislinie mit einem
Radius R
M von bspw. 0,05 m äquidistant angeordnet, so dass die Mikrophone einen Winkel von
36° zueinander aufweisen können. Für Testzwecke ist das Setup in einem Raum (Einhausung
des LEMS) mit einer Nachhallzeit T
60 von ca. 0,3 Sekunden angeordnet. Die Impulsantworten können mit einer Abtastfrequenz
von 44,1 kHz gemessen, auf eine Abtastrate von 11025 Hz konvertiert und auf eine Länge
von 1024 Messpunkten geschnitten werden, was der Länge der adaptiven Filter für das
AEC entspricht. Das LEMS wird durch eine Faltung erhaltener Impulsantworten ohne Rauschen
auf dem Mikrophonsignal (Near-End-Rauschen) oder lokalen Schallquellen innerhalb des
LEMS simuliert. Diese idealen Laborbedingungen werden ausgewählt, um den Einfluss
der vorgeschlagenen Methode auf die Konvergenz des Adaptionsalgorithmus von anderen
Einflüssen zu trennen. Weitere Experimente, bspw. mit modelliertem Near-End-Rauschen
können zu äquivalenten Ergebnissen führen.
[0056] Das Signalmodell wird in Figur 6c erläutert. Dort werden die dekorrelierten Lautsprechersignale
x'(k) in das LEMS H eingegeben, welches dann durch eine Übertragungsfunktion H
est(n) basierend auf den Beobachtungen der dekorrelierten Lautsprechersignale
x'(k) und den resultierenden Mikrophonsignalen
d(k) identifiziert werden können. Die Fehlersignale
e(k) können Reflektionen von Lautsprechersignalen an der Einhausung, wie etwa das verbleibende
Echo erfassen. Für das AEC kann ein generalisierter adaptive Filteralgorithmus im
Frequenzbereich mit einem exponentiellen Gedächtnisfaktor λ = 0,95, einer Schrittweite
µ = 0,5 (mit 0 ≤ µ ≤ 1) und einer Rahmenverschiebung von L
F = 512 genutzt, wie es in [SHK13], [BBK03] vorgeschlagen wird, angewendet werden.
[0057] Ein Maß für die erreichte Systemidentifikation ist als normierter Systemabstand (Normalized
Misalignment - NMA) bezeichnet und kann durch die Berechnungsvorschrift

berechnet werden, wobei ∥·∥
F die Frobenius-Norm bezeichnet und N der Blockzeitindex ist. Ein geringer Wert des
Systemabstandes bezeichnet eine Systemidentifikation (Schätzung) mit einer geringen
Abweichung zum realen System.
[0058] Die Relation zwischen n und k kann durch n = floor(k/L
F) angegeben werden, wobei floor(·) der "floor"-Operator bzw. die Gaußklammer ist,
also der Quotient abgerundet wird. Zusätzlich kann ein erreichte Echounterdrückung
betrachtet werden, die bspw. mittels des Echo Return Loss Enhancement (ERLE) beschrieben
werden kann, um eine bessere Vergleichbarkeit zu [SHK13] zu ermöglichen.
[0059] Die ERLE ist definiert als

wobei ∥·∥
2 die Euklidische Norm beschreibt.
[0060] In einem ersten Experiment werden die Lautsprechersignale gemäß der Theorie zur Wellenfeldsynthese,
wie sie bspw. in [BDV93] vorgeschlagen ist, bestimmt, um vier ebene Wellen gleichzeitig
mit um α
q variierenden Einfallswinkeln zu synthetisieren. α
q ist durch 0, π/2, π und 3 π/2 für die Quellen q = 1,2,...., N
S = 4 gegeben. Die resultierenden zeitvarianten Einfallswinkel können durch

beschrieben werden, wobei ϕ
a die Amplitude der Einfallswinkeloszillation und L
P die Periodendauer der Einfallswinkeloszillation ist, wie sie exemplarisch in Fig.
5c veranschaulicht wird. Für die Quellensignale wurden untereinander unkorrelierte
Signale weißen Rauschens verwendet, so dass alle 48 Lautsprecher mit einer gleichen
durchschnittlichen Leistung betrieben werden können.
[0061] Obwohl Rauschsignale zur Ansteuerung von Lautsprechern möglicherweise in der Praxis
kaum relevant sind, kann dieses Szenario eine klare und prägnante Bewertung des Einflusses
von ϕ
a erlauben. In Anbetracht, dass beispielhaft lediglich vier unabhängige Signalquellen
(N
S = 4) und 48 Lautsprecher (N
L = 48) angeordnet sind, bzw. verwendet werden, ist die Aufgabe und das Gleichungssystem
der Systemidentifikation massiv unterbestimmt, so dass ein hoher normierter Systemabstand
(NMA) erwartet werden kann.
[0062] Der Prototyp kann Ergebnisse der NMA erzielen, die den Stand der Technik übertreffen
können und kann so zu einer besseren akustischen Wiedergabe von WFS oder HOA führen.
[0063] In nachfolgender Fig. 5 werden die Ergebnisse des Experiments graphisch dargestellt.
[0064] Fig. 5a zeigt die ERLE für die vier Quellen des Prototypen. Dabei zeigt Plot 1: ϕ
a = π/48, Plot 2: ϕ
a = 4π/48, Plot 3: ϕ
a = 8π/48 und Plot 4: ϕ
a = 0. Für Plot 4 und mithin für ϕ
a = 0 kann die ERLE bis zu ca. 58 dB erreicht werden.
[0065] Fig. 5b zeigt den erreichten normierten Systemabstand mit den identischen Werten
für ϕ
a in den Plots 1 bis 4. Der Systemabstand kann Werte von bis zu ca. -16 dB erreichen,
was gegenüber Werten von -6 dB, die in [SHK13] erreicht werden, zu einer deutlichen
Verbesserung der Systembeschreibung des LEMS führen kann.
[0066] Fig. 5c zeigt einen Plot an welchem an der Abszisse die Zeit und an der Ordinate
die Werte der Amplitudenoszillation ϕ
a angegeben sind, so dass die Periodendauer L
P ablesbar ist.
[0067] Die Verbesserung gegenüber [SHK13] von bis zu 10 dB bezüglich des normierten Systemabstandes
kann zumindest teilweise dadurch erklärt werden, dass der Ansatz, wie er in [SHK13]
vorgeschlagen ist, mit räumlich bandbegrenzten Lautsprechersignalen arbeitet. Die
räumliche Bandbreite einer natürlichen akustischen Szene ist im Allgemeinen zu groß,
als dass die Szene von den (in begrenztem Umfang) bereitgestellten Lautsprechersignalen
und Lautsprechern perfekt, d. h. ohne Abweichungen, wiedergegeben werden kann. Durch
eine künstliche, d. h. gesteuerte, Bandbegrenzung, wie etwa bei HOA, kann eine räumlich
bandbegrenzte Szene erhalten werden. In alternativen Verfahren, wie etwa bei WFS,
kann ein Auftreten von Aliasing-Effekten in Kauf genommen werden, um eine bandbegrenzte
Szene zu erhalten. Vorrichtungen, wie sie in den Fig. 1 und 2 vorgeschlagen sind,
können mit einer räumlich nicht oder kaum bandbegrenzten virtuellen Wiedergabeszene
arbeiten. In [SHK13] werden Aliasing-Artefakte der WFS, die bereits in den Lautsprechersignalen
erzeugt oder eingefangen sind, schlicht mit der reproduzierten Wiedergabeszene rotiert,
so dass Aliasing-Effekte zwischen den virtuellen Quellenobjekten bestehen bleiben
können. In den Fig. 5 und 6 können die Anteile der individuellen WFS Aliasing-Therme
in den Lautsprechersignalen mit einer Rotation der virtuellen Wiedergabeszene durch
eine individuelle Modifikation der Metainformationen einzelner Quellenobjekte variieren.
Dies kann zu einer stärkeren Dekorrelation führen. Die Fig. 5a-c zeigen, dass die
Systemidentifikation mit einer größeren Rotationsamplitude ϕ
a eines virtuellen Quellenobjektes der akustischen Szene verbessert werden kann, wie
es in Plot 3 der Fig. 5b gezeigt ist, wobei eine Reduktion des NMA möglicherweise
auf Kosten einer reduzierten Echounterdrückung erzielt werden kann, wie es die Plots
1-3 in Fig. 5a gegenüber dem Plot 4 (ohne Rotationsamplitude) zeigen. Jedoch verbessert
sich die Echounterdrückung für dekorrelierte Lautsprechersignale (ϕ
a > 0) über die Zeit, wohingegen die Systemidentifikation für unveränderte Lautsprechersignale
(ϕ
a = 0) dies nicht tut.
[0068] Nachfolgend werden in den Fig. 6a-c verschiedene Arten der Systemidentifikation beschrieben.
In Fig. 6a wird ein Signalmodell einer Systemidentifikation eines Multiple Input Multiple
Output (MIMO) Systems beschrieben, bei der das Mehrdeutigkeitsproblem auftreten kann.
In Fig. 6b wird ein Signalmodell einer MIMO Systemidentifikation mit einer Dekorrelation
der Lautsprechersignale gemäß dem Stand der Technik beschrieben. Fig. 6c zeigt ein
Signalmodell einer MIMO Systemidentifikation mit einer Dekorrelation von Lautsprechersignalen,
wie sie beispielsweise mit einer Vorrichtung der Fig. 1 oder der Fig. 2 erzielbar
ist.
[0069] In Fig. 6a wird das LEMS
H durch
Hest(n) bestimmt bzw. geschätzt, wobei
Hest(n) durch Beobachtung der Lautsprechersignale
x(k) und der Mikrophonsignale
d(k) bestimmt bzw. geschätzt wird.
Hest(n) kann bspw. eine mögliche Lösung eines unterbestimmten Gleichungssystems sein.
Die Vektoren, die die Lautsprechersignale erfassen, sind definiert durch

wobei L
x die Länge der individuellen Komponentenvektoren
xl(k) beschreibt, welche die Abtastungen
xl(k) des Lautsprechersignals l zum Zeitpunkt k erfassen. Gleichermaßen können die Vektoren,
die die erfassten Mikrophonsignale L
D beschreiben, als Aufnahmen zu bestimmten Zeitpunkten für jeden Kanal und definiert
sein als

[0070] Das LEMS kann dann durch eine lineare MIMO Filterung beschrieben werden, die ausgedrückt
werden kann als:

wobei die individuellen Aufnahmen der Mikrophonsignale durch

erhalten werden können. Die Impulsantworten h
m,l(k) des LEMS mit der Länge L
H können das zu identifizierende LEMS beschreiben. Um die individuellen Aufnahmen der
Mikrophonsignale durch die lineare MIMO Filterung auszudrücken, kann die Beziehung
von L
X und L
D mit L
X = L
D + L
H - 1 definiert werden. Die Lautsprechersignale x(k) können durch ein Wiedergabesystem
basierend auf WFS, Higher-Order Ambisonics oder einem ähnlichen Verfahren erhalten
werden. Das Wiedergabesystem kann eine bspw. lineare MIMO Filterung einer Anzahl von
N
S virtuellen Quellensignalen s̊ (k). Die virtuellen Quellensignale s̊ (k) können durch
den Vektor

[0071] Dargestellt werden, wobei L
S bspw. eine Länge des Signalsegments der individuellen Komponente s̊
q(k) ist und s̊
q(k) das Ergebnis einer Abtastung der Quelle q zum Zeitpunkt k ist. Eine Matrix G kann
das Rendering System darstellen und so strukturiert sein, dass

die Faltung der Quellensignale s̊
q(k) mit der Impulsantwort g
l,q(k) beschreibt. Dies kann genutzt werden, um die Lautsprechersignale x
l(k) aus den Quellensignalen s̊
q(k) gemäß der Berechnungsvorschrift

zu beschreiben. Die Impulsantworten g
l,q(k) haben bspw. eine Länge von L
R Abtastungen und repräsentieren R(l,q,ω) im diskreten Zeitbereich.
[0072] Das LEMS kann derart identifiziert werden, dass ein Fehler e(k) der Systemschätzung
Hest(n) durch

bestimmbar sein kann und bezüglich einer entsprechenden Norm, wie etwa der Euklidischen
oder einer geometrischen Norm, minimiert wird. Wird die Euklidische Norm ausgewählt,
können die bekannten Wiener-Hopf Gleichungen resultieren. Werden lediglich Finite
Impulse Response (FIR)-Filter für die Systemantworten betrachtet, können die Wiener-Hopf
Gleichungen in Matrixnotation in der Form

mit

geschrieben bzw. dargestellt werden, wobei
Rxd bspw. die Korrelationsmatrix der Lautsprecher- und Mikrophonsignale ist.
Hest(n) kann nur eindeutig sein, wenn die Korrelationsmatrix
Rxx der Lautsprechersignale vollen Rang hat. Für
Rxx kann die folgende Relation erhalten werden:

wobei
Rss bspw. die Korrelationsmatrix der Quellensignale gemäß

ist. Daraus kann L
S = L
X + L
R - 1 folgen, so dass
Rss die Dimension N
S(L
X + L
R - 1) x N
S(L
X + L
R - 1) hat, während
Rxx die Dimension N
LL
X x N
LL
X hat. Eine notwendige Bedingung dafür, dass
Rxx vollen Rang hat, ist

wobei die virtuellen Quellen zumindest unkorrelierte Signale tragen und an verschiedenen
Positionen positioniert sind.
[0073] Wenn die Anzahl der Lautsprecher N
L die Anzahl an virtuellen Quellen N
S überschreitet, kann das Mehrdeutigkeitsproblem auftreten. In der nachfolgenden Betrachtung
wird der Einfluss der Impulsantwortlängen L
X und L
R vernachlässigt.
[0074] Das Mehrdeutigkeitsproblem kann zumindest teilweise aus der starken gegenseitigen
Kreuzkorrelation der Lautsprechersignale resultieren, die unter anderem in der geringeren
Anzahl der virtuellen Quellen begründet sein kann. Ein Auftreten des Mehrdeutigkeitsproblems
kann wahrscheinlicher sein, je mehr Kanäle für das Wiedergabesystem genutzt werden,
unter anderem wenn die Anzahl der virtuellen Quellenobjekte kleiner ist als die Anzahl
der in dem LEMS verwendeten Lautsprecher. Behelfslösungen nach dem Stand der Technik
zielen auf eine Änderung der Lautsprechersignale, so dass der Rang von
Rxx erhöht ist oder die Konditionszahl von
Rxx verbessert ist.
[0075] Fig. 6b zeigt ein Signalmodell eines Verfahrens zur Systemschätzung und zur Dekorrelation
von Lautsprechersignalen. Korrelierte Lautsprechersignale
x(k) können bspw. durch Dekorrelationsfilter und/oder rauschbasierte Ansätze in dekorrelierte
Lautsprechersignale
x'(k) überführt werden. Die beiden Ansätze können gemeinsam oder getrennt voneinander
angewendet werden. Ein Block 44 (Decorr. filter) der Fig. 6b beschreibt eine Filterung
der Lautsprechersignale
xl(k), die für jeden Lautsprecher mit Index I differiert und nichtlinear sein kann,
wie es bspw. in [MHB01, BMS98] beschrieben ist. Alternativ kann die Filterung linear,
jedoch zeitvariant sein, wie es bspw. in [SHK13, Ali98, HBK07, WWJ12] vorgeschlagen
ist. Die rauschbasierten Ansätze, wie sie in [SMH95, GT98, GE98] vorgeschlagen sind,
können durch eine Addition von unkorreliertem Rauschen, angedeutet durch n(k) repräsentiert
werden. Diese Ansätze haben gemeinsam, dass sie die virtuellen Quellensignale s(k)
und das Rendering System
G vernachlässigen bzw. unverändert lassen. Sie bearbeiten lediglich die Lautsprechersignale
x(k).
[0076] Fig. 6c zeigt ein Signalmodell einer MIMO Systemidentifikation mit einer Lautsprecherdekorrelation,
wie sie in den Fig. 1 und 2 beschrieben ist. Eine notwendige Voraussetzung für eine
eindeutige Systemidentifikation ist mit

gegeben. Diese Bedingung gilt unabhängig von den tatsächlichen räumlichen Eigenschaften,
wie physikalische Abmessungen oder Abstrahlcharakteristik der virtuellen Quellenobjekte.
Die jeweiligen virtuellen Quellenobjekte sind dabei an von einander verschieden Positionen
in dem jeweiligen Wiedergaberaum positioniert. Jedoch können verschiedene räumliche
Eigenschaften der virtuellen Quellenobjekte verschiedene Impulsantworten benötigen,
die in
G darstellbar sind. Gemäß

bestimmt
G die Korrelationseigenschaften der Lautsprechersignale
x(k), beschrieben durch
Rxx. Dadurch können wegen der Mehrdeutigkeit verschiedene Mengen von Lösungen für H
est(n) gemäß

existieren, abhängig von den räumlichen Eigenschaften der virtuellen Quellenobjekte.
Da alle Lösungen aus dieser Menge von Lösungen die perfekte Identifikation
Hest(n) =
H beinhalten, unabhängig von
Rxx, kann ein variierendes
Rxx für eine Systemidentifikation, wie sie in [SHK13] beschrieben ist, vorteilhaft sein.
[0077] Eine Änderung der räumlichen Eigenschaften von virtuellen Quellenobjekten kann ausgenutzt
werden, um die Systemidentifikation zu verbessern. Dies wird ermöglicht, indem ein
zeitvariantes Rendering System, darstellbar durch
G'(k), umgesetzt wird. Das zeitvariante Rendering System
G'(k) umfasst den Modifizierer 18, wie er bspw. in Fig. 1 erläutert ist, um die Metainformationen
der virtuellen Quellenobjekte und mithin die räumlichen Eigenschaften der virtuellen
Quellenobjekte zu modifizieren. Das Rendering System der Renderer 22 stellen Lautsprechersignale
basierend auf den vom Modifizierer 18 modifizierten Metainformationen bereit, um die
Wellenfelder von verschiedenen virtuellen Quellenobjekten, wie beispielsweise Punktquellen,
Dipolquellen, ebenen Quellen oder Quellen mit nierenförmiger Abstrahlcharakteristik
wiederzugeben.
[0078] Im Unterschied zu den Beschreibungen bezüglich des Renderingsystems
G in den Fig. 6a und 6b ist
G'(k) der Fig. 6c von dem Zeitschritt k abhängig und kann für verschiedene Zeitschritte
k variabel sein. Der Renderer 22 produziert die dekorrelierten Lautsprechersignale
x'(k) direkt, so dass auf ein Hinzufügen von Rauschen oder einen Dekorrelationsfilter
verzichtet werden kann. Die Matrix
G'(k) kann für jeden Zeitschritt k gemäß dem gewählten Wiedergabeschema bestimmt werden,
wobei die Zeitpunkte k eine zeitliche Differenz zueinander aufweisen.
[0079] Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht
es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen,
sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender
Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist.
Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt
beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details
oder Merkmals einer entsprechenden Vorrichtung dar.
[0080] Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der
Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann
unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk,
einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines
EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen
oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale
gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken
können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb
kann das digitale Speichermedium computerlesbar sein. Manche Ausführungsbeispiele
gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale
aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken,
dass eines der hierin beschriebenen Verfahren durchgeführt wird.
[0081] Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt
mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam
ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem
Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren
Träger gespeichert sein.
[0082] Andere Beispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen
Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert
ist.
[0083] Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit
ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen
Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft. Ein weiteres
Beispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales
Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum
Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
[0084] Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise
einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert
oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
[0085] Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm
zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
[0086] Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise
ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder
alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen
Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor
zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein
werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung
durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor
(CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
[0087] Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung
der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen
und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten
einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den
Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten,
die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert
wurden, beschränkt sei.
Literatur
[0088]
[Ali98] ALI, M.: Stereophonie Acoustic Echo Cancellation System Using Time Varying All-Pass
filtering for signal decorrelation. In: IEEE International Conference on Acoustics,
Speech, and Signal Processing (ICASSP) Bd. 6. Seattle, WA, May 1998, S. 3689 - 3692
[BBK03] BUCHNER, H.; BENESTY, J.; KELLERMANN, W.: Multichannel Frequency Domain Adaptive Algorithms
with Application to Acoustic Echo Cancellation. In: BENESTY, J. (Hrsg.); HUANG, Y.
(Hrsg.): Adaptive Signal Processing: Application to Real-World Problems. Berlin :
Springer, 2003
[BDV93] BERKHOUT, A.J.; DE VRIES, D.; VOGEL, P.: Acoustic control by wave field synthecsis.
In: J. Acoust. Soc. Am. 93 (1993), Mai, S. 2764 - 2778
[BLA97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT
press, 1997
[BMS98] BENESTY, J.; MORGAN, D.R.; SoNDHI, M.M.: A better understanding and an improved solution
to the specific problems of stereophonic acoustic echo cancellation. In: IEEE Trans.
Speech Audio Process. 6 (1998), March, Nr. 2, S. 156 - 165
[Dan03] DANIEL, J.: Spatial sound encoding including near field effect: Introducing distance
coding filters and a variable, new ambisonic format. In: 23rd International Conference
of the Audio Eng. Soc" 2003
[GE98] GÄNSLER, T.; ENEROTH, P.: Influence of audio coding on stereophonic acoustic echo
cancellation. In: IEEE International Conference an Acoustics, Speech, and Signal Processing
(ICASSP) Bd. 6. Seattle, WA, May 1998, S. 3649 - 3652
[GT98] GILLOIRE, A.; TURBIN, V.: Using auditory properties to improve the behaviour of stereophonie
acoustic echo cancellers. In: IEEE International Conference an Acoustics, Speech,
and Signal Processing (ICASSP) Bd. 6. Seattle, WA, May 1998, S. 3681 - 3684
[HBK07] HERRE, J.; BUCHNER, H.; KELLERMANN, W.: Acoustic Echo Cancellation for Surround Sound
using Perceptually Motivated Convergence Enhancement. In: IEEE International Conference
an Acoustics, Speech, and Signal Processing (ICASSP) Bd. 1. Honolulu, Hawaii, April
2007, S. I-17 - I-20
[MHBOI] MORGAN, D.R.; HALL, J.L.; BENESTY, J.: Investigation of several types of nonlinearities
for use in stereo acoustic echo cancellation. In: IEEE Trans. Speech Audio Process.
9 (2001), September, Nr. 6, S. 686 - 696
[SHK13] SCHNEIDER, M.; HUEMMER, C.; KELLERMANN, W.: Wave-Domain Loudspeaker Signal Decorrelation
for System Identification in Multichannel Audio Reproduction Scenarios. In: IEEE International
Conference an Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, Canada,
May 2013
[SMH95] SoNDHI, M.M.; MORGAN, D.R.; HALL, J.L.: Stereophonie acoustic echo cancellation -
An overview of the fundamental problem. In: IEEE Signal Process. Lett. 2 (1995), August,
Nr. 8, S. 148 -151
[WWJ12] WUNG, J. ; WADA, T. S.; JUANG, B. H.: Inter-channel decorrelation by sub-band resampling
in frequency domain. In: International Workshop on Acoustic Signal Enhancement {IWAENC).
Kyoto, Japan, March 2012, S. 29-32
[Bla97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT
press, 1997]
Verwendete Abkürzungen
[0089]
- AEC
- Akustische Echounterdrückung (acoustic echo cancellation)
- FIR
- finite impulse response
- HOA
- Higher-Order Ambisonics
- ILD
- interauraler Pegelunterschied (interaural level difference)
- ITD
- interauraler Zeitunterschied (interaural time difference)
- LEMS
- Lautsprecher-Einhausungs-Mikrophon-System (Ioudspeaker-enclosure-microphone system)
- LRE
- Hörraumentzerrung (listening room equalization)
- MIMO
- multi-input multi-output
- WFS
- Wellenfeldsynthese (wave field synthesis)
1. Vorrichtung (10, 30) zur Erzeugung einer Mehrzahl von Lautsprechersignalen (
x'(k)) basierend auf zumindest einem virtuellen Quellenobjekt (12a-c), das ein Quellensignal
und Metainformationen aufweist, die eine Position (P
1; P
2) oder eine Art des zumindest einen virtuellen Quellenobjektes (12a-c) bestimmen,
mit folgenden Merkmalen:
einem Modifizierer (18), der ausgebildet ist, um die Metainformationen zeitvariant
zu modifizieren; und
einem Renderer (22), der ausgebildet ist, um das zumindest eine virtuelle Quellenobjekt
(12a-c) und die modifizierten Metainformationen, in denen die Art oder die Position
(P1, P2) des zumindest einen virtuellen Quellenobjekts (12a-c) zeitvariant modifiziert ist,
in eine Vielzahl von Lautsprechersignalen (x'(k)) zu überführen,
wobei der Modifizierer (18) ausgebildet ist, um die Metainformationen des zumindest
einen virtuellen Quellenobjektes (12a-c) so zu modifizieren, dass eine virtuelle Position
(P1, P2) des zumindest einen virtuellen Quellenobjektes (12a-c) von einem Zeitpunkt zu einem
späteren Zeitpunkt modifiziert wird und dadurch ein Abstand zwischen der virtuellen
Position (P1, P2) des zumindest einen virtuellen Quellenobjektes (12a-c) bezogen auf eine Position
in einem Wiedergaberaum (16) um höchstens 25 % verändert wird, oder
wobei der Modifizierer (18) ausgebildet ist, um die Metainformationen des zumindest
einen virtuellen Quellenobjektes (12a-c) von einem Zeitpunkt zu einem späteren Zeitpunkt
so zu modifizieren, dass bezüglich einer Position (P1, P2) in einem Wiedergaberaum (16) ein interauraler Pegelunterschied um höchstens 26 %
vergrößert oder um höchstens 21 % verringert ist, oder
wobei der Modifizierer (18) ausgebildet ist, um die Metainformationen des zumindest
einen virtuellen Quellenobjektes (12a-c) von einem Zeitpunkt zu einem späteren Zeitpunkt
so zu modifizieren, dass bezüglich einer Position (P1, P2) in einem Wiedergaberaum (16) ein monauraler Pegelunterschied um höchstens 26 % vergrößert
oder um höchstens 21 %verringert ist, oder
wobei der Modifizierer (18) ausgebildet ist, um die Metainformationen des zumindest
einen virtuellen Quellenobjektes (12a-c) von einem Zeitpunkt zu einem späteren Zeitpunkt
so zu modifizieren, dass bezüglich einer Position (P1, P2) in einem Wiedergaberaum (16) eine interaurale Zeitdifferenz um höchstens 30 µs modifiziert
ist, oder
wobei das zumindest eine virtuelle Quellenobjekt (12a-c) frontal (34a, 34b) zu einem
Hörer (17) in einem Wiedergaberaum (16) angeordnet ist und der Modifizierer (18) ausgebildet
ist, um die Metainformationen des zumindest einen virtuellen Quellenobjektes (12a-c)
von einem Zeitpunkt zu einem späteren Zeitpunkt so zu modifizieren, dass eine Richtung
des zumindest einen virtuellen Quellenobjektes (12a-c) zu dem Hörer (17) um weniger
als 3° (α1) verändert ist, oder
wobei das zumindest eine virtuelle Quellenobjekt (12a-c) in einer Seitenrichtung (36a,
36b) zu einem Hörer (17) in einem Wiedergaberaum (16) angeordnet ist und der Modifizierer
(18) ausgebildet ist, um die Metainformationen des zumindest einen virtuellen Quellenobjektes
(12a-c) von einem Zeitpunkt zu einem späteren Zeitpunkt so zu modifizieren, dass eine
Richtung des zumindest einen virtuellen Quellenobjektes (12a-c) zu dem Hörer (17)
um weniger als 10° (α2) verändert ist, oder
wobei der Modifizierer (18) ausgebildet ist, um die Metainformationen des zumindest
einen virtuellen Quellenobjektes (12a-c) mit einem zeitlichen Intervall von zumindest
10 Sekunden zu modifizieren, oder
wobei der Modifizierer (18) ausgebildet ist, um ein Abbild (12'a) des zumindest einen
virtuellen Quellenobjektes (12a) zu erstellen, wobei das Abbild zumindest teilweise
die Metainformationen des zumindest einen virtuellen Quellenobjektes (12a) aufweist;
um die Metainformationen zeitvariant so zu modifizieren, dass das zumindest eine virtuelle
Quellenobjekt (12a) und das Abbild (12'a) voneinander verschiedene Metainformationen
aufweisen, und um das Abbild (12'a) mit einer Entfernung (41) von höchstens zehn Metern
zu dem zumindest einen virtuellen Quellenobjekt (12a) zu positionieren, oder
wobei der Renderer (22) ferner ausgebildet ist, um den Lautsprechersignalen (x'(k)) eine Dämpfung oder eine Verzögerung hinzuzufügen, sodass eine Korrelation der
Lautsprechersignale (x'(k)) verringert ist.
2. Vorrichtung (10, 30) gemäß Anspruch 1, die ferner folgendes Merkmal aufweist:
einem Systemberechner (28), der ausgebildet ist, um basierend auf einer Mehrzahl von
Mikrophonsignalen (d(k)) und der Mehrzahl von Lautsprechersignalen (x'(k)) eine Übertragungscharakteristik (Hest(n)) eines Wiedergaberaumes (16) zu schätzen, in dem eine Mehrzahl von Lautsprechern,
für die die Mehrzahl von Lautsprechersignalen (x'(k)) bestimmt ist, und eine Mehrzahl von Mikrophonen, von denen die Mehrzahl von
Mikrophonsignalen (d(k)) stammen, anbringbar sind;
wobei der Renderer (22) ausgebildet ist, um die Mehrzahl von Lautsprechersignalen
(x'(k)) basierend auf der geschätzten Übertragungscharakteristik (Hest(n)) des Wiedergaberaumes (16) zu berechnen.
3. Vorrichtung (10, 30) gemäß Anspruch 1 oder 2, bei der der Renderer (22) ausgebildet
ist, um die Mehrzahl von Lautsprechersignalen (x'(k)) nach Vorschrift eines Wellenfeldsynthese-Algorithmus oder eines High-Order Ambisonic
Algorithmus zu berechnen oder bei der der Renderer (22) ausgebildet ist, um wenigstens
10 Lautsprechersignale (x'(k)) zu berechnen.
4. Vorrichtung (10, 30) gemäß einem der vorangegangenen Ansprüche, bei der der Modifizierer
(18) ausgebildet ist, um wenigstens zwei virtuelle Quellenobjekte (12a-c) so zu modifizieren,
dass die Metainformationen eines ersten virtuellen Quellenobjektes (12-ac) unterschiedlich
zu den Metainformationen eines zweiten virtuellen Quellenobjektes (12a-c) in Position
oder Art des virtuellen Quellenobjektes (12a-c) modifiziert werden; und
wobei der Renderer (22) ausgebildet ist, um die Mehrzahl von Lautsprechersignalen
(x'(k)) basierend auf den ersten modifizierten Metainformationen und den zweiten modifizierten
Metainformationen zu berechnen.
5. Vorrichtung (10, 30) gemäß einem der vorangegangenen Ansprüche, bei der der Modifizierer
(18) ferner ausgebildet ist, um ein Abbild (12'a) des zumindest einen virtuellen Quellenobjektes
(12a) zu erstellen, wobei das Abbild zumindest teilweise die Metainformationen des
zumindest einen virtuellen Quellenobjektes (12a) aufweist; und wobei der Modifizierer
ausgebildet ist, die Metainformationen zeitvariant so zu modifizieren, dass das zumindest
eine virtuelle Quellenobjekt (12a) und das Abbild (12'a) von einander verschiedene
Metainformationen aufweisen.
6. Vorrichtung (10, 30) gemäß einem der vorangehenden Ansprüche, bei der der Modifizierer
(18) ausgebildet ist, die Metainformationen des zumindest einen virtuellen Quellenobjektes
(12a-c) einer reproduzierten Wiedergabeszene in Position oder Art des zumindest einen
virtuellen Quellenobjektes (12a-c) so teilweise zu modifizieren, dass die Modifikation
der reproduzierten Wiedergabeszene für einen Hörer (17) in einem Wiedergaberaum (16)
nicht merkbar ist oder als nicht störend empfunden wird.
7. Verfahren zur Erzeugung einer Mehrzahl von Lautsprechersignalen(
x'(k)) basierend auf zumindest einem virtuellen Quellenobjekt (12a-c) mit einem Quellensignal
und Metainformationen, die Position oder Art des zumindest einen virtuellen Quellenobjektes
(12a-c) bestimmen mit folgenden Schritten:
zeitvariantes Modifizieren der Metainformationen; und
Überführen des zumindest einen virtuellen Quellenobjekts (12a-c) und der modifizierten
Metainformationen, in denen die Art oder Position des zumindest einen virtuellen Quellenobjekts
(12a-c) zeitvariant modifiziert ist, in eine Vielzahl von Lautsprechersignalen (x'(k)), wobei das Modifizieren die Metainformationen des zumindest einen virtuellen
Quellenobjektes (12a-c) so modifiziert, dass eine virtuelle Position (P1, P2) des zumindest einen virtuellen Quellenobjektes (12a-c) von einem Zeitpunkt zu einem
späteren Zeitpunkt modifiziert wird und dadurch ein Abstand zwischen der virtuellen
Position (P1, P2) des zumindest einen virtuellen Quellenobjektes (12a-c) bezogen auf eine Position
in einem Wiedergaberaum (16) um höchstens 25 % verändert wird, oder wobei das Modifizieren
die Metainformationen des zumindest einen virtuellen Quellenobjektes (12a-c) von einem
Zeitpunkt zu einem späteren Zeitpunkt so modifiziert, dass bezüglich einer Position
(P1, P2) in einem Wiedergaberaum (16) ein interauraler Pegelunterschied um höchstens 26 %
vergrößert oder um höchstens 21 % verringert ist, oder
wobei das Modifizieren die Metainformationen des zumindest einen virtuellen Quellenobjektes
(12a-c) von einem Zeitpunkt zu einem späteren Zeitpunkt so modifiziert, dass bezüglich
einer Position (P1, P2) in einem Wiedergaberaum (16) ein monauraler Pegelunterschied um höchstens 26 % vergrößert
oder um höchstens 21 %verringert ist, oder
wobei das Modifizieren die Metainformationen des zumindest einen virtuellen Quellenobjektes
(12a-c) von einem Zeitpunkt zu einem späteren Zeitpunkt so modifiziert, dass bezüglich
einer Position (P1, P2) in einem Wiedergaberaum (16) eine interaurale Zeitdifferenz um höchstens 30 µs modifiziert
ist, oder
wobei das zumindest eine virtuelle Quellenobjekt (12a-c) frontal (34a, 34b) zu einem
Hörer (17) in einem Wiedergaberaum (16) angeordnet ist und das Modifizieren die Metainformationen
des zumindest einen virtuellen Quellenobjektes (12a-c) von einem Zeitpunkt zu einem
späteren Zeitpunkt so modifiziert, dass eine Richtung des zumindest einen virtuellen
Quellenobjektes (12a-c) zu dem Hörer (17) um weniger als 3° (α1) verändert ist, oder
wobei das zumindest eine virtuelle Quellenobjekt (12a-c) in einer Seitenrichtung (36a,
36b) zu einem Hörer (17) in einem Wiedergaberaum (16) angeordnet ist und das Modifizieren
die Metainformationen des zumindest einen virtuellen Quellenobjektes (12a-c) von einem
Zeitpunkt zu einem späteren Zeitpunkt so modifiziert, dass eine Richtung des zumindest
einen virtuellen Quellenobjektes (12a-c) zu dem Hörer (17) um weniger als 10° (α2) verändert ist, oder
wobei das Modifizieren die Metainformationen des zumindest einen virtuellen Quellenobjektes
(12a-c) mit einem zeitlichen Intervall von zumindest 10 Sekunden modifiziert, oder
wobei das Modifizieren ein Abbild (12'a) des zumindest einen virtuellen Quellenobjektes
(12a) erstellt, wobei das Abbild zumindest teilweise die Metainformationen des zumindest
einen virtuellen Quellenobjektes (12a) aufweist; und die Metainformationen zeitvariant
so modifiziert, dass das zumindest eine virtuelle Quellenobjekt (12a) und das Abbild
(12'a) voneinander verschiedene Metainformationen aufweisen, und das Abbild (12'a)
mit einer Entfernung (41) von höchstens zehn Metern zu dem zumindest einen virtuellen
Quellenobjekt (12a) positioniert wird, oder wobei das Überführen den Lautsprechersignalen
(x'(k)) eine Dämpfung oder eine Verzögerung hinzufügt, sodass eine Korrelation der Lautsprechersignale
(x'(k)) verringert ist.
8. Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch
7, wenn das Programm auf einem Computer läuft.
1. A device (10, 30) for generating a multitude of loudspeaker signals (x'(k)) based
on at least one virtual source object (12a-c) which comprises a source signal and
meta information determining a position (P
1; P
2) or type of the at least one virtual source object (12a-c), comprising:
a modifier (18) configured to time-varyingly modify the meta information; and
a renderer (22) configured to transfer the at least one virtual source object (12a-c)
and the modified meta information in which the type or position (P1, P2) of the at least one virtual source object (12a-c) is modified time-varyingly, to
form a multitude of loudspeaker signals (x'(k)),
wherein the modifier (18) is configured to modify the meta information of the at least
one virtual source object (12a-c) such that a virtual position (P1, P2) of the at least one virtual source object (12a-c) is modified from one time instant
to a later time instant and thereby a distance between the virtual position (P1, P2) of the at least one virtual source object (12a-c) relative to a position in a playback
space (16) is altered by at most 25 %, or
wherein the modifier (18) is configured to modify the meta information of the at least
one virtual source object (12a-c) from one time instant to a later time instant such
that, relative to a position (P1, P2) in a playback space (16), an interaural level difference is increased by at most
26 % or decreased by at most 21 %, or
wherein the modifier (18) is configured to modify the meta information of the at least
one virtual source object (12a-c) from one time instant to a later time instant such
that, relative to a position (P1, P2) in a playback space (16), a monaural level difference is increased by at most 26
% or decreased by at most 21 %, or
wherein the modifier (18) is configured to modify the meta information of the at least
one virtual source objet (12a-c) from one time instant to a later time instant such
that, relative to a position (P1, P2) in a playback space (16), an interaural time difference is modified by at most 30
µs, or
wherein the at least one virtual source object (12a-c) is arranged in the front (34a,
34b) relative to a listener (17) in a playback space (16) and the modifier (18) is
configured to modify the meta information of the at least one virtual source object
(12a-c) from one time instant to a later time instant such that a direction of the
at least one virtual source object (12a-c) relative to the listener (17) is altered
by less than 3° (α1), or
wherein the at least one virtual source object (12a-c) is arranged in a lateral direction
(36a, 36b) relative to a listener (17) in a playback space (16) and the modifier (18)
is configured to modify the meta information of the at least one virtual source object
(12a-c) from one time instant to a later time instant such that a direction of the
at least one virtual source object (12a-c) relative to the listener (17) is altered
by less than 10° (α2), or
wherein the modifier (18) is configured to modify the meta information of the at least
one virtual source object (12a-c) at a time interval of at least 10 seconds, or
wherein the modifier (18) is configured to produce an image (12'a) of the at least
one virtual source object (12a), wherein the image at least partly comprises the meta
information of the at least one virtual source object (12a); to time-varyingly modify
the meta information such that the at least one virtual source object (12a) and the
image (12'a) comprise mutually different meta information, and to position the image
(12'a) at a distance (41) of at most 10 meters to the at least one virtual source
object (12a), or
wherein the renderer (22) is additionally configured to add to the loudspeaker signals
(x'(k)) an attenuation or a delay such that a correlation of the loudspeaker signals
(x'(k)) is reduced.
2. The device (10, 30) in accordance with claim 1, further comprising:
a system calculator (28) configured to estimate, based on a plurality of microphone
signals (d(k)) and the multitude of loudspeaker signals (x'(k)), a transmission characteristic (Hest(n)) of a playback space (16) where a plurality of loudspeakers which the multitude
of loudspeaker signals (x'(k)) is determined for and a plurality of microphones which the plurality of microphone
signals (d(k)) originate from may be applied;
wherein the renderer (22) is configured to calculate the multitude of loudspeaker
signals (x'(k)) based on the estimated transmission characteristic (Hest(n)) of the playback space (16).
3. The device (10, 30) in accordance with claim 1 or 2, wherein the renderer (22) is
configured to calculate the multitude of loudspeaker signals (x'(k)) in accordance with the rule of a wave-field synthesis algorithm or a high-order
ambisonic algorithm, or wherein the renderer (22) is configured to calculate at least
10 loudspeaker signals (x'(k)).
4. The device (10, 30) in accordance with any of the preceding claims, wherein the modifier
(18) is configured to modify at least two virtual source objects (12a-c) such that
the meta information of a first virtual source object (12a-c) are modified differently
as regards position or type of the virtual source object (12a-c) compared to the meta
information of a second virtual source object (12a-c); and
wherein the renderer (22) is configured to calculate the multitude of loudspeaker
signals (x'(k)) based on the first modified meta information and the second modified meta information.
5. The device (10, 30) in accordance with any of the preceding claims, wherein the modifier
(18) is additionally configured to produce an image (12'a) of the at least one virtual
source object (12a), wherein the image at least partly comprises the meta information
of the at least one virtual source object (12a); and wherein the modifier is configured
to time-varyingly modify the meta information such that the at least one virtual source
object (12a) and the image (12'a) comprise mutually different meta information.
6. The device (10, 30) in accordance with any of the preceding claims, wherein the modifier
(18) is configured to modify the meta information of the at least one virtual source
object (12a-c) of a playback scene reproduced as regards the position or type of the
at least one virtual source object (12a-c) partly such that the modification of the
playback scene reproduced is not noticeable by a listener (17) in a playback space
(16) or not perceived as being disturbing.
7. A method for generating a multitude of loudspeaker signals
(x'(k)) based on at least one virtual source object (12a-c) which comprises a source
signal and meta information determining the position or type of the at least one virtual
source object (12a-c), comprising:
time-varyingly modifying the meta information; and
transferring the at least one virtual source object (12a-c) and the modified information
in which the type or position of the at least one virtual source object (12a-c) is
modified time-varyingly, to form a multitude of loudspeaker signals (x'(k))
wherein modifying modifies the meta information of the at least one virtual source
object (12a-c) such that a virtual position (P1, P2) of the at least one virtual source object (12a-c) is modified from one time instant
to a later time instant and thereby a distance between the virtual position (P1, P2) of the at least one virtual source object (12a-c) relative to a position in a playback
space (16) is altered by at most 25 %, or
wherein modifying modifies the meta information of the at least one virtual source
object (12a-c) from one time instant to a later time instant such that, relative to
a position (P1, P2) in a playback space (16), an interaural level difference is increased by at most
26 % or decreased by at most 21 %, or
wherein modifying modifies the meta information of the at least one virtual source
object (12a-c) from one time instant to a later time instant such that, relative to
a position (P1, P2) in a playback space (16), a monaural level difference is increased by at most 26
% or decreased by at most 21 %, or
wherein modifying modifies the meta information of the at least one virtual source
object (12a-c) from one time instant to a later time instant such that, relative to
a position (P1, P2) in a playback space (16), an interaural time difference is modified by at most 30
µs, or
wherein the at least one virtual source object (12a-c) is arranged in the front (34a,
34b) relative to a listener (17) in a playback space (16) and modifying modifies the
meta information of the at least one virtual source object (12a-c) from one time instant
to a later time instant such that a direction of the at least one virtual source object
(12a-c) relative to the listener (17) is altered by less than 3° (α1), or
wherein the at least one virtual source object (12a-c) is arranged in a lateral direction
(36a, 36b) relative to a listener (17) in a playback space (16) and modifying modifies
the meta information of the at least one virtual source object (12a-c) from one time
instant to a later time instant such that a direction of the at least one virtual
source object (12a-c) relative to the listener (17) is altered by less than 10° (α2), or
wherein modifying modifies the meta information of the at least one virtual source
object (12a-c) at a time interval of at least 10 seconds, or
wherein modifying produces an image (12'a) of the at least one virtual source object
(12a), wherein the image at least partly comprises the meta information of the at
least one virtual source object (12a); and time-varyingly modifies the meta information
such that the at least one virtual source object (12a) and the image (12'a) comprise
mutually different meta information, and the image (12'a) is positioned at a distance
(41) of at most 10 meters to the at least one virtual source object (12a), or
wherein transferring adds to the loudspeaker signals (x'(k)) an attenuation or a delay such that a correlation of the loudspeaker signals
(x'(k)) is reduced.
8. A computer program comprising a program code for performing the method in accordance
with claim 7 when the program runs on a computer.
1. Dispositif (10, 30) pour générer une pluralité de signaux de haut-parleur (x'(k))
sur base d'au moins un objet de source virtuel (12a à c) présentant un signal de source
et des méta-informations qui déterminent une position (P
1; P
2) ou un type de l'au moins un objet de source virtuel (12a à c), aux caractéristiques
suivantes:
un modificateur (18) qui est conçu pour modifier les méta-informations de manière
variable dans le temps; et
un moyen de rendu (22) qui est conçu pour rendre l'au moins un objet de source virtuel
(12a à c) et les méta-informations modifiées, dans lesquelles le type ou la position
(P1, P2) de l'au moins un objet de source virtuel (12a à c) est modifié de manière variable
dans le temps, en une pluralité de signaux de haut-parleur (x'(k)),
dans lequel le modificateur (18) est conçu pour modifier les méta-informations de
l'au moins un objet de source virtuel (12a à c) de sorte qu'une position virtuelle
(P1, P2) de l'au moins un objet de source virtuel (12a à c) soit modifiée d'un moment à un
moment ultérieur et que de ce fait une distance entre la position virtuelle (P1, P2) de l'au moins un objet de source virtuel (12a à c) par rapport à une position dans
une salle de reproduction (16) soit modifiée de tout au plus 25%, ou
dans lequel le modificateur (18) est conçu pour modifier les méta-informations de
l'au moins un objet de source virtuel (12a à c) d'un moment à un moment ultérieur
de sorte qu'une différence de niveau interaurale par rapport à une position (P1, P2) dans un salle de reproduction (16) soit augmentée de tout au plus 26% ou diminuée
de tout au plus 21%, ou
dans lequel le modificateur (18) est conçu pour modifier les métra-informations de
l'au moins un objet de source virtuel (12a à c) d'un moment à un moment ultérieur
de sorte qu'une différence de niveau monaural par rapport à une position (P1, P2) dans un salle de reproduction (16) soit augmentée de tout au plus 26% ou diminuée
de tout au plus 21%, ou
dans lequel le modificateur (18) est conçu pour modifier les méta-informations de
l'au moins un objet de source virtuel (12a à c) d'un moment à un moment ultérieur
de sorte qu'une différence de temps interaurale par rapport à une position (P1, P2) dans une salle de reproduction (16) soit modifiée de tout au plus 30 µs, ou
dans lequel l'au moins un objet de source virtuel (12a à c) est disposé frontalement
(34a, 34b) par rapport à un auditeur (17) dans une salle de reproduction (16) et le
modificateur (18) est conçu pour modifier les méta-informations de l'au moins un objet
de source virtuel (12a à c) d'un moment à un moment ultérieur de sorte qu'une direction
de l'au moins un objet de source virtuel (12a à c) par rapport à l'auditeur (17) soit
modifiée de moins de 3° (α1), ou
dans lequel l'au moins un objet de source virtuel (12a à c) est disposé dans une direction
latérale (36a, 36b) par rapport à un auditeur (17) dans une salle de reproduction
(16) et le modificateur (18) est conçu pour modifier les méta-informations de l'au
moins un objet source virtuel (12a à c) d'un moment à un moment ultérieur de sorte
qu'une direction de l'au moins un objet de source virtuel (12a à c) par rapport à
l'auditeur (17) soit modifiée de moins de 10° (α2), ou
dans lequel le modificateur (18) est conçu pour modifier les méta-informations de
l'au moins un objet de source virtuel (12a à c) avec une intervalle de temps d'au
moins 10 secondes, ou
dans lequel le modificateur (18) est conçu pour créer une image (12'a) de l'au moins
une objet de source virtuel (12a), où l'image présente au moins partiellement les
méta-informations de l'au moins un objet de source virtuel (12a); pour modifier les
méta-informations de manière variable dans le temps, de sorte que l'au moins un objet
de source virtuel (12a) et l'image (12'a) présentent des méta-informations différentes
l'une de l'autre, et pour positionner l'image (12'a) à une distance (41) de tout au
plus dix mètres par rapport à l'au moins un objet de source virtuel (12a), ou
dans lequel le moyen de rendu (22) est par ailleurs conçu pour ajouter aux signaux
de haut-parleur (x'(k)) une atténuation ou un retard, de sorte qu'une corrélation
entre les signaux de haut-parleur (x'(k)) soit réduite.
2. Dispositif (10, 30) selon la revendication 1, qui présente par ailleurs:
un calculateur de système (28) qui est conçu pour estimer, sur base d'une pluralité
de signaux de microphone (d(k)) et de la pluralité de signaux de haut-parleur (x'(k)),
une caractéristique de rendu (Hest(n)) d'une salle de reproduction (16) dans laquelle peuvent être placés une pluralité
de haut-parleurs auxquels sont destinés la pluralité de signaux de haut-parleur (x'(k))
et une pluralité de microphones desquels proviennent la pluralité de signaux de microphone
(d(k));
dans lequel le moyen de rendu (22) est conçu pour calculer la pluralité de signaux
de haut-parleur (x'(k)) sur base de la caractéristique de rendu estimée (Hest(n)) de la salle de reproduction (16).
3. Dispositif (10, 30) selon la revendication 1 ou 2, dans lequel le moyen de rendu (22)
est conçu pour calculer la pluralité de signaux de haut-parleur (x'(k)) selon la prescription
d'un algorithme de synthèse de champ d'onde ou d'un algorithme ambiophonique d'ordre
supérieur ou dans lequel le moyen de rendu (22) est conçu pour calculer au moins 10
signaux de haut-parleur (x'(k)).
4. Dispositif (10, 30) selon l'une des revendications précédentes, dans lequel le modificateur
(18) est conçu pour modifier au moins deux objets de source virtuels (12a à c) de
sorte que les méta-informations d'un premier objet de source virtuel (12a à c) soient
modifiées de manière différente des méta-informations d'un deuxième objet de source
virtuel (12a à c) quant à la position ou au type de l'objet de source virtuel (12a
à c); et
dans lequel le moyen de rendu (22) est configuré pour calculer la pluralité de signaux
de haut-parleur (x'(k)) sur base des premières méta-informations modifiées et des
deuxièmes méta-informations modifiées.
5. Dispositif (10, 30) selon l'une des revendications précédentes, dans lequel le modificateur
(18) est par ailleurs conçu pour créer une image (12'a) de l'au moins un objet de
source virtuel (12a), où l'image présente au moins en partie les méta-informations
de l'au moins un objet de source virtuel (12a); et dans lequel le modificateur est
conçu pour modifier les méta-informations de manière variable dans le temps de sorte
que l'au moins un objet de source virtuel (12a) et l'image (12'a) présentent des méta-informations
différentes l'une de l'autre.
6. Dispositif (10, 30) selon l'une des revendications précédentes, dans lequel le modificateur
(18) est conçu pour modifier partiellement les méta-informations de l'au moins un
objet de source virtuel (12a à c) d'une scène de reproduction reproduite quant à la
position ou au type de l'au moins un objet de source virtuel (12a à c) de sorte que
la modification de la scène de reproduction reproduite ne puisse pas être notée ou
ne soit pas perçue comme gênante par un auditeur (17) dans une salle de reproduction
(16).
7. Procédé pour générer une pluralité de signaux de haut-parleur (x'(k)) sur base d'au
moins un objet de source virtuel (12a à c) avec un signal de source et des méta-informations
qui déterminent la position ou le type de l'au moins un objet de source virtuel (12a
à c), aux étapes suivantes consistait à:
modifier les méta-informations de manière variable dans le temps; et
rendre l'au moins un objet de source virtuel (12a à c) et les méta-informations modifiées,
dans lesquelles le type ou la position de l'au moins un objet de source virtuel (12a
à c) est modifié de manière variable dans le temps, en une pluralité de signaux de
haut-parleur (x'(k)),
dans lequel la modification modifie les méta-informations de l'au moins un objet de
source virtuel (12a à c) de sorte qu'une position virtuelle (P1, P2) de l'au moins un objet de source virtuel (12a à c) soit modifiée d'un moment à un
moment ultérieur et que de ce fait une distance entre la position virtuelle (P1, P2) de l'au moins un objet de source virtuel (12a à c) par rapport à une position dans
une salle de reproduction (16) soit modifiée de tout au plus 25%, ou
dans lequel la modification modifie les méta-informations de l'au moins un objet de
source virtuel (12a à c) d'un moment à un moment ultérieur de sorte que, par rapport
à une position (P1, P2) dans une salle de reproduction (16), une différence de niveau interauraler soit
augmentée de tout au plus 26% ou soit diminuée de tout au plus 21%, ou
dans lequel la modification modifie les méta-informations de l'au moins un objet de
source virtuel (12a à c) d'un moment à un moment ultérieur de sorte que, par rapport
à une position (P1, P2) dans une salle de reproduction (16), une différence de niveau monaurale soit augmentée
de tout au plus 26% ou diminuée de tout au plus 21%, ou
dans lequel la modification modifie les méta-informations de l'au moins un objet de
source virtuel (12a à c) d'un moment à un moment ultérieur de sorte que, par rapport
à une position (P1, P2) dans une salle de reproduction (16), une différence de temps interaurale soit modifiée
de tout au plus 30 µs, ou
dans lequel l'au moins un objet de source virtuel (12a à c) est disposé frontalement
(34a, 34b) à un auditeur (17) dans une salle de reproduction (16) et la modification
modifie les méta-informations de l'au moins un objet de source virtuel (12a à c) d'un
moment à un moment ultérieur de sorte qu'une direction de l'au moins un objet de source
virtuel (12a à c) par rapport à l'auditeur (17) soit modifiée de moins 3° (α1), ou
dans lequel l'au moins un objet de source virtuel (12a à c) est disposé dans une direction
latérale (36a, 36b) par rapport à un auditeur (17) dans une salle de reproduction
(16) et la modification modifie les méta-informations de l'au moins un objet de source
virtuel (12a à c) d'un moment à un moment ultérieur de sorte qu'une direction de l'au
moins un objet de source virtuel (12a à c) par rapport à l'auditeur (17) soit modifiée
de moins de 10° (α2), ou
dans lequel la modification modifie les méta-informations de l'au moins un objet de
source virtuel (12a à c) avec un intervalle de temps d'au moins 10 secondes, ou
dans lequel la modification crée une image (12'a) de l'au moins un objet de source
virtuel (12a), où l'image présente au moins partiellement les méta-informations de
l'au moins un objet de source virtuel (12a); et modifie les méta-informations de manière
variable dans le temps de sorte que l'au moins un objet de source virtuel (12a) et
l'image (12'a) présentent des méta-informations différentes l'une de l'autre, et que
l'image (12'a) soit positionnée à une distance (41) de tout au plus dix mètres par
rapport à l'au moins un objet de source virtuel (12a), ou
dans lequel le rendu des signaux de haut-parleur (x'(k)) ajoute une atténuation ou
un retard, de sorte qu'une corrélation entre les signaux de haut-parleur (x'(k)) soit
réduite.
8. Programme d'ordinateur avec un code de programme pour réaliser le procédé selon la
revendication 7 lorsque le programme est exécuté sur un ordinateur.