[0001] Ausführungsbeispiele der vorliegenden Erfindung befassen sich mit einer Vorrichtung,
einem Verfahren und einem Computerprogramm zum Bereitstellen eines Tonsignals, das
auf zumindest zwei Quellsignalen basiert, die von Mikrofonen, die innerhalb eines
Raumes oder einer akustischen Szene angeordnet sind, aufgezeichnet werden.
[0002] Komplexere Aufnahmen bzw. akustische Szenen werden üblicherweise unter der Verwendung
von Audiomischpulten aufgezeichnet, insoweit es die Aufzeichnung der Tonsignale betrifft.
Als akustische Szene soll dabei jedwede Schallzusammensetzung bzw. jedwedes Schallsignal
verstanden werden. Um der Tatsache Rechnung zu tragen, dass das bei einem Hörer bzw.
an eine Abhörposition empfangene akustische Signal bzw. Schall- oder Audiosignal typischerweise
von einer Vielzahl von unterschiedlichen Quellen herrührt, wird hierin der Begriff
akustische Szene verwendet, wobei eine akustische Szene in dem hierin genannten Sinne
selbstverständlich auch von lediglich einer einzigen Schallquelle erzeugt werden kann.
Den Charakter einer solchen akustischen Szene bestimmt jedoch nicht nur die Anzahl
bzw. die Verteilung der diese erzeugenden Schallquellen in einem Raum, sondern auch
die Form bzw. Geometrie des Raumes selbst. Beispielsweise werden in geschlossenen
Räumen als ein Anteil der Raumakustik den einen Zuhörer direkt von der Schallquelle
erreichenden Schallanteilen durch die Begrenzungswände verursachte Reflexionen überlagert,
die vereinfachend als unter Anderem zeitlich verzögerte und abgeschwächten Kopie der
direkten Schallanteile verstanden werden können.
[0003] In solchen Umgebungen wird zur Produktion von Audiomaterial oft ein Audiomischpult
verwendet, das eine Vielzahl von Kanälen bzw. Eingängen aufweist, die jeweils einem
von vielen Mikrofonen zugeordnet sind, die wiederum innerhalb der akustischen Szene,
beispielsweise innerhalb eines Konzertsaals oder dergleichen, angeordnet sind. Die
einzelnen Audio- bzw. Quellsignale können dabei sowohl analog als auch digital vorliegen,
beispielsweise als eine Serie von digitalen Samplewerten, wobei die Samplewerte zeitlich
äquidistant sind und jeweils zu einer Amplitude des gesampelten Audiosignales korrespondieren.
Je nach verwendetem Audiosignal kann ein solches Mischpult daher beispielsweise als
dedizierte Hardware oder als Softwarekomponente auf einem PC bzw. einer programmierbaren
CPU implementiert sein, sofern die Audiosignale digital vorliegen. Elektrische Tonsignale,
die mit solchen Audiomischpulten verarbeitet werden können, können außer von Mikrofonen
auch von anderen Zuspielern, beispielsweise von Instrumenten und Effektgeräten oder
dergleichen herrühren. Jedes Einzeltonsignal bzw. jedes zu verarbeitende Audiosignal
kann dabei einem separaten Kanalzug am Mischpult zugeordnet werden, wobei ein Kanalzug
mehrere Funktionalitäten zur klanglichen Veränderung des assoziierten Audiosignals
bereitstellen kann, beispielsweise eine Veränderung der Lautstärke, eine Filterung,
eine Mischung mit anderen Kanalzügen, eine Verteilung bzw. ein Splitten des betreffenden
Kanals oder dergleichen.
[0004] Bei der Aufnahme von komplexen Audioszenen, beispielsweise von Konzertmitschnitten,
ist es häufig die Aufgabe, das Tonsignal bzw. die abgemischte Aufnahme so zu erzeugen,
dass für einen Hörer beim Abhören der Aufnahme ein möglichst originalgetreuer Klangeindruck
entsteht. Dabei muss diese sogenannte Abmischung der ursprünglich aufgenommenen Mikrofon-
bzw. Quellsignale für unterschiedliche Wiedergabekonfigurationen möglicherweise unterschiedlich
erfolgen, beispielsweise für unterschiedliche Anzahlen an Ausgangs-Kanälen bzw. Lautsprechern.
Beispiele hierfür wären eine Stereo-Konfiguration und Mehrkanalkonfigurationen wie
beispielsweise 4.0, 5.1 oder dergleichen. Um eine solche räumliche Tonmischung bzw.
Abmischung erstellen zu können, wird bislang für jede Schallquelle bzw. für jedes
Mikrofon- bzw. Quellsignal die Lautstärke am jeweiligen Kanalzug so eingestellt, dass
für die gewünschte Abhörkonfiguration die vom Tonmeister gewünschte Räumlichkeit entsteht.
Dies wird überwiegend dadurch erreicht, dass durch sogenannte Panning-Algorithmen
die Lautstärke zwischen mehreren Wiedergabekanälen bzw. Lautsprechern so verteilt
wird, dass eine Phantomschallquelle zwischen den Lautsprechern entsteht, um einen
räumlichen Eindruck zu erzielen. Das bedeutet, beim Zuhörer entsteht auf Grund der
unterschiedlichen Lautstärken für die einzelnen Wiedergabekanäle beispielsweise der
Eindruck, das wiedergegebene Objekt befinde sich räumlich zwischen den Lautsprechern.
Um dies zu ermöglichen muss bislang jeder Kanal basierend auf der realen Position
des aufzeichnenden Mikrofons innerhalb der akustischen Szene von Hand justiert und
mit einer teilweise erheblichen Anzahl weiterer Mikrofone abgeglichen werden.
[0005] Noch komplizierter und zeit- bzw. kostenaufwendiger werden derartige Tonmischungen,
wenn beim Zuhörer der Eindruck entstehen soll, die aufgezeichnete Schallquelle bewege
sich. Dann muss für jede der zeitlich veränderlichen räumlichen Konfigurationen bzw.
für jeden Zeitschritt innerhalb der Bewegung einer Schallquelle die Lautstärke für
alle beteiligten Kanalzüge von Hand nachjustiert werden, was nicht nur äußerst aufwändig,
sondern auch fehleranfällig ist.
[0006] In manchen Szenarien, beispielsweise bei der Aufnahme eines Symphonieorchesters,
wird eine hohe Anzahl von Mikrofon- bzw. Quellsignalen von beispielsweise über 100
gleichzeitig aufgenommen und möglicherweise in Echtzeit zu einer Tonmischung verarbeitet.
Um eine solche räumliche Abmischung zu erzielen, muss bislang der Bediener bzw. Tonmeister
an einem herkömmlichen Mischpult zumindest im Vorfeld der eigentlichen Aufnahme die
räumliche Beziehung zwischen den einzelnen Mikrofon- bzw. Quellsignalen dadurch erzeugen,
das dieser zunächst die Positionen der Mikrofone und deren Zuordnung zu den einzelnen
Kanalzügen von Hand notiert, um die Lautstärken und möglicherweise andere Parameter
wie beispielsweise eine Verteilung von Lautstärken für mehrere Kanäle oder Hall (Pan
und Hall) der einzelnen Kanalzüge so zu regeln, dass die Tonmischung an der gewünschten
Abhörposition bzw. für eine gewünschte Lautsprecheranordnung den angestrebten räumlichen
Effekt erzielt. Bei einem Symphonieorchester mit mehr als 100 Instrumenten, von denen
jedes als direktes Quellsignal separat aufgezeichnet wird, kann dies eine nahezu unlösbare
Aufgabe darstellen. Um auch nach der Aufnahme eine der Realität vergleichbare räumliche
Anordnung der aufgezeichneten Quellsignale der Mikrofone im Mischpult nachzubilden,
wurden bisher die Positionen der Mikrofone von Hand skizziert oder deren Positionen
nummeriert um dann durch eine Lautstärkeeinstellung aller Einzelkanalzüge die räumliche
Tonmischung in einer aufwändigen Prozedur nachbilden zu können. Bei einer sehr großen
Anzahl von aufzunehmenden Mikrofonsignalen stellt jedoch nicht allein das nachfolgende
Abmischen einer erfolgreichen Aufnahme eine große Herausforderung dar.
[0007] Vielmehr ist es bei einer großen Anzahl von aufzuzeichnenden Quellsignalen schon
eine schwer zu lösende Aufgabe, sicherzustellen, dass sämtliche Mikrofonsignale störungsfrei
am Mischpult bzw. an einer zur Tonmischung verwendeten Software angeliefert werden.
Dies muss bislang überprüft werden, indem der Tonmeister bzw. ein Bediener eines Mischpultes
alle Kanalzüge getrennt durchhört bzw. überprüft, was sehr zeitaufwendig ist und im
Falle des Auftretens eines Störsignals, dessen Ursprung nicht sofort lokalisiert werden
kann, eine zeitaufwendige Fehlersuche zur Folge hat. Beim Durchhören bzw. An- und
Ausschalten von einzelnen Kanälen bzw. Quellsignalen muss darüber hinaus genau darauf
geachtet werden, dass die zusätzlichen Aufzeichnungen, die das Mikrofonsignal und
die Position derselben während der Aufzeichnung mit dem Kanal des Mischpults assoziierten,
fehlerfrei sind. Allein diese Kontrolle kann bei großen Aufnahmen mehrere Stunden
in Anspruch nehmen, wobei darüber hinaus Fehler, die bei der komplexen Kontrolle gemacht
werden, im Nachhinein schwer oder überhaupt nicht mehr zu kompensieren sind, nachdem
die Aufnahme abgeschlossen ist.
[0008] Es besteht also die Notwendigkeit, bei der Aufnahme von akustischen Szenen mittels
zumindest zwei Mikrofonen ein Konzept bereitzustellen, das das Anfertigen und/oder
das Abmischen der Aufzeichnung effizienter und mit geringerer Fehleranfälligkeit ermöglichen
kann.
[0009] Diese Aufgabe wird durch ein Mischpult, einen Tonsignalerzeuger, ein Verfahren und
ein Computerprogramm jeweils mit den Merkmalen der unabhängigen Patentansprüche gelöst.
Vorteilhafte Ausgestaltungen und Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
[0010] Einige Ausführungsbeispiele der vorliegenden Erfindung ermöglichen dies insbesondere
durch Verwendung eines Tonsignalerzeugers zum Bereitstellen eines Tonsignals für eine
virtuelle Abhörposition innerhalb eines Raumes, in dem eine akustische Szene von zumindest
einem ersten Mikrofon an einer ersten bekannten Position innerhalb des Raumes als
ein erstes Quellsignal und von zumindest einem zweiten Mikrofon an einer zweiten bekannten
Position innerhalb des Raumes als ein zweites Quellsignal aufgezeichnet wird. Um dies
zu ermöglichen, weist der Tonsignalerzeuger eine Eingangsschnittstelle auf, um die
von dem ersten Mikrofon und von dem zweiten Mikrofon aufgenommenen ersten und zweiten
Quellsignale zu empfangen. Ein Geometrieprozessor innerhalb des Tonsignalerzeugers
ist ausgebildet, um basierend auf der ersten Position und der virtuellen Abhörposition
eine einen ersten Abstand zwischen der ersten bekannten Position und der virtuellen
Abhörposition (202) umfassende erste Geometrieinformation und um basierend auf der
zweiten Position und der virtuellen Abhörposition eine einen zweiten Abstand zwischen
der zweiten bekannten Position und der virtuellen Abhörposition (202) umfassende zweite
Geometrieinformation zu bestimmen, sodass diese von einem Signalerzeuger, der zum
Bereitstellen des Tonsignales dient, berücksichtigt werden können. Dazu ist der Signalerzeuger
ausgebildet, zumindest das erste Quellsignal und das zweite Quellsignal gemäß einer
Kombinationsregel zu kombinieren, um das Tonsignal zu erhalten. Dabei erfolgt gemäß
den Ausführungsbeispielen der vorliegenden Erfindung die Kombination unter Verwendung
der ersten Geometrieinformation und der zweiten Geometrieinformation. Das heißt, gemäß
den Ausführungsbeispielen der vorliegenden Erfindung kann für eine virtuelle Abhörposition,
an der sich in der abzumischenden bzw. aufzuzeichnenden akustischen Szene kein reales
Mikrofon befinden muss, aus zwei Quellsignalen, die mittels realer Mikrofone aufgezeichnet
werden, ein Tonsignal erzeugt werden, das der räumlichen Wahrnehmung am Ort der virtuellen
Abhörposition entsprechen oder ähneln kann. Dies kann beispielsweise insbesondere
dadurch erreicht werden, dass Geometrieinformationen, die beispielsweise die Relativposition
zwischen den Positionen der realen Mikrofone und der virtuellen Abhörposition angeben,
direkt bei der Bereitstellung bzw. Erzeugung des Tonsignals für die virtuelle Abhörposition
verwendet werden. Dies kann daher ohne aufwendige Berechnungen möglich sein, sodass
die Bereitstellung des Tonsignals in Echtzeit oder näherungsweise in Echtzeit erfolgen
kann.
[0011] Das direkte Verwenden von Geometrieinformationen zum Erzeugen eines Tonsignals für
eine virtuelle Abhörposition kann es ferner ermöglichen, durch einfaches Verschieben
bzw. Verändern der Position bzw. der Koordinaten der virtuellen Abhörposition eine
Tonmischung zu erstellen, ohne dass die möglicherweise große Anzahl von Quellsignalen
individuell und manuell angepasst werden müsste. Das Erstellen einer individuellen
Tonmischung kann beispielsweise auch eine effiziente Kontrolle des Setups vor der
eigentlichen Aufzeichnung ermöglichen, wobei beispielsweise die Aufnahmequalität bzw.
die Anordnung der realen Mikrofone in der Szene dadurch kontrolliert werden kann,
dass die virtuelle Abhörposition innerhalb der akustischen Szene bzw. innerhalb des
akustischen Raumes frei bewegt wird, sodass ein Toningenieur unmittelbar ein automatisches
akustisches Feedback erhalten kann, ob die einzelnen Mikrofone korrekt verkabelt sind
bzw. ob diese ordnungsgemäß funktionieren. Beispielsweise kann so die Funktionalität
jedes einzelnen Mikrofones überprüft werden, ohne dass sämtliche der anderen Mikrofone
ausgeblendet werden müssten, wenn die virtuelle Abhörposition nahe an die Position
eines der realen Mikrofone herangeführt wird, sodass dessen Anteil am bereitgestellten
Tonsignal dominiert. Dies wiederum ermöglicht eine Kontrolle des von dem betreffenden
Mikrofon aufgezeichneten Quell- bzw. Audiosignals.
[0012] Ferner können es Ausführungsbeispiele der Erfindung eventuell ermöglichen, sogar
beim Auftreten eines Fehlers während einer Liveaufnahme durch schnelles Identifizieren
des Fehlers so schnell eingreifen und den Fehler beheben zu können, beispielsweise
durch den Tausch eines Mikrofons oder eines Kabels, dass wenigstens große Teile des
Konzerts noch fehlerfrei mitgeschnitten werden können.
[0013] Ferner ist es gemäß den Ausführungsbeispielen der vorliegenden Erfindung möglicherweise
nicht mehr erforderlich, die Position einer Vielzahl von Mikrofonen, die zur Aufnahme
einer akustischen Szene verwendet werden, unabhängig von den Quellsignalen aufzuzeichnen
bzw. zu skizzieren, um im Nachhinein die räumliche Anordnung der aufzeichnenden Mikrofone
bei der Abmischung des die akustische Szene repräsentierenden Signals nachzubilden.
Vielmehr können gemäß einigen Ausführungsbeispielen die vorbekannten Positionen der
die Quellsignale aufzeichnenden Mikrofone innerhalb des akustischen Raumes als Steuerparameter
bzw. Eigenschaft von einzelnen Kanalzügen in einem Audiomischpult direkt berücksichtigt
und zusammen mit dem Quellsignal konserviert bzw. aufgezeichnet werden.
[0014] Einige Ausführungsbeispiele der vorliegenden Erfindung sind ein Mischpult zum Verarbeiten
zumindest eines ersten und eines zweiten Quellsignals und zum Bereitstellen eines
abgemischten Tonsignals, wobei das Mischpult einen Tonsignalerzeuger zum Bereitstellen
eines Tonsignales für eine virtuelle Abhörposition innerhalb eines Raumes, in dem
eine akustische Szene von zumindest einem ersten Mikrofon an einer ersten bekannten
Position innerhalb des Raumes als das erstes Quellsignal und von zumindest einem zweiten
Mikrofon an einer zweiten bekannten Position innerhalb des Raumes als das zweite Quellsignal
aufgezeichnet wird, wobei der Tonsignalerzeuger umfasst: eine Eingangsschnittstelle,
die ausgebildet ist, um das von dem ersten Mikrofon aufgenommene erste Quellsignal
und das von dem zweiten Mikrofon aufgenommene zweite Quellsignal zu empfangen; einem
Geometrieprozessor, der ausgebildet ist, um basierend auf der ersten Position und
der virtuellen Abhörposition eine erste Geometrieinformation und um basierend auf
der zweiten Position und der virtuellen Abhörposition eine zweite Geometrieinformation
zu bestimmen; und einem Signalerzeuger zum Bereitstellen des Tonsignales, wobei der
Signalerzeuger ausgebildet ist, zumindest das erste Quellsignal und das zweite Quellsignal
gemäß einer die erste Geometrieinformation und die zweite Geometrieinformation verwendenden
Kombinationsregel zu kombinieren. Dies kann es einem Bediener eines Mischpultes ermöglichen,
eine Kontrolle beispielsweise der Mikrofonverkabelung vor einer Aufnahme einfach,
effizient und ohne hohe Fehlerwahrscheinlichkeit durchzuführen.
[0015] Gemäß einigen Ausführungsbeispielen weist das Mischpult ferner eine Benutzerschnittstelle
auf, die ausgebildet ist, um eine grafische Repräsentation der Positionen einer Mehrzahl
von Mikrofonen sowie eine oder mehrere virtuelle Abhörposition anzuzeigen. Das heißt,
einige Ausführungsbeispiele von Mischpulten erlauben es darüber hinaus, ein Abbild
der geometrischen Verhältnisse bei der Aufzeichnung der akustischen Szene grafisch
darzustellen, was einem Toningenieur auf einfache und intuitive Art und Weise ermöglichen
kann, eine räumliche Abmischung zu erstellen bzw. ein Mikrofon-Setup zur Aufnahme
einer komplexen akustischen Szene zu kontrollieren oder aufzubauen bzw. zu justieren.
[0016] Gemäß einigen weiteren Ausführungsbeispielen umfasst ein Mischpult zusätzlich eine
Eingabeeinrichtung, die ausgebildet ist, um zumindest die virtuelle Abhörposition
einzugeben bzw. zu verändern, insbesondere durch direkte Interaktion bzw. Beeinflussung
der grafischen Repräsentation der virtuellen Abhörposition. Dies ermöglicht es auf
besonders intuitive Art und Weise, eine Kontrolle einzelner Abhörpositionen bzw. von
mit diesen Positionen assoziierten Mikrofonen durchzuführen, indem beispielsweise
die virtuelle Abhörposition innerhalb der akustischen Szene bzw. des akustischen Raumes
mit der Maus oder mittels des Fingers und eines berührungsempfindlichen Bildschirmes
(Touchscreen) an den gerade interessierenden Ort verschoben werden kann.
[0017] Einige weitere Ausführungsbeispiele von Mischpulten erlauben es darüber hinaus, über
die Eingabeschnittstelle jedes der Mikrofone als zu einem bestimmten von mehreren
unterschiedlichen Mikrofon-Typen gehörend zu charakterisieren. Insbesondere kann ein
Mikrofon-Typ zu Mikrofonen korrespondieren, die aufgrund ihrer geometrischen Relativposition
bezüglich den Objekten bzw. Schallquellen der aufzunehmenden akustischen Szene überwiegend
einen direkten Schallanteil aufzeichnen. Ein zweiter Mikrofontyp kann aus demselben
Grund primär einen diffusen Schallanteil aufnehmende Mikrofone kennzeichnen. Die Möglichkeit
der Zuordnung der einzelnen Mikrofone zu unterschiedlichen Typen kann dazu beispielsweise
dazu dienen, die Quellsignale, die von den unterschiedlichen Typen aufgezeichnet werden,
mit sich jeweils unterscheidenden Kombinationsregeln miteinander zu kombinieren, um
das Tonsignal für die virtuelle Abhörposition zu erhalten.
[0018] Dies kann gemäß einigen Ausführungsbeispielen insbesondere dafür verwendet werden,
unterschiedliche Kombinations- bzw. Superpositionsregeln für Mikrofone, die überwiegend
diffusen Schall aufzeichnen und für solche Mikrofone, die überwiegend Direktschall
aufzeichnen, zu verwenden, um zu einem natürlichen Klangeindruck bzw. zu einem Signal
zu gelangen, das für die gegebene Anforderung vorteilhafte Eigenschaften aufweist.
Gemäß einigen Ausführungsbeispielen, bei denen das Tonsignal unter Bilden einer gewichteten
Summe von zumindest einem ersten und einem zweiten Quellsignal erzeugt wird, werden
beispielsweise die Gewichte für die unterschiedlichen Mikrofontypen unterschiedlich
bestimmt. Beispielsweise kann so bei Mikrofonen, die überwiegend Direktschall aufzeichnen,
ein der Realität entsprechender Abfall der Lautstärke mit zunehmendem Abstand von
dem Mikrofon über einen geeignet gewählten Gewichtsfaktor implementiert werden. Gemäß
einigen Ausführungsbeispielen ist das Gewicht proportional zu dem Inversen einer Potenz
des Abstands des Mikrofons zu der virtuellen Abhörposition. Gemäß einigen Ausführungsbeispielen
ist das Gewicht proportional zu dem Inversen des Abstands, was zu der Schallausbreitung
einer idealisierten punktförmigen Schallquelle korrespondiert. Gemäß einigen Ausführungsbeispielen
sind für Mikrofone, die dem ersten Mikrofon-Typ, also der Aufzeichnung von Direktschall,
zugeordnet sind, die Gewichtsfaktoren proportional zu dem mit einem Nahfeldradius
multiplizierten Inversen des Abstands des Mikrofons zu der virtuellen Abhörposition.
Dies kann zu einer verbesserten Wahrnehmung des Tonsignales führen, indem der angenommene
Einfluss eines Nahfeldradius berücksichtigt wird, innerhalb dessen eine konstante
Lautstärke des Quellsignals angenommen wird.
[0019] Gemäß einigen Ausführungsbeispielen der Erfindung wird auch für Mikrofone, die einem
zweiten Mikrofon-Typ zugeordnet sind und mittels denen überwiegend diffuse Schallanteile
aufgezeichnet werden, das Tonsignal aus den aufgenommenen Quellsignalen x
1 und x
2 mittels Bilden einer gewichteten Summe erzeugt, wobei die Gewichte g
1 und g
2 von den Relativpositionen der Mikrofone abhängen und gleichzeitig eine zusätzliche
Randbedingung erfüllen. Insbesondere ist gemäß einigen Ausführungsbeispielen der vorliegenden
Erfindung die Summe der Gewichte G = g
1 + g
2 oder eine quadratische Summe der Gewichte G2 = g
12 + g
22 konstant und insbesondere eins. Dies kann zu einer Kombination der Quellsignale führen,
bei der eine Lautstärke des erzeugten Tonsignals für unterschiedliche Relativpositionen
zwischen den Mikrofonen zumindest näherungsweise einer Lautstärke eines jeden der
Quellsignale entspricht, was wiederum zu einer guten Wahrnehmungsqualität des erzeugten
Tonsignales führen kann, da die diffusen Signalanteile innerhalb eines akustischen
Raumes näherungsweise identische Lautstärke aufweisen.
[0020] Gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung wird aus den Quellsignalen
zunächst mittels zweier gewichteter Summen mit unterschiedlichen Gewichten ein erstes
Zwischensignal und ein zweites Zwischensignal gebildet. Aus dem ersten und zweiten
Zwischensignal wird dann mittels einer weiteren gewichteten Summe das Tonsignal bestimmt,
wobei die Gewichte von einem Korrelations-Koeffizienten zwischen dem ersten und dem
zweiten Quellsignal abhängig sind. Dies kann es ermöglichen, abhängig von der Ähnlichkeit
der beiden aufgezeichneten Quellsignale Kombinationsregeln bzw. Panning-Verfahren
derart gewichtet miteinander zu kombinieren, dass Lautstärkeüberhöhungen, wie sie
abhängig vom gewählten Verfahren und den zu kombinierenden Signalen prinzipiell auftreten
können, weiter verringert werden. Dies kann möglicherweise dazu führen, dass eine
Gesamtlautstärke des erzeugten Tonsignals unabhängig von den kombinierten Signalformen
näherungsweise konstant bleibt, sodass der vermittelte räumliche Eindruck auch weitestgehend
ohne ein a-priori Wissen über das Quellsignal dem Gewünschten entspricht.
[0021] Gemäß einigen weiteren Ausführungsbeispielen werden in Bereichen, in denen die virtuelle
Abhörposition von drei jeweils ein Quellsignal aufzeichnenden Mikrofonen umgeben ist,
die Tonsignale, insbesondere, was deren diffuse Schallanteile angeht, unter Verwendung
der drei Quellsignale gebildet. Das Bereitstellen des Tonsignals umfasst dabei das
Erzeugen einer gewichteten Summe der drei aufgezeichneten Quellsignale. Die den Quellsignalen
zugeordneten Mikrofone bilden ein Dreieck, wobei die Gewichte für ein Quellsignal
basierend auf einer senkrechten Projektion der virtuellen Abhörposition auf diejenige
Höhe des Dreiecks, die durch die Position des betreffenden Mikrofone verläuft, bestimmt
werden. Dabei können unterschiedliche Verfahren zum Bestimmen der Gewichte verwenden
werden. Dennoch kann die Lautstärke näherungsweise unverändert bleiben, auch wenn
drei statt nur zwei Quellsignale kombiniert werden, was zu einer klanglich realistischeren
Wiedergabe des Schallfeldes an der virtuellen Abhörposition beitragen kann.
[0022] Gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung werden entweder das
erste oder das zweite Quellsignal vor der Kombination der beiden Quellsignale um eine
Verzögerungszeit verzögert, wenn ein Vergleich der ersten Geometrieinformation und
der zweiten Geometrieinformation ein vorbestimmtes Kriterium erfüllt, insbesondere
wenn die beiden Abstände weniger als einen zulässigen Minimalabstand voneinander abweichen.
Dies kann es ermöglichen, die Tonsignale zu erzeugen, ohne dass Klangverfärbungen
entstehen, die möglicherweise durch die Superposition eines Signals, das in geringem
räumlichen Abstand zueinander aufgezeichnet wurde, erzeugt werden könnten. Gemäß einigen
Ausführungsbeispielen wird insbesondere auf effiziente Art und Weise jedes der verwendeten
Quellsignale derart verzögert, dass seine Laufzeit bzw. Latenz der maximalen Signallaufzeit
vom Ort aller beteiligten Mikrofone zur virtuellen Abhörposition entspricht, sodass
destruktive Interferenzen ähnlicher oder identischer Signale durch eine erzwungene
identische Signallaufzeit vermieden werden können.
[0023] Gemäß einigen weiteren Ausführungsbeispielen werden bei der Superposition bzw. gewichteten
Summation der Quellsignale ferner Richtungsabhängigkeiten berücksichtigt, das heißt,
der virtuellen Abhörposition kann eine Vorzugsrichtung und eine bezüglich der Vorzugsrichtung
angegebene Richtcharakteristik zugeordnet werden. Dies kann es ermöglichen, beim Erzeugen
des Tonsignals eine realitätsnahe Wirkung zu erzielen, indem zusätzlich eine bekannte
Richtcharakteristik, beispielsweise eines realen Mikrofons oder des menschlichen Gehörs
berücksichtigt wird.
[0024] Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf
die beiliegenden Figuren näher erläutert. Es zeigen:
- Figur 1:
- Ein Ausführungsbeispiel eines Tonsignalerzeugers;
- Figur 2:
- Eine Illustration einer akustischen Szene, deren Quellsignale mit Ausführungsbeispielen
von Tonsignalerzeugern verarbeitet werden;
- Figur 3:
- Ein Beispiel für eine Kombinationsregel zum Erzeugen eines Tonsignals gemäß einigen
Ausführungsbeispielen der Erfindung;
- Figur 4:
- Eine Illustration zur Verdeutlichung eines weiteren Beispiels einer möglichen Kombinationsregel;
- Figur 5:
- Eine grafische Illustration einer Kombinationsregel zur Verwendung mit drei Quellsignalen;
- Figur 6:
- Eine Illustration einer weiteren Kombinationsregel;
- Figur 7:
- Eine Illustration einer richtungsabhängigen Kombinationsregel;
- Figur 8:
- Eine schematische Darstellung eines Ausführungsbeispiels eines Mischpults;
- Figur 9:
- Eine schematische Darstellung eines Ausführungsbeispiels eines Verfahrens zum Erzeugen
eines Tonsignals; und
- Figur 10:
- Eine schematische Darstellung eines Ausführungsbeispiels einer Benutzerschnittstelle.
[0025] Verschiedene Ausführungsbeispiele werden nun ausführlicher unter Bezugnahme auf die
beiliegenden Zeichnungen beschrieben, in denen einige Ausführungsbeispiele dargestellt
sind. In den Figuren können die Dickenabmessungen von Linien, Schichten und/oder Regionen
um der Deutlichkeit Willen übertrieben dargestellt sein.
[0026] Bei der nachfolgenden Beschreibung der beigefügten Figuren, die lediglich einige
exemplarische Ausführungsbeispiele zeigen, können gleiche Bezugszeichen gleiche oder
vergleichbare Komponenten bezeichnen. Ferner können zusammenfassende Bezugszeichen
für Komponenten und Objekte verwendet werden, die mehrfach in einem Ausführungsbeispiel
oder in einer Zeichnung auftreten, jedoch hinsichtlich eines oder mehrerer Merkmale
gemeinsam beschrieben werden. Komponenten oder Objekte, die mit gleichen oder zusammenfassenden
Bezugszeichen beschrieben werden, können hinsichtlich einzelner, mehrerer oder aller
Merkmale, beispielsweise ihrer Dimensionierungen, gleich, jedoch gegebenenfalls auch
unterschiedlich ausgeführt sein, sofern sich aus der Beschreibung nicht etwas anderes
explizit oder implizit ergibt.
[0027] Obwohl Ausführungsbeispiele auf verschiedene Weise modifiziert und abgeändert werden
können, sind Ausführungsbeispiele in den Figuren als Beispiele dargestellt und werden
hierin ausführlich beschrieben. Es sei jedoch klargestellt, dass nicht beabsichtigt
ist, Ausführungsbeispiele auf die jeweils offenbarten Formen zu beschränken, sondern
dass Ausführungsbeispiele vielmehr sämtliche funktionale und/oder strukturelle Modifikationen,
Äquivalente und Alternativen, die im Bereich der Erfindung liegen, abdecken sollen.
Gleiche Bezugszeichen bezeichnen in der gesamten Figurenbeschreibung gleiche oder
ähnliche Elemente.
[0028] Man beachte, dass ein Element, das als mit einem anderen Element "verbunden" oder
"verkoppelt" bezeichnet wird, mit dem anderen Element direkt verbunden oder verkoppelt
sein kann oder dass dazwischenliegende Elemente vorhanden sein können. Wenn ein Element
dagegen als "direkt verbunden" oder "direkt verkoppelt" mit einem anderen Element
bezeichnet wird, sind keine dazwischenliegenden Elemente vorhanden. Andere Begriffe,
die verwendet werden, um die Beziehung zwischen Elementen zu beschreiben, sollten
auf ähnliche Weise interpretiert werden (z.B., "zwischen" gegenüber "direkt dazwischen",
"angrenzend" gegenüber "direkt angrenzend" usw.).
[0029] Die Terminologie, die hierin verwendet wird, dient nur der Beschreibung bestimmter
Ausführungsbeispiele und soll die Ausführungsbeispiele nicht beschränken. Wie hierin
verwendet, sollen die Singularformen "einer," "eine", "eines" und "der, die, das"
auch die Pluralformen beinhalten, solange der Kontext nicht eindeutig etwas anderes
angibt. Ferner sei klargestellt, dass die Ausdrücke wie z.B. "beinhaltet", "beinhaltend",
aufweist" und/oder "aufweisend", wie hierin verwendet, das Vorhandensein von genannten
Merkmalen, ganzen Zahlen, Schritten, Arbeitsabläufen, Elementen und/oder Komponenten
angeben, aber das Vorhandensein oder die Hinzufügung von einem bzw. einer oder mehreren
Merkmalen, ganzen Zahlen, Schritten, Arbeitsabläufen, Elementen, Komponenten und/oder
Gruppen davon nicht ausschließen.
[0030] Solange nichts anderes definiert ist, haben sämtliche hierin verwendeten Begriffe
(einschließlich von technischen und wissenschaftlichen Begriffen) die gleiche Bedeutung,
die ihnen ein Durchschnittsfachmann auf dem Gebiet, zu dem die Ausführungsbeispiele
gehören, beimisst. Ferner sei klargestellt, dass Ausdrücke, z.B. diejenigen, die in
allgemein verwendeten Wörterbüchern definiert sind, so zu interpretieren sind, als
hätten sie die Bedeutung, die mit ihrer Bedeutung im Kontext der einschlägigen Technik
konsistent ist, und nicht in einem idealisierten oder übermäßig formalen Sinn zu interpretieren
sind, solange dies hierin nicht ausdrücklich definiert ist.
[0031] Figur1 zeigt in schematischer Darstellung ein Ausführungsbeispiel eines Tonsignalerzeugers
100, der eine Eingangsschnittstelle 102, einen Geometrieprozessor 104 und einen Signalerzeuger
106 umfasst. Der Tonsignalerzeuger 100 dient zum Bereitstellen eines Tonsignals für
eine virtuelle Abhörposition 202 innerhalb eines Raumes 200, der in Figur 1 lediglich
schematisch angedeutet ist. In dem Raum 200 wird mittels zumindest eines ersten Mikrofons
204 und eines zweiten Mikrofons 206 eine akustische Szene aufgezeichnet. Die Quelle
208 der akustischen Szene ist hier lediglich schematisch als ein Gebiet innerhalb
des Raumes 200 dargestellt, innerhalb dessen eine Mehrzahl von Schallquellen angeordnet
sind bzw. sein können, die zu einem als akustische Szene bezeichneten Schallfeld innerhalb
des Raumes 200 führen, welches wiederum mittels der Mikrofone 204 und 206 aufgezeichnet
wird.
[0032] Die Eingangsschnittstelle 102 ist ausgebildet, um ein von dem ersten Mikrofon 204
aufgenommenes erstes Quellsignal 210 und ein von dem zweiten Mikrofon 206 aufgenommenes
zweites Quellsignal 212 zu empfangen. Dabei können das erste und das zweite Quellsignal
210 und 212 sowohl analoge als auch digitale Signale sein, die sowohl kodiert als
auch unkodiert von den Mikrofonen übermittelt werden können. Das heißt, gemäß einiger
Ausführungsbeispiele können die Quellsignale 210 und 212 bereits gemäß einem Kompressionsverfahren,
wie beispielsweise dem Advanced Audio Codec (AAC), MPEG 1, Layer 3 (MP3) oder dergleichen
kodiert bzw. komprimiert sein.
[0033] Das erste und das zweite Mikrofon 204 und 206 befinden sich an vorbekannten Positionen
innerhalb des Raumes 200, die auch dem Geometrieprozessor 104 bekannt sind. Der Geometrieprozessor
104 kennt darüber hinaus die Position bzw. die Koordinaten der virtuellen Abhörposition
202 und ist ausgebildet, aus der ersten Position des ersten Mikrofons 204 und der
virtuellen Abhörposition 202 eine erste Geometrieinformation 110 zu bestimmen. Der
Geometrieprozessor 104 ist ferner ausgebildet, um aus der zweiten Position und der
virtuellen Abhörposition 202 eine zweite Geometrieinformation 112 zu bestimmen.
[0034] Ein Beispiel für eine derartige Geometrieinformation ist, ohne Anspruch auf Vollständigkeit
zu erheben, einen Abstand zwischen der ersten Position und der virtuellen Abhörposition
202 oder eine relative Orientierung zwischen einer Vorzugsrichtung, die der virtuellen
Abhörposition 202 zugeordnet ist und einer Position eines der Mikrofone 204 oder 206.
Selbstverständlich kann die Geometrie auf beliebige Art und Weise beschrieben sein,
beispielsweise mittels kartesischen Koordinaten, sphärischen Koordinaten oder Zylinderkoordinaten
in einem ein-, zwei- oder dreidimensionalen Raum. Mit anderen Worten kann die erste
Geometrieinformation einen ersten Abstand zwischen der ersten bekannten Position und
der virtuellen Abhörposition und die zweite Geometrieinformation einen zweiten Abstand
zwischen der zweiten bekannten Position und der virtuellen Abhörposition umfassenden.
[0035] Der Signalerzeuger ist ausgebildet, um das Tonsignal unter Kombination des ersten
Quellsignals 210 und des zweiten Quellsignals 212 bereitzustellen, wobei die Kombination
einer Kombinationsregel folgt, gemäß der sowohl die erste Geometrieinformation 110
als auch die zweite Geometrieinformation 112 berücksichtigt bzw. verwendet werden.
[0036] Das Tonsignal 120 wird also aus dem ersten und dem zweiten Quellsignal 210 und 212
gewonnen, wobei dabei die erste und die zweite Geometrieinformation 110 bzw. 112 verwendet
werden. Das heißt, Informationen über die geometrischen Eigenschaften bzw. Beziehungen
zwischen der virtuellen Abhörposition 12 und den Positionen der Mikrofone 204 und
206 werden unmittelbar zur Bestimmung des Tonsignales 120 verwendet.
[0037] Durch Variation der virtuellen Abhörposition 202 kann so möglicherweise auf einfache
und intuitive Art und Weise ein Tonsignal erhalten werden, das eine Kontrolle einer
Funktionalität der in der Nähe der virtuellen Abhörposition 202 angeordneten Mikrofone
ermöglicht, ohne dass beispielsweise die Vielzahl der Mikrofone innerhalb eines Orchesters
einzeln über die diesen jeweils zugeordneten Kanäle eines Mischpults abgehört werden
müssen.
[0038] Gemäß den Ausführungsbeispielen, bei denen die erste Geometrieinformation und die
zweite Geometrieinformation als zumindest eine Information den ersten Abstand d
1 zwischen der virtuellen Abhörposition 202 und der ersten Position und d
2 zwischen der virtuellen Abhörposition 202 und der zweiten Position umfasst, wird
zum Erzeugen des Tonsignals 120 unter anderem eine gewichtete Summe des ersten Quellsignals
210 und des zweiten Quellsignals 212 erzeugt.
[0039] Wenngleich in Figur 1 der Einfachheit halber und zum besseren Verständnis lediglich
zwei Mikrofone 204 und 206 dargestellt sind, versteht es sich von selbst, dass gemäß
weiteren Ausführungsbeispielen der vorliegenden Erfindung von einem Tonsignalerzeuger
100 eine beliebige Anzahl von Mikrofonen der in Figur 1 schematisch dargestellten
Art verwendet werden können, um für eine virtuelle Abhörposition ein Tonsignal zu
erzeugen, wie hier und anhand der nachfolgenden Ausführungsbeispiele noch erläutert
werden wird.
[0040] Das heißt, gemäß einigen Ausführungsbeispielen wird das Tonsignal x aus einer Linearkombination
des ersten Quellsignals 210 (x
1) und des zweiten Quellsignals 212 (x
2) erzeugt, wobei das erste Quellsignal x
1 mit einem ersten Gewicht g
1 und das zweite Quellsignal x
2 mit einem zweiten Gewicht g
2 gewichtet werden, sodass gilt:

[0041] Gemäß weiteren Ausführungsbeispielen können, wie bereits erwähnt, weitere Quellsignale
x
3, ..., x
n mit dazugehörigen Gewichten g
3, ..., g
n zusätzlich berücksichtigt werden. Selbstverständlich sind Tonsignale zeitabhängig,
wobei vorliegend aus Gründen der Übersichtlichkeit teilweise auf den expliziten Hinweis
auf die Zeitabhängigkeit verzichtet wird und Angaben von Ton- oder Quellsignalen x
synonym mit der Angabe x(t) zu verstehen sind.
[0042] Figur 2 zeigt schematisch den Raum 200, wobei bei der in Figur 2 gewählten Darstellung
angenommen wird, dieser werde von rechtwinkligen Wänden begrenzt, die für das Zustandekommen
eines diffusen Schallfeldes verantwortlich zeichnen. Ferner werde vereinfachend angenommen,
dass wenngleich in der in Figur 2 dargestellten Quelle 208 innerhalb des eingegrenzten
Bereiches eine oder mehrere Schallquellen angeordnet sein können, diese in Bezug auf
deren Wirkung für die einzelnen Mikrofone zunächst vereinfacht als eine einzelne Quelle
betrachtet werden können. Der von diesen Schallquellen ausgestrahlte Direktschall
wird von den Wänden, die den Raum 200 begrenzen, mehrfach reflektiert, sodass sich
ein von den Mehrfachreflexionen der bereits abgeschwächten Signale erzeugtes diffuses
Schallfeld aus unkorreliert überlagerten Signalen ergibt, das zumindest näherungsweise
innerhalb des gesamten Raumes eine konstante Lautstärke besitzt. Dieser überlagert
ist ein direkter Schallanteil, also derjenige Schall, der von den innerhalb der Quelle
208 befindlichen Schallquellen direkt die möglichen Abhörpositionen, insbesondere
also auch die Mikrofone 220 bis 232 erreicht, ohne vorher reflektiert worden zu sein.
Das heißt, innerhalb des Raumes 200 kann das Schallfeld konzeptionell idealisiert
in zwei Komponenten unterschieden werden, nämlich einen direkten Schallanteil, der
vom Ort der Erzeugung des Schalles direkt die entsprechende Abhörposition erreicht
und in einen diffusen Schallanteil, der aus einer näherungsweise unkorrelierten Überlagerung
einer Vielzahl von direkt abgestrahlten und reflektierten Signalen herrührt.
[0043] Bei der in Figur 2 gezeigten Illustration kann aufgrund der räumlichen Nähe der Mikrofone
220 bis 224 zur Quelle 208 angenommen werden, diese zeichnen überwiegend Direktschall
auf, das heißt, die Lautstärke bzw. der Schalldruck des von diesen Mikrofonen aufgenommenen
Signals rührt überwiegend von einem direkten Schallanteil, der innerhalb der Quelle
208 angeordneten Schallquellen her. Demgegenüber kann beispielsweise angenommen werden,
die Mikrofone 226 bis 232 zeichneten ein Signal auf, das überwiegend vom diffusen
Schallanteil herrührt, da der räumliche Abstand zwischen der Quelle 208 und den Mikrofonen
226 bis 232 groß ist, sodass die Lautstärke des Direktschalls an diesen Positionen
zumindest vergleichbar oder geringer als die Lautstärke des diffusen Schallfeldes
ist.
[0044] Um bei der Erzeugung des Tonsignals für die virtuelle Abhörposition 202 der Reduktion
der Lautstärke mit zunehmendem Abstand Rechnung zu tragen, wird gemäß einigen Ausführungsbeispielen
der Erfindung ein Gewicht g
n für die einzelnen Quellsignale abhängig vom Abstand zwischen der virtuellen Abhörposition
202 und den verwendeten Mikrofonen 220 bis 232 zur Aufzeichnung der Quellsignale gewählt.
Figur 3 zeigt exemplarisch eine Möglichkeit zur Bestimmung eines derartigen Gewichtes
bzw. eines derartigen Faktors zur Multiplikation mit dem Quellsignal, wobei hier als
Beispiel das Mikrofon 222 gewählt wurde. Wie Figur 3 schematisch illustriert, wird
gemäß einigen Ausführungsbeispielen das Gewicht g
n proportional zu dem Inversen einer Potenz des ersten Abstandes d
1 gewählt, also:

[0045] Gemäß einigen Ausführungsbeispielen wird als Potenz n=1 gewählt, das heißt, das Gewicht
bzw. der Gewichtsfaktor ist invers proportional zum Abstand d
1, eine Abhängigkeit, die in etwa der Freifeldausbreitung einer punktförmigen gleichförmig
abstrahlenden Schallquelle entspricht. Das heißt, gemäß einigen Ausführungsbeispielen
wird angenommen, dass die Lautstärke invers proportional zum Abstand 240 ist. Gemäß
einigen weiteren Ausführungsbeispielen wird zusätzlich für einige oder für alle der
Mikrofone 220 bis 232 ein sogenannter Nahfeldradius 242 (r
1) berücksichtigt. Der Nahfeldradius 242 korrespondiert dabei zu einem Bereich unmittelbar
um eine Schallquelle, insbesondere zu dem Bereich, innerhalb dessen die Schallwelle
bzw. die Schallfront gebildet wird. Innerhalb des Nahfeldradius wird der Schalldruckpegel
bzw. die Lautstärke des Audiosignals als konstant angenommen. In einer einfachen Modellvorstellung
mag dabei angenommen werden, dass innerhalb einer einzelnen Wellenlänge eines Audio-
bzw. Tonsignals keine signifikante Dämpfung im Medium auftritt, sodass zumindest innerhalb
einer einzelnen Wellenlänge (korrespondierend zum Nahfeldradius) der Schalldruck konstant
ist. Daraus ergibt sich, dass der Nahfeldradius auch frequenzabhängig sein kann.
[0046] Durch die analoge Verwendung des Nahfeldradius gemäß einigen Ausführungsbeispielen
der Erfindung kann ein Tonsignal an der virtuellen Abhörposition 202 erzeugt werden,
indem die für die Kontrolle der akustischen Szene bzw. der Konfiguration und Verkabelung
der einzelnen Mikrofone relevanten Größen besonders deutlich gewichtet werden, wenn
sich die virtuelle Abhörposition 202 einer der realen Positionen der Mikrofone 220
bis 232 nähert. Wenngleich gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung
für den Nahfeldradius r eine frequenzunabhängige Größe angenommen wird, kann gemäß
einigen weiteren Ausführungsbeispielen eine Frequenzabhängigkeit des Nahfeldradius
implementiert sein. Gemäß einigen Ausführungsbeispielen wird also zur Erzeugung des
Tonsignals angenommen, innerhalb eines Nahfeldradius r um eines der Mikrofone 220
bis 232 sei die Lautstärke konstant. Gemäß einigen weiteren Ausführungsbeispielen
wird, um die Berechnung des Signals zu vereinfachen und dem Einfluss eines Nahfeldradius
möglicherweise dennoch Rechnung zu tragen, als allgemeine Rechenvorschrift angenommen,
das Gewicht g
1 sei proportional zu einem Quotienten aus dem Nahfeldradius r
1 des betrachteten Mikrofons 222 und dem Abstand d
1 von virtueller Abhörposition 202 und Mikrofon 222, sodass gilt:

[0047] Eine solche Parametrisierung bzw. Entfernungsabhängigkeit kann sowohl den Überlegungen
zum Nahfeld als auch den Überlegungen zum Fernfeld Rechnung tragen. Wie bereits oben
erwähnt, schließt sich an das Nahfeld einer punktförmigen Schallquelle ein Fernfeld
an, in dem sich bei Freifeldausbreitung der Schalldruck mit jeder Verdopplung der
Entfernung von der Schallquelle halbiert, der Pegel sich also um jeweils 6 dB verringert.
Diese Eigenschaft ist auch als Abstandsgesetz bzw. 1/r- Gesetz bekannt. Auch wenn
gemäß einigen Ausführungsbeispielen der Erfindung Quellen 208 aufgenommen werden mögen,
deren Schallquellen gerichtet abstrahlen, kann möglicherweise von punktförmigen Schallquellen
ausgegangen werden, wenn, nicht eine realitätsgetreue Wiedergabe des Schallfeldes
am Ort der virtuellen Abhörposition 202 im Vordergrund steht, sondern vielmehr die
Möglichkeit, die Mikrofone bzw. die Aufnahmequalität einer komplexen akustischen Szene
schnell und effizient kontrollieren bzw. durchhören zu können.
[0048] Wie bereits in Figur 2 angedeutet, können gemäß einigen Ausführungsbeispielen die
Nahfeldradii für unterschiedliche Mikrofone unterschiedlich gewählt werden. Insbesondere
kann dabei den unterschiedlichen Mikrofon-Typen Rechnung getragen werden. Als Mikrofon-Typ
soll hierin eine Information verstanden werden, die, losgelöst von dem tatsächlichen
Aufbau des einzelnen Mikrofons, eine Eigenschaft des Mikrofons oder dessen Verwendung
beschreibt, die sich von einer identischen Eigenschaft oder Verwendung eines weiteren
Mikrofons unterscheidet, das ebenfalls zur Aufnahme der Quelle 208 verwendet wird.
Ein Beispiel für eine solche Unterscheidung ist die Unterscheidung zwischen Mikrofonen
eines ersten Typs (Typ "D" in Figur 2), die aufgrund ihrer geometrischen Positionierung
überwiegend Direktschallanteile aufnehmen und solchen Mikrofonen, die aufgrund des
größeren Abstands bzw. einer anderen Relativposition bezüglich der Quelle 208 überwiegend
das diffuse Schallfeld aufnehmen bzw. aufzeichnen (Mikrofone vom Typ "A" in Figur
2). Insbesondere bei einer solchen Aufteilung der Mikrofone in unterschiedliche Mikrofon-Typen
kann die Verwendung von unterschiedlichen Nahfeldradii sinnvoll sein. Dabei wird gemäß
einigen Ausführungsbeispielen der Nahfeldradius der Mikrofone vom Typ A größer gewählt
als derjenige für die Mikrofone vom Typ D, was zu einer einfachen Möglichkeit der
Kontrolle der einzelnen Mikrofone führen kann, wenn die virtuelle Abhörposition 202
in deren Nähe gesetzt wird, ohne die physikalischen Gegebenheiten bzw. den Klangeindruck
grob zu verfälschen, insbesondere da das diffuse Schallfeld, wie oben dargestellt,
über große Gebiete näherungsweise gleich laut ist.
[0049] Allgemein gesprochen verwenden Tonsignalerzeuger 100 gemäß einigen Ausführungsbeispielen
der vorliegenden Erfindung zum Kombinieren der Quellsignale unterschiedliche Kombinationsregeln,
wenn die Mikrofone, die die jeweiligen Quellsignale aufzeichnen, unterschiedlichen
Mikrofon-Typen zugeordnet sind. Das heißt, eine erste Kombinationsregel wird verwendet,
wenn die beiden zu kombinierenden Mikrofone einem ersten Mikrofon-Typ zugeordnet sind
und eine zweite Kombinationsregel wird verwendet, wenn die beiden zu kombinierenden
Mikrofone bzw. die von diesen Mikrofonen aufgezeichneten Quellsignale einem zweiten,
unterschiedlichen Mikrofontyp zugeordnet sind.
[0050] Insbesondere können gemäß einigen Ausführungsbeispielen die Mikrofone jedes unterschiedlichen
Typs zunächst vollständig voneinander getrennt verarbeitet und zu je einem Teilsignal
X
virt kombiniert werden, woraufhin in einem abschließenden Schritt vom Tonsignalerzeuger
bzw. einem verwendeten Mischpult das endgültige Signal durch Kombination der vorher
erzeugten Teilsignale erzeugt wird. Angewendet auf die in Figur 2 dargestellte akustische
Szene bedeutete dies beispielsweise, dass zunächst ein Teilsignal x
A für die virtuelle Abhörposition 202 bestimmt werden kann, welches lediglich die Mikrofone
226 bis 232 von Typ A berücksichtigt. Zeitgleich oder vorher bzw. nachher könnte ein
zweites Teilsignal x
D für die virtuelle Abhörposition 202 bestimmt werden, das lediglich die Mikrofone
vom Typ D, also die Mikrofone 220 bis 224 berücksichtigt, diese jedoch gemäß einer
anderen Kombinationsregel miteinander kombiniert. In einem abschließenden Schritt
könnte dann das endgültige Tonsignal x für die virtuelle Abhörposition 202 durch Kombination
dieser beiden Teilsignale erzeugt werden, insbesondere durch eine Linearkombination
des ersten Teilsignals x
D, das mittels der Mikrofone des ersten Typs (D) gewonnen wurde und eines zweiten Teilsignals
x
A, das mittels der Mikrofone des zweiten Typs (A) gewonnen wurde, sodass gilt:

[0051] Figur 4 zeigt eine der Figur 2 ähnliche schematische Ansicht einer akustischen Szene
zusammen mit Positionen von Mikrofonen 220 bis 224, die Direktschall aufnehmen und
eine Reihe von Mikrofonen des Typs A, von denen nachfolgend insbesondere die Mikrofone
250 bis 256 betrachtet werden sollen. Anhand dieser werden einige Möglichkeiten diskutiert,
mit welchen Kombinationsregeln ein Tonsignal für die virtuelle Abhörposition 202,
die in der in den Figuren 4 und 5 dargestellten Konfiguration innerhalb einer von
den Mikrofonen 250 bis 254 aufgespannten dreieckigen Fläche angeordnet ist, erzeugt
werden können.
[0052] Allgemein gesprochen kann die Interpolation der Lautstärke bzw. das Erzeugen des
Tonsignals für die virtuelle Abhörposition 202 unter Berücksichtigung der Positionen
der nächstliegenden Mikrofone oder unter Berücksichtigung der Positionen aller Mikrofone
erfolgen. Beispielsweise kann es, unter anderem zur Reduzierung der Rechenlast, vorteilhaft
sein, lediglich die nächstliegenden Mikrofone zum Erzeugen des Tonsignals an der virtuellen
Abhörposition 202 zu verwenden. Diese können beispielsweise mittels einer Delaunay-Triangulation
gefunden bzw. durch beliebige andere Algorithmen zur Suche der nächsten Nachbarn (Nearest-Neighbor)
bestimmt werden. Einige spezielle Möglichkeiten zur Bestimmung zur Lautstärkeanpassung
oder, allgemein gesprochen, zur Kombination der Quellsignale, die den Mikrofonen 250
bis 254 zugeordnet sind, werden nachfolgend, bezugnehmend insbesondere auf Figur 5,
beschrieben.
[0053] Befände sich die virtuelle Abhörposition 202 nicht innerhalb eines der Triangulationsdreiecke,
sondern außerhalb, beispielsweise an der in Figur 4 gestrichelt gezeichneten weiteren
virtuellen Abhörposition 260, stünden zur Interpolation des Signals bzw. zur Kombination
eines Tonsignals aus den Quellsignalen der Mikrofone lediglich zwei Quellsignale der
nächsten Nachbarn zur Verfügung. Der Einfachheit halber wird im Folgenden die Möglichkeit
der Kombination von zwei Quellsignalen ebenfalls anhand von Figur 5 diskutiert, wobei
bei der Interpolation aus zwei Quellsignalen das Quellsignal des Mikrofons 250 zunächst
vernachlässigt wird.
[0054] Gemäß einigen Ausführungsbeispielen der Erfindung wird das Tonsignal für die virtuelle
Abhörposition 202 gemäß einer ersten Überblendregel, dem sogenannten linearen Panning-Gesetz
erzeugt. Gemäß diesem Verfahren wird das Tonsignal x
virt1 unter Verwendung der folgenden Rechenvorschrift bestimmt:

[0055] Das heißt, die Gewichte der einzelnen zu addierenden Quellsignale x
1 und x
2 addieren sich linear zu 1 und das Tonsignal x
virt1 wird entweder von einem der beiden Signale x
1 oder x
2 allein oder einer Linearkombination der beiden gebildet. Aufgrund dieses linearen
Zusammenhangs weisen die so erzeugten Tonsignale für beliebige Werte von g
1 bei identischen Quellsignalen eine konstante Lautstärke auf, wohingegen vollständig
unterschiedliche (dekorrelierte) Quellsignale x
1 und x
2 zu einem Tonsignal führen, das für den Wert g
1=0,5 einen Lautstärkeabfall von minus 3dB, also um den Faktor 0,5 aufweist.
[0056] Eine zweite Überblendregel gemäß der das Tonsignal x
virt2 erzeugt werden kann, ist das sogenannte Sinus- und Cosinus-Gesetz:

[0057] Der Parameter δ der die individuellen Gewichte g
1 und g
2 bestimmt, reicht von 0° bis 90° und errechnet sich aus dem Abstand zwischen der virtuellen
Abhörposition 202 und den Mikrofonen 252 und 254. Da sich hier die Quadrate der Gewichte
für beliebige Werte von δ zu 1 summieren, kann mittels des Sinus-Cosinus-Gesetzes
für jeden beliebigen Parameter δ ein Tonsignal mit konstanter Lautstärke erzeugt werden,
wenn die Quellsignale dekorreliert sind. Jedoch ergibt sich bei identischen Quellsignalen
für den Parameter δ = 45° eine Lautstärkeerhöhung von 3dB.
Eine dritte Überblendregel, die zu den der zweiten Überblendregel ähnlichen Ergebnissen
führt, und gemäß der das Tonsignal x
virt3 erzeugt werden kann, ist das sogenannte Tangens-Gesetz:

Eine vierte Überblendregel, die verwendet werden kann, um das Tonsignal x
virt4 zu erzeugen, ist das sogenannte Sinus- Gesetz:

[0058] Auch hierbei addieren sich die Quadrate der Gewichte für jedweden möglichen Wert
des Parameters
θ zu 1. Der Parameter
θ ist wiederum durch die Abstände zwischen virtueller Abhörposition 202 und den Mikrofonen
bestimmt, er kann Werte von minus 45 Grad bis 45 Grad annehmen.
[0059] Insbesondere für die Kombination von zwei Quellsignalen, über die nur ein eingeschränktes
a-priori-Wissen besteht, wie dies beispielsweise bei einem räumlich leicht variierenden
Diffus-Schallfeld der Fall sein kann, kann eine vierte Kombinationsregel verwendet
werden, gemäß der die erste vorhergehend beschriebene Überblendregel und die zweite
vorhergehend beschriebene Überblendregel abhängig von den zu kombinierenden Quellsignalen
kombiniert werden. Insbesondere wird gemäß der vierten Kombinationsregel eine LinearKombination
von zwei Zwischensignalen x
virt1 und x
virt2 besteht, die für die Quellsignale x
1 und x
2 jeweils zunächst separat gemäß der ersten und der zweiten Überblendregel erzeugt
wurden. Insbesondere wird gemäß einiger Ausführungsbeispiele der vorliegenden Erfindung
als Gewichtsfaktor für die Linearkombination der Korrelationskoeffizient σ
x1x2 zwischen den Quellsignalen x
1 und x
2 verwendet, der sich wie folgt definiert und ein Maß für die Ähnlichkeit der beiden
Signale darstellt:

[0060] Wobei E den Erwartungswert bzw. den linearen Mittelwert bezeichnet und σ die Standardabweichung
der betreffenden Größe bzw. des betreffenden Quellsignals angibt, wobei für akustische
Signale in guter Näherung gilt, dass der lineare Mittelwert E{x} Null ist.

[0061] Das heißt, gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung umfasst
die Kombinationsregel ferner das Bilden einer gewichteten Summe x
virt aus dem mit einem Korrelationskoeffizienten σ
x1x2 für eine Korrelation zwischen dem ersten Quellsignal x
1 und dem zweiten Quellsignal x
2 gewichteten Zwischensignalen x
virt1 und x
virt2.
[0062] Durch Verwendung der vierten Kombinationsregel kann somit gemäß einiger Ausführungsbeispiele
der vorliegenden Erfindung über den gesamten Parameterbereich eine Kombination mit
näherungsweise konstanter Lautstärke erreicht werden. Dies kann ferner überwiegend
unabhängig davon erreicht werden, ob die zu kombinierenden Signale unähnlich oder
ähnlich sind.
[0063] Insofern gemäß einiger Ausführungsbeispiele der vorliegenden Erfindung ein Tonsignal
an einer virtuellen Abhörposition 202 gewonnen werden soll, die sich innerhalb eines
von drei Mikrofonen 250 bis 254 begrenzten Dreiecks befindet, können gemäß einigen
Ausführungsbeispielen der vorliegenden Erfindung die drei Quellsignale der Mikrofone
250 bis 254 linear kombiniert werden, wobei die einzelnen Signalanteile der den Mikrofonen
250 bis 254 zugeordneten Quellsignale basierend auf einer senkrechten Projektion der
virtuellen Abhörposition 202 auf diejenige Höhe des Dreiecks erfolgt, die der Position
des dem jeweiligen Quellsignal zugeordneten Mikrofons zugeordnet ist.
[0064] Soll beispielsweise der Signalanteil des Mikrofons 250 bzw. das diesem Quellsignal
zugeordnete Gewicht bestimmt werden, wird zunächst eine senkrechte Projektion der
virtuellen Abhörposition 202 auf die Höhe 262 vorgenommen, welche dem Mikrofon 250
zugeordnet ist bzw. der Ecke des Dreiecks, an der sich das Mikrofon 250 befindet.
Daraus ergibt sich die in Figur 5 gestrichelt dargestellte projizierte Position 264
auf der Höhe 262. Diese wiederum unterteilt die Höhe 262 in einen dem Mikrofon 250
zugewandten ersten Höhenabschnitt 266 und einen diesem abgewandten Höhenabschnitt
268. Das Verhältnis dieser Höhenabschnitte 266 und 268 wird benutzt, um gemäß einem
der obengenannten Überblendregeln ein Gewicht für das Quellsignal des Mikrofons 250
zu berechnen, wobei davon ausgegangen wird, dass sich an dem dem Mikrofon 250 gegenüberliegenden
Ende der Höhe 262 eine Schallquelle bzw. ein Mikrofon befindet, das konstant ein Signal
mit der Amplitude null aufzeichnet.
[0065] D. h., gemäß den Ausführungsbeispielen der Erfindung wird die Höhe jeder Dreiecksseite
ermittelt und der Abstand des virtuellen Mikrofons zu jeder Dreieckseite bestimmt.
Entlang der entsprechenden Höhe wird das Mikrofonsignal linear bzw. je nach gewählter
Überblendregel von dem Eckpunkt des Dreiecks zur gegenüberliegenden Dreiecksseite
auf null geblendet. Für das in Figur 5 gezeigte Ausführungsbeispiel bedeutet dies,
das Quellsignal des Mikrofons 250 wird mit dem Gewicht 1 verwendet, wenn sich die
Projektion 264 an der Position des Mikrofons 250 befindet und mit null, wenn sich
diese auf der Verbindungsgeraden zwischen der Position der Mikrofone 252 und 254,
also auf der gegenüberliegenden Seite des Dreiecks befindet. Zwischen diesen beiden
Extrempositionen wird das Quellsignal des Mikrofons 250 ein- bzw. ausgeblendet. In
allgemeinen Worten bedeutet dies, dass beim Kombinieren des Signals aus drei Signalen
drei Quellsignale x
1 bis x
3 berücksichtigt werden, deren zugeordnete Mikrofone 250 bis 254 eine dreieckige Fläche
aufspannen, innerhalb derer sich die virtuelle Abhörposition 202 befindet. Dabei werden
die Gewichte g
1 bis g
3 für die Linearkombination der Quellsignale x
1 bis x
3 basierend auf einer senkrechten Projektion der virtuellen Abhörposition 202 auf diejenige
Höhe des Dreiecks bestimmt, die der Position des dem jeweiligen Quellsignals zugeordneten
Mikrofons zugeordnet ist bzw. durch den diese Höhe verläuft.
[0066] Insofern zur Bestimmung des Signals die oben diskutierte vierte Überblendregel verwendet
wird, kann ein gemeinsamer Korrelationskoeffizient für die drei Quellsignale x
1 bis x
3 dadurch bestimmt werden, dass zunächst eine Korrelation zwischen den jeweils benachbarten
Quellsignalen ermittelt wird, woraus sich insgesamt drei Korrelationskoeffizienten
ergeben. Aus den drei so erhaltenen Korrelationskoeffizienten wird ein gemeinsamer
Korrelationskoeffizient durch Mittelwertbildung gebildet, welcher wiederum die Gewichtung
für die Summe von Teilsignalen bestimmt, die mittels der ersten Überblendregel (lineares
Panning) und der zweiten Überblendregel (Sinus-Cosinus-Gesetz) gebildet werden. Das
heißt, es wird zunächst ein erstes Teilsignal mit dem Sinus-Cosinus-Gesetz bestimmt,
daraufhin wird ein zweites Teilsignal mit dem linearen Panning bestimmt und die beiden
Teilsignale werden durch Gewichtung mit dem Korrelationskoeffizienten linear kombiniert.
[0067] Figur 6 zeigt eine Illustration einer weiteren möglichen Konfiguration von Positionen
von Mikrofonen 270 bis 278, innerhalb derer eine virtuelle Abhörposition 202 angeordnet
ist. Insbesondere anhand von Figur 6 wird eine weitere mögliche Kombinationsregel
illustriert, deren Eigenschaften mit den voranstehend beschriebenen Kombinationsmöglichkeiten
beliebig kombiniert werden kann oder die auch für sich allein genommen ein Kombinationsregel
im hierin beschriebenen Sinn sein kann.
[0068] Gemäß einigen Ausführungsbeispielen der Erfindung wird, wie in Figur 6 schematisch
dargestellt, ein Quellsignal lediglich dann bei der Kombination zum Tonsignal für
eine virtuelle Abhörposition 202 berücksichtigt, wenn das dem Quellsignal zugeordnete
Mikrofon sich innerhalb eines vorbestimmten konfigurierbaren Abstandes R von der virtuellen
Abhörposition 202 befindet. Dadurch kann gemäß einigen Ausführungsbeispielen Rechenzeit
möglicherweise gespart werden, indem beispielsweise nur diejenigen Mikrofone berücksichtigt
werden, deren Signalbeiträge gemäß den gewählten Kombinationsregeln oberhalb der menschlichen
Hörschwelle liegen.
[0069] Gemäß einigen Ausführungsbeispielen der Erfindung kann, wie in Figur 7 schematisch
dargestellt, die Kombinationsregel ferner eine Richtcharakteristik für die virtuelle
Abhörposition 202 berücksichtigen. Das heißt beispielsweise, das erste Gewicht g
1 für das erste Quellsignal x
1 des ersten Mikrofons 220 kann zusätzlich proportional zu einem Richtungsfaktor rf
1 sein, der sich aus einer Empfindlichkeitsfunktion bzw. einer Richtcharakteristik
für die virtuelle Abhörposition 202 ergibt sowie aus der Relativposition zwischen
virtueller Abhörposition 202 und Mikrofon 220. D. h. gemäß diesen Ausführungsbeispielen
umfasst die erste Geometrieinformation ferner eine erste Richtungsinformation über
eine Richtung zwischen dem Mikrofon 220 und einer der virtuellen Abhörposition 202
zugeordneten Vorzugsrichtung 280, in der die Richtcharakteristik 282 ihre maximale
Empfindlichkeit aufweist.
[0070] Allgemein gesprochen sind damit die Gewichtungsfaktoren g
1 und g
2 der Linearkombination der Quellsignale x
1 und x
2 gemäß einigen Ausführungsbeispielen zusätzlich von einem ersten Richtungsfaktor rf
1 und einen zweiten Richtungsfaktor rf
2 abhängig, die der Richtcharakteristik 280 an der virtuellen Abhörposition 202 Rechnung
tragen.
[0071] Die in den vorhergehenden Absätzen diskutierten Kombinationsregeln können in anderen
Worten wie folgt zusammengefasst werden. Die einzelnen Implementierungen sind in den
nächsten Abschnitten genauer beschrieben. Allen Varianten ist gemein, dass bei der
Addition der Signale Kammfiltereffekte auftreten könnten. Ist dies potentiell der
Fall, können die Signale zuvor entsprechend verzögert werden. Daher wird zunächst
der zur Verzögerung verwendbare Algorithmus dargestellt.
[0072] Bei Mikrofonen, welche einen größeren Abstand als zwei Meter zueinander haben, können
Signale ohne Entstehung von wahrnehmbaren Kammfiltereffekten aufaddiert werden. Ebenfalls
bedenkenlos lassen sich Signale von Mikrofonen summieren, bei deren Positionsabstanden
die sogenannte 3:1-Regel eingehalten wird. Die Regel besagt, dass bei der Aufnahme
einer Schallquelle mit zwei Mikrofonen der Abstand zwischen der Schallquelle und dem
zweiten Mikrofon mindestens das Dreifache des Abstandes von der Schallquelle zum ersten
Mikrofon betragen soll, um keine wahrnehmbaren Kammfiltereffekte zu erhalten. Voraussetzung
sind Mikrofone gleicher Empfindlichkeit und der Abfall des Schalldruckpegels mit der
Entfernung, beispielsweise nach dem 1/r-Gesetz.
[0073] Das System bzw. ein Tonsignalerzeuger oder dessen Geometrieprozessor ermittelt zu
Beginn, ob beide Bedingungen erfüllt sind. Ist dies nicht der Fall, können die Signale
vor der Berechnung des virtuellen Mikrofonsignals entsprechend der momentanen Position
des virtuellen Mikrofons verzögert werden. Die Abstände aller Mikrofone zum virtuellen
Mikrofon werden dazu gegebenenfalls bestimmt und die Signale bezüglich des Mikrofons,
welches am weitesten vom virtuellen entfernt liegt, zeitlich verschoben. Dazu wird
der größte Abstand ermittelt und die Differenz zu den übrigen Abständen gebildet.
Die Latenz
Δti in samplen ergibt sich nun aus dem Verhältnis der jeweiligen Distanz d
i zur Schallgeschwindigkeit c multipliziert mit der Abtastrate Fs. Der berechnete Wert
kann in digitalen Implementierungen beispielsweise gerundet werden, wenn das Signal
nur um ganze Samples verzögert werden soll. N bezeichne im Folgenden die Anzahl der
Aufnahmemikrofone:

Gemäß einigen weiteren Ausführungsbeispielen werden alle Quellsignale mit der maximalen
bestimmten Latenz beaufschlagt.
[0074] Zu Berechnung des virtuellen Mikrofonsignals können folgende Varianten implementiert
werden. Dabei werden Nahmikrofone bzw. Mikrofone zur Aufzeichnung von Direktschall
nachfolgend als Mikrofone eines ersten Mikrofontyps und Ambientmikrofone bzw. Mikrofone
zur Aufzeichnung eines diffusen Schallanteils als Mikrofone eines zweiten Mikrofontyps
bezeichnet. Ferner wird die virtuelle Abhörposition auch als Position eines virtuellen
Mikrofons bezeichnet.
[0075] Gemäß einer ersten Variante fallen sowohl die Signale der Nahmikrofone bzw. der Mikrofone
eines ersten Mikrofontyps als auch die Signale der Ambientmikrofone nach dem Abstandsgesetz
ab. Hierdurch kann jedes Mikrofon an seiner Position besonders dominant gehört werden.
Für die Berechnung des virtuellen Mikrofonsignals können zunächst die Nahfeldradien
um die Nah- und Ambientmikrofone durch den Nutzer festgelegt werden. Innerhalb dieses
Radius bleibt die Lautstärke der Signale konstant. Platziert man nun das virtuelle
Mikrofon in der Aufnahmeszene werden die Abstände vom virtuellen Mikrofon zu jedem
einzelnen realen Mikrofon berechnet. Hierfür werden die Samplewerte der Mikrofonsignale
x
i[t] durch die momentane Entfernung d
i geteilt und mit dem Nahfeldradius r
nah multipliziert. N gibt die Anzahl der Aufnahmemikrofone an:

Auf diese Weise erhält man das aufgrund der räumlichen Entfernung
di gedämpfte Mikrofonsignal
xi,gedämpft. Alle so berechneten Signale werden aufaddiert und bilden gemeinsam das Signal für
das virtuelle Mikrofon:

Gemäß einer zweiten Variante erfolgt eine Trennung des Direkt- und Diffusschalls.
Das Diffusschallfeld soll dabei im gesamten Raum annähernd gleich laut sein. Hierfür
wird der Raum durch die Anordnung der Ambientmikrofone in bestimmte Bereiche gegliedert.
Je nach Bereich berechnet sich der diffuse Schallanteil aus einem, zwei oder drei
Mikrofonsignalen. Die Signale der Nahmikrofone fallen mit der Entfernung nach dem
Abstandsgesetz ab.
[0076] Abbildung 4 zeigt beispielhaft eine Raumaufteilung. Die Punkte symbolisieren die
Ambientmikrofone. Die äußeren Ambientmikrofone bilden ein Polygon. Der Bereich innerhalb
dieses Polygons wird in Dreiecke aufgeteilt. Hierfür wird die Delaunay-Triangulation
angewendet. Mit diesem Verfahren kann aus einer Punktmenge ein Dreiecksnetz gebildet
werden. Es zeichnet sich vor allem dadurch aus, dass der Umkreis eines Dreiecks keine
weiteren Punkte der Menge einschließt. Durch Erfüllen dieser sogenannten Umkreisbedingung
entstehen Dreiecke mit möglichst großen Innenwinkeln. In Abbildung 4 ist diese Triangulation
anhand von vier Punkten dargestellt.
[0077] Durch die Delaunay-Triangulation werden nah beieinander liegende Mikrofone gruppiert
und jedes Mikrofon auf den umliegenden Raum abgebildet. Das Signal für das virtuelle
Mikrofon berechnet sich innerhalb des Polygons aus jeweils drei Mikrofonsignalen.
Außerhalb des Polygons werden zu jeder Verbindungslinie zweier Eckpunkte zwei senkrechte
Geraden bestimmt, welche durch die Eckpunkte verlaufen. Hierdurch werden auch außerhalb
des Polygons bestimmte Bereiche begrenzt. Das virtuelle Mikrofon kann sich somit entweder
zwischen zwei Mikrofonen befinden oder bei einem Mikrofon an einem Eckpunkt. Zur Berechnung
des diffusen Schallanteils sollte zunächst ermittelt werden, ob sich das virtuelle
Mikrofon innerhalb oder außerhalb des den Rand bildenden Polygons befindet. Je nach
Position berechnet sich der diffuse Anteil des virtuellen Mikrofonsignals aus einem,
zwei oder drei Mikrofonsignalen.
[0078] Befindet sich das virtuelle Mikrofon außerhalb des Polygons wird zwischen den Bereichen
an einem Eckpunkt und zwischen zwei Mikrofonen unterschieden. Befindet sich das virtuelle
Mikrofon in dem Bereich bei einem Mikrofon an einem Eckpunkt des Polygons, wird nur
das Signal x
i dieses Mikrofons für die Berechnung des Diffusschallanteils verwendet:

Im Bereich zwischen zwei Mikrofonen setzt sich das virtuelle Mikrofonsignal aus den
beiden entsprechenden Mikrofonsignalen x
1 und x
2 zusammen. Je nach Position wird zwischen den beiden Signalen mit Hilfe verschiedener
Überblendregeln bzw. Panning-Verfahren überblendet. Diese werden nachfolgend auch
wie folgt bezeichnet: lineares Panning-Gesetz (erste Überblendregel), Sinus-Cosinus-Gesetz
(zweite Überblendregel), Tangens-Gesetz (dritte Überblendregel) und Kombination aus
linearem Panning-Gesetz und Sinus-Cosinus-Gesetz (vierte Überblendregel).
[0079] Für die Kombination aus den beiden Panning-Verfahren linear (x
virt1) und Sinus-Cosinus-Gesetz (x
virt2) wird der Korrelationskoeffizient σ
x1x2 der beiden Signale x
1 und x
2 bestimmt:

[0080] Je nach Größe des Koeffizienten σ
x1x2 fließt das jeweilige Gesetz in die Berechnung der gewichteten Summe x
virt ein:

wobei

wobei g
2 = (1- g
1); "lineares panning"

wobei δ E [0°; 90°]; "Sinus-Cosinus-Gesetz".
[0081] Beträgt der Korrelationskoeffizient σ
x1x2 gleich 1 handelt es sich um identische Signale und es wird nur linear überblendet.
Bei einem Korrelationskoeffizienten von 0 kommt nur das Sinus-Cosinus-Gesetz zum Einsatz.
[0082] Der Korrelationskoeffizient kann in einigen Implementierungen nicht nur einen Augenblickswert
beschreiben, sondern über einen gewissen Zeitraum integriert werden. Beim Korrelationsgradmesser
kann dieser Zeitraum beispielsweise 0,5 s betragen. Da es sich bei den Ausführungsbeispielen
der Erfindung bzw. den virtuellen Mikrofonen nicht immer um echtzeitfähige Systeme
handeln muss, kann der Korrelationskoeffizient auch über eine größere Zeitdauer, beispielsweise
30s bestimmt werden
[0083] Im Bereich innerhalb des Polygons bzw. befindet sich die virtuelle Abhörposition
innerhalb von Dreiecken, deren Eckpunkte mittels Delaunay-Triangulation festgelegt
wurden, wie Anhand von Figur 5 verdeutlicht wurde. In jedem Dreieck setzt sich der
Diffusschallanteil des virtuellen Mikrofonsignals aus den drei Quellsignalen der an
den Ecken liegenden Mikrofone zusammen. Es wird dazu die Höhe h jeder Dreiecksseite
ermittelt und der Abstand d
vi
rtMic des virtuellen Mikrofons zu jeder Dreiecksseite bestimmt. Entlang der entsprechenden
Höhe wird das Mikrofonsignal je nach eingestelltem Panning-Verfahren bzw. je nach
verwendeter Überblendregel von einem Eckpunkt zur gegenüberliegenden Dreiecksseite
auf null geblendet.
[0084] Dazu können prinzipiell die oben beschriebenen Panning- Verfahren verwendet werden,
welche auch für die Berechnung des Signals außerhalb des Polygons verwendet werden.
Die Division des Abstands d
virtMic durch den Wert der Höhe h normiert die Strecke auf eine Länge von 1 und liefert die
zugehörige Position auf der Panning- Kurve. Hiermit lässt sich nun auf der y-Achse
der Wert ablesen, mit dem jedes der drei Signale entsprechend des eingestellten Panning-Verfahrens
multipliziert wird.
[0085] Für die Kombination aus linearem Panning-Gesetz und dem Sinus-Cosinus-Gesetz wird
zunächst aus jeweils zwei Quellsignalen der Korrelationskoeffizient bestimmt. Hierdurch
erhält man drei Korrelationskoeffizienten, aus denen anschließend der Mittelwert gebildet
wird.
[0086] Dieser Mittelwert bestimmt die Gewichtung der Summe von linearem und Sinus-Cosinus-Panning-Gesetz.
Auch hier gilt: Ist der Wert gleich 1, wird nur mittels linearem Panning-Gesetz überblendet.
Für einen Wert gleich 0 wird nur das Sinus-Cosinus-Gesetz verwendet. Abschließend
ergeben alle drei Signale addiert den diffusen Anteil des Schalls.
[0087] Der Anteil des direkten Schalls ist dem diffusen überlagert, wobei der direkte Schallanteil
von Mikrofonen des Typs "D" und der indirekte Schallanteil von Mikrofonen des Typs
"A" im vorhergehend eingeführten Sinne aufgenommen wird. Schließlich werden der diffuse
und der direkte Schallanteil addiert und ergeben so das Signal für das virtuelle Mikrofon:

[0088] Es ist ferner möglich, diese Variante zu erweitern. Nach Wunsch kann ein beliebig
großer Radius um ein Mikrofon eingestellt werden. Innerhalb dieses Bereichs ist nur
das dort befindliche Mikrofon zu hören. Alle anderen Mikrofone werden auf null gesetzt
bzw. mit einem Gewicht von 0 versehen, sodass das Signal des virtuellen Mikrofons
dem Signal des ausgewählten Mikrofons entspricht:

[0089] Gemäß der dritten Variante fließen nur die Mikrofone, die sich in einem bestimmten
Umkreis um das virtuelle Mikrofon befinden, in die Berechnung des virtuellen Mikrofonsignals
ein. Hierfür werden zunächst die Abstände aller Mikrofone zum virtuellen Mikrofon
ermittelt und daraus bestimmt, welche Mikrofone innerhalb des Kreises liegen. Die
Signale der Mikrofone, welche sich außerhalb des Kreises befinden, werden auf null
gesetzt bzw. erhalten das Gewicht 0.
[0090] Die Signalwerte der Mikrofone
xi(t) innerhalb des Kreises werden zu gleichen Teilen aufaddiert und ergeben so das Signal
für das virtuelle Mikrofon. Gibt N die Anzahl der Aufnahmemikrofone innerhalb des
Kreises an gilt:

Um plötzlich auftretende Lautstärkesprünge beim Übergang eines Mikrofons in oder
aus dem Kreis heraus zu vermeiden, können die Signale am Rand des Kreises zusätzlich
linear ein- bzw. ausgeblendet werden. Bei dieser Variante muss keine Unterscheidung
in Nah- und Ambientmikrofone stattfinden.
[0091] Bei allen Varianten kann es auch sinnvoll sein, dem virtuellen Mikrofon eine zusätzliche
Richtcharakteristik zuzuweisen. Dazu kann das virtuelle Mikrofon mit einem Richtungsvektor
r versehen werden, der zu Beginn in die Hauptrichtung der Richtcharakteristik (im
Polardiagramm) zeigt. Da die Richtcharakteristik eines Mikrofons für einige Ausführungsbeispiele
nur für Direktschall wirksam sein kann, wirkt sich dann die Richtcharakteristik nur
auf die Signale der Nahmikrofone aus. Die Signale der Ambientmikrofone fließen unverändert
in die Berechnung gemäß der Kombinationsregel ein. Vom virtuellen Mikrofon aus werden
zu allen Nahmikrofonen Vektoren gebildet. Für jedes der Nahmikrofone wird der Winkel
ϕi,nah zwischen diesem Vektor und dem Richtungsvektor des virtuellen Mikrofons errechnet.
In Figur 7 ist dies beispielhaft für ein Mikrofon 220 dargestellt. Durch Einsetzen
des Winkels in die allgemeine Mikrofongleichung
s(ϕ) =
a +
b * cos(ϕ)erhält man einen Faktor
s für jedes Quellsignal, welcher einer zusätzlichen Schalldämpfung aufgrund der Richtcharakteristik
entspricht. Vor der Addition aller Quellsignale wird jedes Signal mit dem entsprechenden
Faktor multipliziert. Es besteht so beispielsweise die Möglichkeit, zwischen den Richtcharakteristiken
Kugel (a=1; b=0), Breite Niere (a=0,71; b=29), Niere (a=0,5; b=0,5), Superniere (a=0,37;
b=0,63), Hyperniere (a=0,25; b=0,75) und Acht (a=0; b=1) zu wählen. Das virtuelle
Mikrofon kann beispielsweise mit einer Genauigkeit von 1° oder darunter gedreht werden.
[0092] Figur 8 zeigt schematisch ein Mischpult 300, das einen Tonsignalerzeuger 100 umfasst,
und mittels dessen Signale von Mikrofonen 290 bis 295 empfangen werden können, die
dazu verwendet werden, eine akustisches Szene 208 aufzuzeichnen. Das Mischpult dient
zum Verarbeiten der Quellsignale von zumindest zwei Mikrofonen 290 bis 295 und zum
Bereitstellen eines abgemischten Tonsignals 302, das in der in Figur 8 gewählten Darstellung
lediglich schematisch angedeutet ist.
[0093] Gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung weist das Mischpult
ferner eine Benutzerschnittstelle 306 auf, die ausgebildet ist, um eine grafische
Repräsentation der Positionen der Mehrzahl von Mikrofonen 290 bis 295 anzuzeigen,
sowie zusätzlich die Position einer virtuellen Abhörposition 202, die innerhalb des
akustischen Raumes, in dem sich die Mikrofone 290 bis 295 befinden, angeordnet ist.
[0094] Gemäß einiger Ausführungsbeispiele erlaubt es die Benutzerschnittstelle ferner, jedem
der Mikrofone 290 bis 295 einen Mikrofontyp zuzuordnen, beispielsweise einen ersten
Typ (1), der Mikrofone zur Direktschallaufzeichnung kennzeichnet und einen zweiten
Typ (2), der Mikrofone zur Aufzeichnung von diffusen Schallanteilen bezeichnet.
[0095] Gemäß einigen weiteren Ausführungsbeispielen ist die Benutzerschnittstelle ferner
ausgebildet, es einem Benutzer des Mischpultes auf einfache Art und Weise, beispielsweise
durch Bewegung eines in Figur 8 schematisch dargestellten Cursors 310 bzw. einer Computermaus
zu ermöglichen, die virtuelle Abhörposition 202 intuitiv und einfach zu bewegen, um
so auf einfache Art und Weise eine Kontrolle der gesamten akustischen Szene bzw. des
Aufnahmeequipments zu ermöglichen.
[0096] Figur 9 zeigt schematisch ein Ausführungsbeispiel eines Verfahrens zum Bereitstellen
eines Tonsignals, das in einem Signalaufnahmeschritt 500 ein Empfangen eines von dem
ersten Mikrofon aufgenommenen ersten Quellsignals x
1 und eines von dem zweiten Mikrofon aufgenommenen zweiten Quellsignals x
2 umfasst.
[0097] Während eines Analyseschritts 502 wird eine erste Geometrieinformation basierend
auf der ersten Position und der virtuellen Abhörposition und einer zweite Geometrieinformation
basierend auf der zweiten Position und der virtuellen Abhörposition bestimmt. In einem
Kombinationsschritt 505 wird zumindest des ersten Quellsignal x
1 und des zweiten Quellsignal x
2 gemäß einer die erste Geometrieinformation und die zweite Geometrieinformation verwendenden
Kombinationsregel.
[0098] Figur 10 zeigt erneut schematisch eine Benutzerschnittstelle 306 für ein Ausführungsbeispiel
der Erfindung, die sich von der in Figur 8 gezeigten leicht unterscheidet. In dieser
bzw. in einem sogenannten "Interaction-Canvas" können die Positionen der Mikrofone
angegeben werden, insbesondere auch als Schallquellen bzw. Mikrofone verschiedenen
Typs bzw. Mikrofontyps (1,2,3,4). Dazu kann die Position zumindest eines Empfängers
bzw. eine virtuelle Abhörposition 202 angegeben werden (Kreis mit Kreuz). Jede Schallquelle
kann einem der Mischpultkanäle 310 bis 316 zugeordnet sein.
[0099] Wenngleich an Hand der vorhergehenden Ausführungsbeispiele überwiegend die Erzeugung
eines einzelnen Tonsignals an einer virtuellen Abhörposition 202 diskutiert wurde,
versteht es sich von selbst, dass gemäß weiteren Ausführungsbeispielen der vorliegenden
Erfindung auch mehrere, beispielsweise 2, 3, 4 bis zu einer beliebigen Anzahl von
Tonsignalen für weitere virtuelle Abhörpositionen erzeugt werden können, wobei jeweils
die oben beschriebenen Kombinationsregeln verwendet werden.
[0100] Dabei können bei weiteren Ausführungsbeispielen beispielsweise durch Verwenden mehrerer
räumlich benachbarter virtueller Abhörpositionen auch unterschiedliche Abhörmodelle,
beispielsweise des menschlichen Gehörs, erzeugt werden. Durch das Definieren von zwei
virtuellen Abhörpositionen, die in etwa den Abstand des menschlichen Gehörs bzw. der
Ohrmuschel aufweisen, kann beispielsweise in Verbindung mit einer frequenzabhängigen
Richtcharakteristik für jede der virtuellen Abhörpositionen ein Signal erzeugt werden,
das bei direktem Abhören mittels eines Kopfhörers oder dergleichen den Höreindruck
simuliert, den ein menschlicher Zuhörer am Ort zwischen den beiden virtuellen Abhörpositionen
hätte. Das heißt, am Ort des linken Gehörgangs bzw. der linken Hörmuschel würde die
erste virtuelle Abhörposition erzeugt werden, die zudem eine frequenzabhängige Richtcharakteristik
aufweist, so dass die Signalpropagation entlang des Gehörganges im Sinne einer Head-Related-Transfer-Function
(HRTF) über die frequenzabhängige Richtcharakteristik simuliert werden könnte. Ginge
man für die zweite virtuelle Abhörposition bezüglich des rechten Ohres genauso vor,
erhielte man gemäß einigen Ausführungsbeispielen der vorliegenden Erfindung zwei Monosignale,
die bei direktem Abhören beispielsweise mittels eines Kopfhörers dem Klangeindruck
entsprächen, die ein realer Zuhörer am Ort der virtuellen Abhörposition hätte.
[0101] Auf ähnliche Art und Weise kann beispielsweise auch ein herkömmliches Stereomikrofon
simuliert werden.
[0102] Zusammengefasst kann gemäß einiger Ausführungsbeispiele der Erfindung die Position
einer Schallquelle (z.B. eines Mikrofons) im Mischpult / der Aufnahmesoftware angegeben
bzw. automatisch erfasst werden. Basierend auf der Position der Schallquelle stehen
dem Tonmeister zumindest drei neue Werkzeuge zur Verfügung:
- Monitoring der räumlichen Klangszene, die gerade aufgezeichnet wird.
- Erstellung von teilautomatisierten Tonmischungen durch Steuerung von virtuellen Empfängern.
- Eine visuelle Darstellung der räumlichen Anordnung.
[0103] Figur 10 zeigt schematisch eine potentielle Nutzerschnittstelle mit den Positionen
der Schallquellen und einem oder mehreren "virtuellen Empfängern". Über die Benutzerschnittstelle
bzw. über ein Interaction Canvas kann jedem Mikrofon (nummeriert mit 1 bis 4) eine
Position zugewiesen werden. Jedes Mikrofon ist mit einem Kanalzug des Mischpults/
der Aufnahmesoftware verbunden. Durch die Positionierung eines oder mehrerer Empfänger
(Kreis mit Kreuz) werden Tonsignale aus den Schallquellen berechnet, die zum Monitoring
bzw. zum Finden von Signalfehlern oder der Erstellung von Mischungen verwendet werden
können. Den Mikrofonen bzw. Schallquellen werden hierfür verschiedene Funktionstypen
zugeordnet, z.B. Nahmikrofon (Typ "D") oder Ambientmikrofon (Typ "A") oder auch Teil
eines Mikrofonarrays, welches nur zusammen mit den anderen ausgewertet werden soll.
Abhängig von der Funktion werden die genutzten Berechnungsvorschriften angepasst.
Des Weiteren erhält der Nutzer die Möglichkeit, die Berechnung des Ausgabesignals
zu konfigurieren. Außerdem können weitere Parameter eingestellt werden, wie z.B. die
Art der Überblendung zwischen benachbarten Mikrofonen. Variable Bestandteile bzw.
Vorgehensweisen der Berechnung können sein:
- 1. Abstandsabhängige Lautstärke
- 2. Lautstärkeinterpolation zwischen zwei oder mehreren Schallquellen
- 3. Ein kleiner Bereich um die jeweilige Schallquelle, in der nur diese zu hören ist
(der Abstandswert kann konfiguriert werden)
Solche Berechnungsvorschriften der Empfängersignale können verändert werden, beispielsweise
indem:
- 1. Ein Empfängerbereich um die Schallquelle oder den Empfänger angegeben wird,
- 2. Eine Richtcharakteristik für den Empfänger angegeben wird.
Für jede Schallquelle kann ein Typ (z.B.: Direktschallmikrofon, Ambient- oder Diffusschallmikrofon)
gewählt werden. Durch die Wahl des Typs wird die Berechnungsvorschrift des Signals
am Empfänger gesteuert.
[0104] Dies führt in der spezifischen Anwendung zu einer besonders einfachen Bedienung.
Das Vorbereiten einer Aufnahme mit sehr vielen Mikrofonen wird so deutlich vereinfacht.
Hierbei kann bereits im Einrichtungsprozess vor der eigentlichen Aufnahme jedem Mikrofon
eine Position im Mischpult zugewiesen werden. Die Tonmischung muss nicht mehr per
Lautstärkeeinstellung für jede Schallquelle am Kanalzug geschehen, sondern kann durch
die Angabe einer Position des Empfängers in der Schallquellenszene (z.B.: einfacher
Klick per Mouse in die Szene) erfolgen. Basierend auf einem wählbaren Modell zur Berechnung
der Lautstärke am Empfängerort wird für jede Neupositionierung des Empfängers ein
neues Signal berechnet. Durch "Abfahren" der Einzelmikrofone kann so sehr schnell
ein Störsignal identifiziert werden. Gleichfalls kann durch eine Positionierung auch
eine räumliche Tonmischung erstellt werden, wenn das Empfängersignal als Ausgangs-Lautsprechersignal
weiter verwendet wird. Hierbei muss nun nicht mehr für jeden Einzelkanal eine Lautstärke
eingestellt werden, die Einstellung erfolgt durch die Wahl der Position des Empfängers
für alle Schallquellen gleichzeitig. Die Algorithmen bieten zusätzlich ein neuartiges
kreatives Werkzeug.
[0105] Das Schema zur abstandsabhängigen Berechnung von Tonsignalen zeigt Figur 3. Hierbei
wird in Abhängigkeit des Radius R
L ein Lautstärkewert g nach

berechnet. Die Variable x kann verschiedene Werte annehmen, in Abhängigkeit vom Typ
der Schallquelle z.B. x=1; x=1/2. Befindet sich der Empfänger im Kreis mit dem Radius
r
1 gilt ein festgesetzter (konstanter) Lautstärkewert. Je größer die Entfernung der
Schallquelle zum Empfänger ist, desto leiser ist das Tonsignal.
[0106] Ein Schema zur Lautstärkeinterpolation zeigt Figur 5. Hierbei erfolgt die Berechnung
der am Empfänger eintreffenden Lautstärke anhand der Position des Empfängers zwischen
zwei oder mehreren Mikrofonen. Die Auswahl der aktiven Schallquellen kann durch sog.
"Nearest- Neighbor" Algorithmen bestimmt werden. Die Berechnung eines hörbaren Signals
am Empfängerort bzw. an der virtuellen Abhörposition erfolgt durch eine Interpolationsvorschrift
zwischen zwei oder mehreren Schallquellensignalen. Die jeweiligen Lautstärken werden
dabei dynamisch angepasst, um dem Hörer eine stetig angenehme Lautstärke zu ermöglichen.
[0107] Neben der Aktivierung aller Schallquellen gleichzeitig, unter der Verwendung der
distanzabhängigen Lautstärkeberechnung können Schallquellen durch einen weiteren Algorithmus
aktiviert werden. Hierbei wird ein Bereich um den Empfänger mit dem Radius R definiert.
Der Wert von R kann durch den Nutzer variiert werden. Befindet sich die Schallquelle
in diesem Bereich, ist diese für den Empfänger hörbar. Dieser Algorithmus, abgebildet
in Figur 6, kann auch mit der distanzabhängigen Lautstärkeberechnung kombiniert werden.
Um den Empfänger existiert also ein Bereich mit dem Radius R. Befinden sich Schallquellen
innerhalb des Radius, so sind diese für den Empfänger hörbar. Sind die Schallquellen
auβerhalb, fließt deren Signal nicht in die Berechnung des Ausgabesignals ein.
[0108] Zur Berechnung der Lautstärke der Schallquellen am Empfänger bzw. an der virtuellen
Abhörposition ist es möglich, für den Empfänger eine Richtcharakteristik zu definieren.
Diese gibt an, wie stark das Tonsignal einer Schallquelle richtungsabhängig am Empfänger
wirksam ist. Die Richtcharakteristik kann ein frequenzabhängiger Filter oder ein reiner
Lautstärkewert sein. Figur 7 zeigt dies schematisch. Der virtuelle Empfänger ist mit
einem Richtungsvektor versehen, welcher durch den Nutzer rotiert werden kann. Eine
Auswahl simpler Geometrien werden dem Nutzer zur Auswahl gestellt, sowie eine Auswahl
von Richtcharakteristiken populärer Mikrofontypen und auch einige Beispiele menschlicher
Ohren, um einen virtuellen Hörer erstellen zu können. Der Empfänger bzw. das virtuelle
Mikrofon an der virtuellen Abhörposition besitzt beispielsweise eine Nierencharakteristik.
In Abhängigkeit dieser Richtcharakteristik haben die Signale der Schallquellen einen
unterschiedlichen Einfluss beim Empfänger. Entsprechend der Einfallsrichtung werden
Signale unterschiedlich gedämpft.
Zusammengefasst bestehen einige Ausführungsbeispiele aus einem Mischpult zum Verarbeiten
zumindest eines ersten und eines zweiten Quellsignals und zum Bereitstellen eines
abgemischten Tonsignals, wobei das Mischpult einen Tonsignalerzeuger zum Bereitstellen
eines Tonsignales für eine virtuelle Abhörposition innerhalb eines Raumes, in dem
eine akustische Szene von zumindest einem ersten Mikrofon an einer ersten bekannten
Position innerhalb des Raumes als das erstes Quellsignal und von zumindest einem zweiten
Mikrofon an einer zweiten bekannten Position innerhalb des Raumes als das zweite Quellsignal
aufgezeichnet wird, wobei der Tonsignalerzeuger umfasst: eine Eingangsschnittstelle,
die ausgebildet ist, um das von dem ersten Mikrofon aufgenommene erste Quellsignal
und das von dem zweiten Mikrofon aufgenommene zweite Quellsignal zu empfangen; einem
Geometrieprozessor, der ausgebildet ist, um basierend auf der ersten Position und
der virtuellen Abhörposition eine erste Geometrieinformation und um basierend auf
der zweiten Position und der virtuellen Abhörposition eine zweite Geometrieinformation
zu bestimmen; und einem Signalerzeuger zum Bereitstellen des Tonsignales, wobei der
Signalerzeuger ausgebildet ist, zumindest das erste Quellsignal und das zweite Quellsignal
gemäß einer die erste Geometrieinformation und die zweite Geometrieinformation verwendenden
Kombinationsregel zu kombinieren.
[0109] Bei einigen Beispielen ist der Signalerzeuger ausgebildet ist, um eine erste Kombinationsregel
zu verwenden, wenn das erste Mikrofon und das zweite Mikrofon einem ersten Mikrofontyp
zugeordnet sind und um eine zweite, unterschiedliche Kombinationsregel zu verwenden,
wenn das erste Mikrofon und das zweite Mikrofon einem zweiten Mikrofontyp zugeordnet
sind.
[0110] Bei einigen Beispielen wird gemäß der ersten Kombinationsregel ein erster Nahfeldradius
r
1 und gemäß der zweiten Kombinationsregel ein zweiter, unterschiedlicher Nahfeldradius
r
2 verwendet.
[0111] Bei einigen Beispielen ist der erste Mikrofontyp einem Mikrofon zugeordnet, das zur
Aufnahme eines direkten Schallanteils der akustischen Szene dient, wobei der zweite
Mikrofontyp einem Mikrofon zugeordnet ist, das der Aufnahme eines diffusen Schallanteils
der akustischen Szene dient.
[0112] Bei einigen Beispielen umfasst die ersten Kombinationsregel das Bilden einer gewichteten
Summe des ersten Quellsignals und des zweiten Quellsignals, mit einem ersten Gewicht
g
1 für das erste Quellsignal und einem zweiten Gewicht g
2 für das zweite Quellsignal, wobei das erste Gewicht g
1 für das erste Quellsignal proportional zu dem Inversen einer Potenz des ersten Abstandes
d
1 und das zweite Gewicht g
2 für das zweite Quellsignal proportional zu dem inversen einer Potenz des zweiten
Abstandes d
2 ist.
[0113] Bei einigen Beispielen umfasst die zweite Kombinationsregel das Bilden einer gewichteten
Summe des ersten Quellsignals x
1 und des zweiten Quellsignals x
2, wobei die Gewichte g
1 und g
2 von der ersten Geometrieinformation und von der zweiten Geometrieinformation abhängig
sind, wobei die Gewichte g
1 und g
2 für sämtliche möglichen Geometrieinformationen die Randbedingung erfüllen, dass eine
Summe der Gewichte G = g
1+g
2 oder eine quadratische Summe G2 = g
12 + g
22 konstant, insbesondere 1 ist.
[0114] Bei einigen Beispielen umfasst die zweite Kombinationsregel das Bilden einer Gewichteten
Summe x
virt der Quellsignale x
1 und x
2 gemäß zumindest einer der folgenden Überblendregeln:
Überblendregel 1: xvirt1 = g1*x1 + * x2, wobei g2 =;
Überblendregel 2: xvirt2 = cos*x1 + sin*x2, wobei δ ∈ [0°;90°];
Uberblendregel 3: xvirt3 = g1*x1 + g2*x2, wobei

und θ ∈ [0°; 90°];
Uberblendregel 4: xvirt4=g1*x1+g2*x2, wobei

und θ ∈ [0°; 90°].
[0115] Bei einigen Beispielen umfasst die Kombinationsregel ferner das Bilden einer Gewichteten
Summe x
virt aus den mit einem Korrelationskoeffizienten σ
x1x2 für eine Korrelation zwischen dem ersten Quellsignal x
1 und dem zweiten Quellsignal x
2 gewichteten Signale x
virt1 und x
virt23 nach folgender Regel:

wobei x
virt23 entweder x
virt2 oder x
virt3 ist.
[0116] Bei einigen Beispielen wird gemäß der zweiten Kombinationsregel bei dem Bilden der
gewichteten Summe ferner ein drittes Signal x
3 mit einem dritten Gewicht g
3 berücksichtigt, wobei die Positionen der den Quellsignalen x
1, x
2 und x
3 zugeordneten Mikrofone eine dreieckige Fläche aufspannen, innerhalb derer sich die
virtuelle Abhörposition befindet und wobei die Gewichte g
1, g
2 und g
3 für jedes der Quellsignale x
1, x
2 und x
3 jeweils basierend auf einer senkrechten Projektion der virtuelle Abhörposition auf
diejenige Höhe des Dreiecks bestimmt werden, die der Position des dem jeweiligen Quellsignal
zugeordneten Mikrofons zugeordnet ist.
[0117] Einige Beispiele sind ein Tonsignalerzeuger zum Bereitstellen eines Tonsignales für
eine virtuelle Abhörposition basierend auf einem ersten Quellsignal und einem zweiten
Quellsignal, umfassend: einen Geometrieprozessor, der ausgebildet ist, um basierend
auf einer dem ersten Quellsignal zugeordneten ersten Position eine erste Geometrieinformation
und um basierend auf einer dem zweiten Quellsignal zugeordneten zweiten Position eine
zweite Geometrieinformation zu bestimmen; und einen Signalerzeuger zum Bereitstellen
des Tonsignales, wobei der Signalerzeuger ausgebildet ist, zumindest das erste Quellsignal
und das zweite Quellsignal gemäß einer die erste Geometrieinformation und die zweite
Geometrieinformation verwendenden Kombinationsregel zu kombinieren, wobei gemäß der
Kombinationsregel ein erstes Teilsignal x
virt1 gemäß einer ersten Überblendregel und ein zweites Teilsignal x
virt2 gemäß einer zweiten Überblendregel gebildet wird, und wobei das Bereitstellen des
Tonsignales ferner das Bilden einer gewichteten Summe x
virt aus den mit einem Korrelationskoeffizienten
σx1x2 für eine Korrelation zwischen dem ersten Quellsignal x
1 und dem zweiten Quellsignal x
2 gewichteten Signalen x
virt1 und x
virt2 umfasst.
[0118] Bei einigen Beispielen eines Tonsignalerzeugers wird das erste Teilsignal x
virt1 unter Verwendung folgender ersten Überblendregel:

wobei g
2 =; und das zweite Teilsignal x
virt2 unter Verwendung folgender Überblendregel:

wobei δ ∈ [0°;90°] bereitgestellt, wobei das Bereitstellen der gewichteten Summe
ferner folgende Berechnung umfasst:

[0119] Einige Beispiele sind ein Tonsignalerzeuger zum Bereitstellen eines Tonsignales für
eine virtuelle Abhörposition innerhalb eines Raumes, in dem eine akustische Szene
von zumindest einem ersten Mikrofon an einer ersten bekannten Position innerhalb des
Raumes als ein erstes Quellsignal und von zumindest einem zweiten Mikrofon an einer
zweiten bekannten Position innerhalb des Raumes als ein zweites Quellsignal aufgezeichnet
wird, umfassend: eine Eingangsschnittstelle, die ausgebildet ist, um das von dem ersten
Mikrofon aufgenommene erste Quellsignal und das von dem zweiten Mikrofon aufgenommene
zweite Quellsignal zu empfangen; einem Geometrieprozessor, der ausgebildet ist, um
basierend auf der ersten bekannten Position und der virtuellen Abhörposition eine
einen ersten Abstand zwischen der ersten bekannten Position und der virtuellen Abhörposition
umfassende erste Geometrieinformation und um basierend auf der zweiten bekannten Position
und der virtuellen Abhörposition eine einen zweiten Abstand zwischen der zweiten bekannten
Position und der virtuellen Abhörposition umfassende zweite Geometrieinformation zu
bestimmen; und einem Signalerzeuger zum Bereitstellen des Tonsignales, wobei der Signalerzeuger
ausgebildet ist, zumindest das erste Quellsignal und das zweite Quellsignal gemäß
einer die erste Geometrieinformation und die zweite Geometrieinformation verwendenden
Kombinationsregel zu kombinieren.
[0120] Die in der vorstehenden Beschreibung, den nachfolgenden Ansprüchen und den beigefügten
Figuren offenbarten Merkmale können sowohl einzeln wie auch in beliebiger Kombination
für die Verwirklichung eines Ausführungsbeispiels in ihren verschiedenen Ausgestaltungen
von Bedeutung sein und implementiert werden.
[0121] Obwohl manche Aspekte im Zusammenhang mit einem Tonsignalerzeuger beschrieben wurden,
versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens
darstellen, sodass ein Block oder ein Bauelement eines Tonsignalerzeugers auch als
ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes
zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder
als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden
Blocks oder Details oder Merkmals eines entsprechenden Tonsignalerzeugers dar.
[0122] Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der
Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann
unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk,
einer DVD, einer Blu-Ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines
EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen
oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale
gespeichert sind, die mit einer programmierbaren Hardwarekomponente derart zusammenwirken
können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird.
[0123] Eine programmierbare Hardwarekomponente kann durch einen Prozessor, einen Computerprozessor
(CPU = Central Processing Unit), einen Grafikprozessor (GPU = Graphics Processing
Unit), einen Computer, ein Computersystem, einen anwendungsspezifischen integrierten
Schaltkreis (ASIC = Application-Specific Integrated Circuit), einen integrierten Schaltkreis
(IC = Integrated Circuit), ein Ein-Chip-System (SOC = System on Chip), ein programmierbares
Logikelement oder ein feldprogrammierbares Gatterarray mit einem Mikroprozessor (FPGA
= Field Programmable Gate Array) gebildet sein.
[0124] Das digitale Speichermedium kann daher maschinen- oder computerlesbar sein. Manche
Ausführungsbeispiele umfassen also einen Datenträger, der elektronisch lesbare Steuersignale
aufweist, die in der Lage sind, mit einem programmierbaren Computersystem oder einer
programmierbare Hardwarekomponente derart zusammenzuwirken, dass eines der hierin
beschriebenen Verfahren durchgeführt wird. Ein Ausführungsbeispiel ist somit ein Datenträger
(oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das
Programm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
[0125] Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Programm, Firmware,
Computerprogramm oder Computerprogrammprodukt mit einem Programmcode oder als Daten
implementiert sein, wobei der Programmcode oder die Daten dahin gehend wirksam ist
bzw. sind, eines der Verfahren durchzuführen, wenn das Programm auf einem Prozessor
oder einer programmierbaren Hardwarekomponente abläuft. Der Programmcode oder die
Daten kann bzw. können beispielsweise auch auf einem maschinenlesbaren Träger oder
Datenträger gespeichert sein. Der Programmcode oder die Daten können unter anderem
als Quellcode, Maschinencode oder Bytecode sowie als anderer Zwischencode vorliegen.
[0126] Ein weiteres Ausführungsbeispiel ist ferner ein Datenstrom, eine Signalfolge oder
eine Sequenz von Signalen, der bzw. die das Programm zum Durchführen eines der hierin
beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom, die Signalfolge
oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert
sein, um über eine Datenkommunikationsverbindung, beispielsweise über das Internet
oder ein anderes Netzwerk, transferiert zu werden. Ausführungsbeispiele sind so auch
Daten repräsentierende Signalfolgen, die für eine Übersendung über ein Netzwerk oder
eine Datenkommunikationsverbindung geeignet sind, wobei die Daten das Programm darstellen.
[0127] Ein Programm gemäß einem Ausführungsbeispiel kann eines der Verfahren während seiner
Durchführung beispielsweise dadurch umsetzen, dass dieses Speicherstellen ausliest
oder in diese ein Datum oder mehrere Daten hinein schreibt, wodurch gegebenenfalls
Schaltvorgänge oder andere Vorgänge in Transistorstrukturen, in Verstärkerstrukturen
oder in anderen elektrischen, optischen, magnetischen oder nach einem anderen Funktionsprinzip
arbeitenden Bauteile hervorgerufen werden. Entsprechend können durch ein Auslesen
einer Speicherstelle Daten, Werte, Sensorwerte oder andere Informationen von einem
Programm erfasst, bestimmt oder gemessen werden. Ein Programm kann daher durch ein
Auslesen von einer oder mehreren Speicherstellen Größen, Werte, Messgrößen und andere
Informationen erfassen, bestimmen oder messen, sowie durch ein Schreiben in eine oder
mehrere Speicherstellen eine Aktion bewirken, veranlassen oder durchführen sowie andere
Geräte, Maschinen und Komponenten ansteuern.
[0128] Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung
der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen
und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten
einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den
Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten,
die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert
wurden, beschränkt sei.