[0001] Die vorliegende Erfindung bezieht sich auf die Audiosignalverarbeitung und insbesondere
auf Multikanal-Verarbeitungstechniken, die darauf basieren, dass auf der Basis wenigstens
eines Basiskanals bzw. Downmix-Kanals und Mehrkanal-Zusatzinformationen eine Multikanal-Rekonstruktion
eines ursprünglichen Multikanalsignals erzeugt wird.
[0002] Derzeit in der Entwicklung befindliche Technologien ermöglichen eine immer effizientere
Übertragung von Audiosignalen durch Datenreduktion, aber auch eine Steigerung des
Hörgenusses durch Erweiterungen, wie beispielsweise durch den Einsatz der Mehrkanaltechnik.
Beispiele für eine solche Erweiterung der üblichen Übertragungstechniken sind in jüngster
Zeit unter dem Namen Binaural Cue Coding (BCC) sowie "Spatial Audio Coding" bekannt
geworden, wie es in
J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C.
Sprenger, P. Kroon: "Spatial Audio Coding: Next-Generation Efficient and Compatible
Coding of Multi-Channel Audio", 117th. AES Convention, San Francisco 2004, Preprint 6186, beschrieben ist.
[0003] Nachfolgend wird näher auf verschiedene Techniken zum Reduzieren der Datenmenge,
die zur Übertragung eines Multikanal-Audiosignals benötigt wird, eingegangen.
[0004] Solche Techniken werden Joint-Stereo-Techniken genannt. Zu diesem Zweck wird auf
Fig. 3 verwiesen, die eine Joint-Stereo-Vorrichtung 60 zeigt. Diese Vorrichtung kann
eine Vorrichtung sein, die beispielsweise die Intensity-Stereo-(IS-) Technik oder
die Binaural Cue Codiertechnik (BCC) implementiert. Ein solches Gerät empfängt üblicherweise
als Eingangssignal zumindest zwei Kanäle CH1, CH2, .... CHn, und gibt einen einzigen
Trägerkanal sowie parametrische Multikanalinformationen aus. Die parametrischen Daten
sind so definiert, dass in einem Decodierer eine Approximation eines Ursprungskanals
(CH1, CH2, ..., CHn) berechnet werden kann.
[0005] Normalerweise wird der Trägerkanal Subband-Abtastwerte, Spektralkoeffizienten, Zeitbereichsabtastwerte
etc. umfassen, die eine relativ feine Darstellung des zugrundeliegenden Signals liefern,
während die parametrischen Daten keine solchen Abtastwerte oder Spektralkoeffizienten
umfassen, sondern Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus,
wie beispielsweise Gewichten durch multiplizierten, durch Zeitverschieben, durch Frequenzverschieben,
etc. Die parametrischen Multikanalinformationen umfassen daher eine relativ grobe
Darstellung des Signals oder des zugeordneten Kanals. In Zahlen ausgedrückt beträgt
die Menge an Daten, die von einem Trägerkanal benötigt wird, eine Menge von etwa 60
bis 70 kBit/s, während die Menge an Daten, die durch parametrische Seiteninformationen
für einen Kanal benötigt wird, im Bereich von 1,5 bis 2,5 kBit/s ist. Es sei darauf
hingewiesen, dass die vorstehenden Zahlen für komprimierte Daten gelten. Selbstverständlich
benötigt ein nicht-komprimierter CD-Kanal Datenraten im Bereich von etwa dem Zehnfachen.
Ein Beispiel für parametrische Daten sind die bekannten Skalenfaktoren, Intensity-Stereo-Informationen
oder BCC-Parameter, wie es nachfolgend dargelegt wird.
[0006] Die Technik der Intensity-Stereo-Codierung ist in dem AES-Preprint 3799, "
Intensity Stereo Coding", J. Herre, K.H. Brandenburg, D. Lederer, Februar 1994, Amsterdam beschrieben. Allgemein basiert das Konzept von Intensity Stereo auf einer
Hauptachsentransformation, die auf Daten beider stereophoner Audiokanäle durchzuführen
ist. Wenn die meisten Datenpunkte um die erste Hauptachse herum konzentriert sind,
kann ein Codiergewinn erreicht werden, indem beide Signale um einen bestimmten Winkel
gedreht werden, bevor die Codierung stattfindet. Dies ist jedoch nicht immer für reale
stereophone Reproduktionstechniken gegeben. Daher wird diese Technik dahingehend modifiziert,
dass die zweite orthogonale Komponente von der Übertragung in dem Bitstrom ausgeschlossen
wird. Somit bestehen die rekonstruierten Signale für den linken und den rechten Kanal
aus unterschiedlich gewichteten oder skalierten Versionen desselben übertragenen Signals.
Dennoch unterscheiden sich die rekonstruierten Signale in ihrer Amplitude, sie sind
jedoch identisch im Hinblick auf ihre Phaseninformationen. Die Energie-Zeit-Hüllkurven
beider ursprünglicher Audiokanäle werden jedoch durch die selektive Skalierungsoperation
beibehalten, die typischerweise auf frequenzselektive Art und Weise arbeitet. Dies
entspricht der menschlichen Wahrnehmung des Schalls bei hohen Frequenzen, wo die dominanten
räumlichen Informationen durch die Energiehüllkurven bestimmt werden.
[0007] Zusätzlich wird bei praktischen Implementierungen das übertragene Signal, d. h. der
Trägerkanal aus dem Summensignal des linken Kanals und des rechten Kanals anstatt
der Rotation beider Komponenten erzeugt. Ferner wird diese Verarbeitung, d. h. das
Erzeugen von Intensity-Stereo-Parametern zum Durchführen der Skalierungsoperationen
frequenzselektiv durchgeführt, d. h. unabhängig für jedes Skalenfaktorband, d. h.
für jede Codiererfrequenzpartition. Vorzugsweise werden beide Kanäle kombiniert, um
einen kombinierten oder "Träger"-Kanal und zusätzlich zu dem kombinierten Kanal die
Intensity-Stereo-Informationen zu bilden. Die Intensity-Stereo-Informationen hängen
von der Energie des ersten Kanals, der Energie des zweiten Kanals oder der Energie
des kombinierten Kanals ab.
[0008] Die BCC-Technik ist in dem AES-Convention-Paper 5574 "
Binaural Cue Coding applied to stereo and multichannel audio compression", T. Faller,
F. Baumgarte, Mai 2002, München, beschrieben. Bei der BCC-Codierung wird eine Anzahl von Audioeingangskanälen
in eine Spektraldarstellung umgewandelt, und zwar unter Verwendung einer DFT-basierten
Transformation mit überlappenden Fenstern. Das resultierende Spektrum wird in nicht-überlappende
Abschnitte eingeteilt, von denen jeder einen Index hat. Jede Partition hat eine Bandbreite
proportional zu der äquivalenten Rechteckbandbreite (ERB). Die Inter-Kanal-Pegelunterschiede
(ICLD; ICLD = Inter Channel Level Differences) und die Interkanal-Zeitunterschiede
(ICTD; ICTD = Inter Channel Time Differences) werden für jede Partition und für jeden
Frame k ermittelt. Die ICLD und ICTD werden quantisiert und codiert, um schließlich
als Seiteninformationen in einen BCC-Bitstrom zu kommen. Die Interkanal-Pegelunterschiede
und die Interkanal-Zeitunterschiede sind für jeden Kanal relativ zu einem Referenzkanal
gegeben. Dann werden die Parameter gemäß vorbestimmter Formeln berechnet, die von
den bestimmten Partitionen des zu verarbeitenden Signals abhängen.
[0009] Auf Decodiererseite empfängt der Decodierer typischerweise ein Monosignal und den
BCC-Bitstrom. Das Monosignal wird in den Frequenzbereich transformiert und in einen
Raumsyntheseblock (Spatial-Syntheseblock) eingegeben, der auch decodierte ICLD- und
ICTD-Werte empfängt. In dem Spatial-Syntheseblock werden die BCC-Parameter (ICLD und
ICTD) verwendet, um eine Gewichtungsoperation des Monosignals durchzuführen, um die
Multikanalsignale zu synthetisieren, die, nach einer Frequenz-/Zeit-Umwandlung eine
Rekonstruktion des ursprünglichen Multikanal-Audiosignals darstellen.
[0010] Im Fall von BCC ist das Joint-Stereo-Modul 60 wirksam, um die kanalseitigen Informationen
so auszugeben, dass die parametrischen Kanaldaten quantisierte und codierte ICLD-
oder ICTD-Parameter sind, wobei einer der ursprünglichen Kanäle als Referenzkanal
zum Codieren der Kanalseiteninformationen verwendet wird.
[0011] Normalerweise wird der Trägersignal aus der Summe der teilnehmenden Ursprungskanäle
gebildet.
[0012] Natürlich liefern die obigen Techniken nur eine Monodarstellung für einen Decodierer,
der nur den Trägerkanal verarbeiten kann, der jedoch nicht in der Lage ist, die parametrischen
Daten zur Erzeugung von einer oder mehreren Approximationen von mehr als einem Eingangskanal
zu verarbeiten.
[0014] Nachfolgend wird ein typisches BCC-Schema zur Multikanalaudiocodierung detaillierter
dargestellt, und zwar Bezug nehmend auf die Fig. 4 bis 6.
[0015] Fig. 5 zeigt ein solches BCC-Schema zur Codierung/Übertragung von Multikanalaudiosignalen.
Das Multikanalaudioeingangssignal an einem Eingang 110 eines BCC-Codierers 112 wird
in einem sogenannten Downmix-Block 114 heruntergemischt. Bei diesem Beispiel ist das
ursprüngliche Multikanalsignal an dem Eingang 110 ein 5-Kanal-Surround-Signal mit
einem vorderen linken Kanal, einem vorderen rechten Kanal, einem linken Surround-Kanal,
einem rechten Surround-Kanal und einem Mittenkanal. Bei dem bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung erzeugt der Downmix-Block 114 ein Summensignal durch eine
einfache Addition dieser fünf Kanäle in ein Monosignal.
[0016] Andere Downmixing-Schemen sind in der Technik bekannt, so dass unter Verwendung eines
Multikanal-Eingangssignals ein Downmix-Kanal mit einem einzigen Kanal erhalten wird.
[0017] Dieser einzige Kanal wird an einer Summensignalleitung 115 ausgegeben. Eine Seiteninformation,
die von dem BCC-Analyseblock 116 erhalten wird, wird auf einer Seiteninformationsleitung
117 ausgegeben.
[0018] Bei dem BCC-Analyseblock werden Interkanal-Pegelunterschiede (ICLD) und Interkanal-Zeitunterschiede
(ICTD) berechnet, wie es vorstehend dargestellt worden ist. Neuerdings ist der BCC-Analyseblock
116 auch in der Lage, Interkanal-Korrelationswerte (ICC-Werte) zu berechnen. Das Summensignal
und die Seiteninformationen werden in einem quantisierten und codierten Format zu
einem BCC-Decodierer 120 übertragen. Der BCC-Decodierer zerlegt das übertragene Summensignal
in eine Anzahl von Subbändern und führt Skalierungen, Verzögerungen und andere Verarbeitungsschritte
aus, um die Subbänder der auszugebenden Multikanal-Audiokanäle zu liefern. Diese Verarbeitung
wird so durchgeführt, dass die ICLD-, ICTD- und ICC-Parameter (Cues) eines rekonstruierten
Multikanalsignals am Ausgang 121 mit den entsprechenden Cues für das ursprüngliche
Multikanalsignal am Eingang 110 in dem BCC-Codierer 112 übereinstimmen. Zu diesem
Zweck umfasst der BCC-Decodierer 120 einen BCC-Syntheseblock 122 und einen Seiteninformationenüberarbeitungsblock
123.
[0019] Nachfolgend wird der interne Aufbau des BCC-Syntheseblocks 122 Bezug nehmend auf
Fig. 6 dargestellt. Das Summensignal auf der Leitung 115 wird in eine Zeit-/Frequenz-Umwandlungseinheit
oder Filterbank FB 125 eingespeist. Am Ausgang des Blocks 125 existiert eine Anzahl
N von Subbandsignalen oder, in einem Extremfall, ein Block von Spektralkoeffizienten,
wenn die Audio-Filterbank 125 eine 1:1-Transformation durchführt, d. h. eine Transformation,
die N Spektralkoeffizienten aus N Zeitbereichsabtastwerten erzeugt.
[0020] Der BCC-Syntheseblock 122 umfasst ferner eine Verzögerungsstufe 126, eine Pegelmodifikationsstufe
127, eine Korrelationsverarbeitungsstufe 128 und eine Inversfilterbankstufe IFB 129.
Am Ausgang der Stufe 129 kann das rekonstruierte Multikanalaudiosignal mit beispielsweise
fünf Kanälen im Falle eines 5-Kanal-Surroundsystems zu einem Satz von Lautsprechern
124 ausgegeben werden, wie sie in Fig. 5 oder Fig. 4 dargestellt sind.
[0021] Das Eingangssignal sn wird in den Frequenzbereich oder den Filterbankbereich mittels
des Elements 125 umgewandelt. Das Signal, das vom Element 125 ausgegeben wird, wird
derart kopiert, dass mehrere Versionen desselben Signals erhalten werden, wie es durch
den Kopierknoten 130 dargestellt ist. Die Anzahl der Versionen des ursprünglichen
Signals ist gleich der Anzahl der Ausgangskanäle in dem Ausgangssignal. Dann wird
jede Version des ursprünglichen Signals am Knoten 130 einer bestimmten Verzögerung
d
1, d
2, ..., d
i, ... d
N unterzogen. Die Verzögerungsparameter werden durch den Seiteninformationsverarbeitungsblock
123 in Fig. 5 berechnet und von den Interkanal-Zeitunterschieden, wie sie durch den
BCC-Analyseblock 116 von Fig. 5 berechnet worden sind, abgeleitet.
[0022] Dasselbe gilt für die Multiplikationsparameter a
1, a
2, ..., a
i, ..., aN, die ebenfalls durch den Seiteninformationsverarbeitungsblock 123 basierend
auf den Interkanal-Pegelunterschieden, wie sie durch den BCC-Analyseblock 116 berechnet
worden sind, berechnet werden.
[0023] Die durch den BCC-Analyseblock 116 berechneten ICC-Parameter werden zum Steuern der
Funktionalität des Blocks 128 verwendet, so dass bestimmte Korrelationen zwischen
den verzögerten und in ihren Pegeln manipulierten Signalen an den Ausgängen des Blocks
128 erhalten werden. Es sei hier darauf hingewiesen, dass die Reihenfolge der Stufen
126, 127, 128 von der in Fig. 6 gezeigten Reihenfolge abweichen kann.
[0024] Es sei darauf hingewiesen, dass bei einer rahmenweisen Verarbeitung des Audiosignals
auch die BCC-Analyse rahmenweise durchgeführt wird, also zeitlich variabel, und dass
ferner eine frequenzweise BCC-Analyse erhalten wird, wie es durch die Filterbank-Aufteilung
aus Fig. 6 ersichtlich ist. Dies bedeutet, dass die BCC-Parameter für jedes Spektralband
erhalten werden. Dies bedeutet ferner, dass in dem Fall, in dem die Audiofilterbank
125 das Eingangssignal in beispielsweise 32 Bandpasssignale zerlegt, der BCC-Analyseblock
einen Satz von BCC-Parametern für jedes der 32 Bänder erhält. Natürlich führt der
BCC-Syntheseblock 122 von Fig. 5, der detailliert in Fig. 6 dargestellt ist, eine
Rekonstruktion durch, die auch auf den beispielhaft genannten 32 Bändern basiert.
[0025] Nachfolgend wird Bezug nehmend auf Fig. 4 ein Szenario dargestellt, das dazu verwendet
wird, um einzelne BCC-Parameter zu bestimmen. Normalerweise können die ICLD-, ICTD-
und ICC-Parameter zwischen Kanalpaaren definiert werden. Es wird jedoch bevorzugt,
die ICLD- und ICTD-Parameter zwischen einem Referenzkanal und jedem anderen Kanal
zu bestimmen. Dies ist in Fig. 4A dargestellt.
[0026] ICC-Parameter können auf verschiedene Arten und Weisen definiert werden. Allgemein
gesagt kann man ICC-Parameter in dem Codierer zwischen allen möglichen Kanalpaaren
bestimmen, wie es in Fig. 4B dargestellt ist. Es wurde jedoch vorgeschlagen, nur ICC-Parameter
zwischen den stärksten zwei Kanälen zu einem Zeitpunkt zu berechnen, wie es in Fig.
4C dargestellt ist, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein ICC-Parameter
zwischen den Kanälen 1 und 2 berechnet wird, und zu einem anderen Zeitpunkt ein ICC-Parameter
zwischen den Kanälen 1 und 5 berechnet wird. Der Decodierer synthetisiert dann die
Interkanalkorrelation zwischen den stärksten Kanälen in dem Decoder und verwendet
bestimmte heuristische Regeln zum Berechnen und Synthetisieren der Interkanalkohärenz
für die restlichen Kanalpaare.
[0027] Bezüglich der Berechnung beispielsweise der Multiplikationsparameter a
1, aN basierend auf den übertragenen ICLD-Parametern wird auf das AES-Convention-Paper
Nr. 5574 Bezug genommen. Die ICLD-Parameter stellen eine Energieverteilung eines ursprünglichen
Mehrkanalsignals dar. Ohne Verlust der Allgemeinheit wird es bevorzugt, wie es in
Fig. 4A gezeigt, vier ICLD-Parameter zu nehmen, die die Energiedifferenz zwischen
den jeweiligen Kanälen und dem vorderen linken Kanal darstellen. In dem Seiteninformationsverarbeitungsblock
122 werden die Multiplikationsparameter a
1, ..., aN von den ICLD-Parametern so abgeleitet, dass die gesamte Energie aller rekonstruierter
Ausgangskanäle dieselbe ist (oder proportional zu der Energie des übertragenen Summensignals
ist).
[0028] Allgemein findet bei solchen insbesondere parametrischen Multikanalcodierschemen
eine Erzeugung wenigstens eines Basiskanals sowie der Seiteninformationen statt, wie
es aus Fig. 5 ersichtlich ist. Typischerweise werden Block-basierte Schemen verwendet,
bei denen, wie es ebenfalls aus Fig. 5 ersichtlich ist, das ursprüngliche Multikanalsignal
am Eingang 110 einer Block-Verarbeitung durch eine Block-Stufe 111 unterzogen wird,
derart, dass aus einem Block von beispielsweise 1152 Abtastwerten das Downmix-Signal
bzw. Summensignal bzw. der wenigstens eine Basiskanal für diesen Block gebildet wird,
während gleichzeitig für diesen Block durch die BCC-Analyse die entsprechenden Multikanal-Parameter
erzeugt werden. Nach dem Downmix-Kanal wird das Summensignal typischerweise wieder
mit einem Block-basierten Codierer, wie beispielsweise einem MP3-Codierer oder einem
AAC-Codierer codiert, um eine weitere Datenratenreduktion zu erhalten. Genauso werden
die Parameterdaten codiert, beispielsweise durch Differenzcodierung, Skalierung/Quantisierung
und Entropie-Codierung.
[0029] Dann, am Ausgang des gesamten Codierers, der also den BCC-Codierer 112 sowie eine
nachgeschalteten Basiskanal-Codierer umfasst, wird ein gemeinsamer Datenstrom geschrieben,
in dem ein Block des wenigstens einen Basiskanals auf einen früheren Block des wenigstens
einen Basiskanals folgt, und in dem die codierten Mehrkanal-Zusatzinformationen ebenfalls
beispielsweise durch einen Bitstrommultiplexer eingetastet werden.
[0030] Diese Eintastung findet so statt, dass der Datenstrom aus Basiskanaldaten und Mehrkanal-Zusatzinformationen
immer einen Block von Basiskanaldaten umfasst und in Zuordnung zu diesem Block einen
Block von Mehrkanal-Zusatzdaten umfasst, die dann z. B. einen gemeinsamen Übertragungsframe
bilden. Dieser Übertragungsframe wird dann über eine Übertragungsstrecke zu einem
Decodierer geschickt.
[0031] Der Decodierer umfasst eingangsseitig wieder einen Datenstrom-Demultiplexer, um einen
Frame des Datenstroms in einen Block von Basiskanaldaten und einen Block von zugehörigen
Mehrkanal-Zusatzinformationen zu splitten. Dann wird der Block von Basisdaten z. B.
durch einen MP3-Decodierer oder einen AAC-Decodierer decodiert. Dieser Block von decodierten
Basisdaten wird dann zusammen mit dem Block von gegebenenfalls ebenfalls decodierten
Mehrkanal-Zusatzinformationen dem BCC-Decodierer 120 zugeführt.
[0032] Damit ist aufgrund der gemeinsamen Übertragung von Basiskanaldaten und Zusatzinformationen
die zeitliche Zuordnung der Zusatzinformationen zu den Basiskanaldaten automatisch
festgelegt und durch einen Decodierer, der frameweise arbeitet, ohne weiteres wieder
herzustellen. Der Decodierer findet also aufgrund der gemeinsamen Übertragung der
beiden Datenarten in einem einzigen Datenstrom gewissermaßen automatisch die einem
Block von Basiskanaldaten zugehörigen Zusatzinformationen, damit eine Multikanal-Rekonstruktion
mit hoher Qualität möglich ist. Es wird also keine Problematik auftreten, dass die
Mehrkanal-Zusatzinformationen einen zeitlichen Versatz zu den Basiskanaldaten haben.
Würde jedoch ein solcher Versatz vorhanden sein, so würde dies zu einer erheblichen
Qualitätseinbuße der Multikanal-Rekonstruktion führen, da dann ein Block von Basiskanaldaten
zusammen mit Mehrkanal-Zusatzdaten verarbeitet wird, obgleich diese Mehrkanal-Zusatzdaten
gar nicht zu dem Block von Basisdaten gehören, sondern z. B. zu einem früheren oder
späteren Block.
[0033] Ein solches Szenario, bei dem die Zuordnung zwischen Mehrkanal-Zusatzdaten und Basiskanaldaten
nicht mehr gegeben ist, wird dann auftreten, wenn kein gemeinsamer Datenstrom geschrieben
wird, sondern wenn ein eigener Datenstrom mit den Basiskanaldaten existiert und ein
anderer davon getrennter Datenstrom mit den Mehrkanal-Zusatzinformationen vorhanden
ist. Eine solche Situation kann beispielsweise bei einem sequenziell arbeitenden Übertragungssystem
entstehen, wie beispielsweise Rundfunk oder Internet. Hier wird das zu übertragende
Audioprogramm in Audiobasisdaten (Mono- oder Stereodownmix-Audiosignal) und Erweiterungsdaten
(Mehrkanal-Zusatzinformationen) aufgeteilt, welche einzeln oder kombiniert ausgestrahlt
werden. Selbst wenn die beiden Datenströme noch von einem Sender zeitlich synchron
ausgesendet werden, können auf dem Übertragungsweg zum Empfänger viele "Überraschungen"
lauern, die dazu führen, dass der im Hinblick auf die Anzahl von Bits wesentlich kompaktere
Datenstrom mit den Mehrkanal-Zusatzdaten z. B. schneller zu einem Empfänger übertragen
wird als der Datenstrom mit den Basiskanaldaten.
[0034] Ferner wird es bevorzugt, Codierer/Decodierer mit nichtkonstanter Ausgangsdatenrate
einzusetzen, um eine besonders gute Biteffizienz zu erreichen. Hier ist nicht vorhersehbar,
wie lange die Decodierung eines Blocks von Basiskanaldaten dauert. Ferner hängt diese
Verarbeitung auch von den tatsächlich eingesetzten Hardware-Komponenten zum Decodieren
ab, wie sie beispielsweise in einem PC oder digitalen Empfänger vorhanden sein müssen.
Ferner existieren auch System- bzw. algorithmisch-inhärente Unschärfen, da insbesondere
bei der Bitsparkassentechnik zwar im Mittel eine konstante Ausgangsdatenrate erzeugt
wird, allerdings, lokal betrachtet, Bits, die für einen besonders gut zu codierenden
Block nicht benötigt werden, angespart werden, um für einen anderen Block, der besonders
schwer zu codieren ist, weil das Audiosignal z. B. besonders transient ist, aus der
Bitsparkasse wieder entnommen zu werden.
[0035] Andererseits hat die Trennung des oben beschriebenen gemeinsamen Datenstroms in zwei
einzelne Datenströme besondere Vorteile. So ist ein klassischer Empfänger, also z.
B. ein reiner Mono- oder Stereoempfänger jederzeit unabhängig von Inhalt und Version
der Mehrkanal-Zusatzinformationen in der Lage, die Audiobasisdaten zu empfangen und
wiederzugeben. Die Auftrennung in separate Datenströme sichert also die Rückwärtskompatibilität
des gesamten Konzepts.
[0036] Dagegen kann ein Empfänger der neueren Generation diese Mehrkanal-Zusatzdaten auswerten
und mit dem Audiobasisdaten so kombinieren, dass dem Nutzer die vollständige Erweiterung,
hier der Mehrkanalton, zur Verfügung gestellt werden kann.
[0037] Ein besonders interessantes Anwendungsszenario der getrennten Übertragung von Audiobasisdaten
und Erweiterungsdaten liegt beim digitalen Rundfunk. Hier kann mit Hilfe der Mehrkanal-Zusatzinformationen
das bisher ausgestrahlte Stereoaudiosignal durch geringen zusätzlichen Übertragungsaufwand
auf ein Mehrkanalformat, wie beispielsweise 5.1, erweitert werden. Hier erzeugt der
Programmanbieter auf der Senderseite aus Mehrkanaltonquellen, wie sie beispielsweise
auf DVD-Audio/Video zu finden sind, die Mehrkanalzusatzinformationen. Anschließend
werden diese Mehrkanalzusatzinformationen parallel zum wie bisher ausgestrahlten Audiostereosignal
übertragen, welches nun jedoch nicht einfach ein Stereosignal ist, sondern zwei Basiskanäle
umfasst, die durch irgendeinen Downmix von dem Multikanalsignal abgeleitet worden
sind. Für den Hörer hört sich das Stereosignal der beiden Basiskanäle jedoch wie ein
übliches Stereosignal an, da bei der Multikanal-Analyse letztendlich ähnliche Schritte
vorgenommen werden, wie sie von einem Tonmeister, der ein Stereosignal aus mehreren
Tracks abgemischt hat, vorgenommen worden sind.
[0038] Ein großer Vorteil der Auftrennung besteht in der Kompatibilität mit den bisher bestehenden
digitalen Rundfunkübertragungssystemen. Ein klassischer Empfänger, der diese Zusatzinformationen
nicht auswerten kann, wird wie bisher das Zweikanaltonsignal ohne irgendwelchen qualitativen
Einschränkungen empfangen und wiedergeben können. Ein Empfänger neuerer Bauart hingegen
kann zusätzlich zum bisher empfangenen Stereotonsignal diese Mehrkanalinformation
auswerten, decodieren und das ursprüngliche 5.1-Mehrkanalsignal daraus rekonstruieren.
[0039] Um die gleichzeitige Übertragung der Mehrkanalzusatzinformation als Ergänzung zum
bisher verwendeten Stereosignal zu ermöglichen, kann man, wie es bereits ausgeführt
worden ist, für ein digitales Rundfunksystem die Mehrkanalzusatzinformationen mit
dem codierten Downmixaudiosignal kombinieren, also dass es einen einzigen Datenstrom
gibt, der dann gegebenenfalls skalierbar ist und ebenfalls von einem existierenden
Empfänger gelesen werden kann, der jedoch die zusätzlichen Daten bezüglich der Mehrkanal-Zusatzinformationen
ignoriert.
[0040] Der Empfänger sieht also nur einen (gültigen) Audiodatenstrom und kann, wenn er ein
Empfänger der neueren Bauart ist, aus dem Datenstrom ferner die Mehrkanaltonzusatzinformationen
über einen entsprechend vorgeschalteten Datenverteiler wieder synchron zu dem zugehörigen
Audiodatenblock extrahieren, decodieren und als 5.1-Mehrkanalton ausgeben.
[0041] Nachteilig an diesem Ansatz ist jedoch die Erweiterung der vorhandenen Infrastruktur
bzw. der vorhandenen Datenwege, sodass sie statt wie bisher lediglich die Stereoaudiosignale
die aus Downmixsignalen und Erweiterung kombinierten Datensignale transportieren können.
Wenn man also das Standardübertragungsformat für Stereodaten verlässt, kann die Synchronität
auch bei Rundfunkübertragungen durch den gemeinsamen Datenstrom gewährleistet werden.
[0042] Allerdings ist es für eine Durchsetzung am Markt höchst problematisch, wenn bestehende
Rundfunk-Infrastrukturen geändert werden müssen, wenn also die Problematik nicht nur
auf Seiten der Decodierer existiert, sondern auch auf Seiten der Rundfunksender und
der normierten Übertragungsprotokolle. Dieses Konzept ist also aufgrund der Problematik,
ein einmal standardisiertes und implementiertes System wieder zu ändern, sehr nachteilhaft.
[0043] Die andere Alternative besteht darin, die Mehrkanal-Zusatzinformationen nicht an
das verwendete Audiocodierungssystem zu koppeln und daher nicht in den eigentlichen
Audiodatenstrom einzutasten. In diesem Fall erfolgt die Übertragung über einen gesonderten,
aber zeitlich nicht notwendigerweise synchronisierten parallelen digitalen Zusatzkanal.
Diese Situation kann dann auftreten, wenn die Downmixdaten in unreduzierter Form,
beispielsweise als PCM-Daten per AES/EBU-Datenformat durch eine in Studios vorhandene
übliche Audioverteilungsinfrastruktur geleitet werden. Diese Infrastrukturen sind
darauf ausgerichtet, Audiosignale zwischen diversen Quellen digital zu verteilen.
Hierzu werden normalerweise als "Kreuzschienen" bekannte Funktionseinheiten eingesetzt.
Alternativ oder zusätzlich werden Audiosignale auch im PCM-Format zu Zwecken der Klangregelung
und Dynamikkompression verarbeitet. Alle diese Schritte führen auf einem Weg vom Sender
zum Empfänger zu unkalkulierbaren Verzögerungen.
[0044] Andererseits ist die getrennte Übertragung von Basiskanaldaten und Mehrkanal-Zusatzinformationen
besonders interessant, da bestehende Stereo-Infrastrukturen nicht verändert werden
müssen, also die bezüglich der ersten Möglichkeit beschriebenen Nachteile der Nicht-Standardkonformität
hier nicht auftreten. Ein Rundfunksystem muss lediglich einen zusätzlichen Kanal senden,
jedoch nicht die Infrastruktur für den bereits existierenden Stereokanal verändern.
Der Zusatzaufwand wird daher gewissermaßen allein auf Seiten der Empfänger getrieben,
jedoch so, dass Rückwärtskompatibilität besteht, dass also ein Benutzer, der einen
neuen Empfänger hat, eine bessere Klangqualität bekommt als ein Benutzer, der einen
alten Empfänger hat.
[0045] Wie es bereits ausgeführt worden ist, kann die Größenordnung der zeitlichen Verschiebung
nicht mehr aus dem empfangenen Audiosignal und den Zusatzinformationen ermittelt werden.
Damit ist eine zeitlich korrekte Rekonstruktion und Zuordnung des Mehrkanalsignals
im Empfänger nicht mehr gewährleistet. Ein weiteres Beispiel für ein solches Verzögerungs-Problem
besteht, wenn ein bereits laufendes zweikanaliges Übertragungssystem auf Multikanal-Übertragung
erweitert werden soll, beispielsweise in einem Empfänger eines digitalen Radios. Hier
ist es oft der Fall, dass die Decodierung des Downmixsignals mittels eines im Empfänger
bereits vorhandenen Zwei-Kanal-Audiodecodierers geschieht, dessen Verzögerungszeit
nicht bekannt ist und damit auch nicht ausgeglichen werden kann. Im Extremfall kann
das Downmix-Audiosignal den Multikanal-Rekonstruktions-Audiodecodierer sogar über
eine Übertragungskette erreichen, die analoge Teile enthält, d. h. dass einem Punkt
eine Digital/Analog-Umsetzung vorgenommen und nach einer weiteren Speicherung/Übertragung
wieder eine Analog/DigitalUmsetzung stattfindet. Etwas derartiges findet immer bei
einer Funkübertragung statt. Auch hier sind zunächst keinerlei Anhaltspunkte verfügbar,
wie ein passender Verzögerungsausgleich des Downmixsignals relativ zu den Mehrkanalzusatzdaten
durchgeführt werden kann. Auch wenn die Abtastfrequenz für die A/D-Wandlung und die
Abtastfrequenz für die D/A-Wandlung leicht voneinander abweichen, entsteht eine langsame
zeitliche Drift der notwendigen Ausgleichsverzögerung entsprechend dem Verhältnis
der beiden Abtastraten zueinander.
[0046] Zur Synchronisation der Zusatzdaten zu den Basisdaten können verschiedene Techniken
eingesetzt werden, die unter dem Begriff "Zeitsynchronisierungsverfahren" bekannt
sind. Diese basieren darauf, Zeitstempel in beide Datenströme einzutasten, derart,
dass anhand dieser Zeitstempel im'Empfänger eine korrekte Zuordnung der zueinander
gehörigen Daten erreicht werden kann. Das Eintasten von Zeitstempeln führt jedoch
ebenfalls bereits zu einer Änderung der normalen Stereo-Infrastruktur.
[0047] Die
WO 2005/011281 A1 offenbart ein Verfahren und eine Vorrichtung zum Erzeugen und Erfassen von Fingerabdrücken
zur Synchronisation von Audio- und Video-Signalen. Insbesondere werden ein erster
Fingerabdruck und ein zweiter Fingerabdruck erzeugt, die zur Synchronisation von zumindest
zwei Signalen verwendbar sind. Hierzu werden ein Segment eines ersten Signals, beispielsweise
eines Audio-Signals, und ein Segment eines zweiten Signals, beispielsweise eines VideoSignals
an jedem Synchronisationszeitpunkt verwendet. Die erzeugten Fingerabdruck-Paare werden
in einer Datenbank gespeichert und zu einem Synchronisationsgerät übermittelt. Während
der Synchronisation werden Fingerabdrücke des Audio-Signals und Fingerabdrücke des
Videosignals erzeugt und mit den Fingerabdrücken in der Datenbank verglichen. Wenn
eine Übereinstimmung herausgefunden worden ist, bezeichnen die Fingerabdrücke auch
den Synchronisationszeitpunkt, der verwendet wird, um die zwei Signale zu synchronisieren.
[0048] Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen eines
Datenstroms bzw. zum Erzeugen einer Multikanal-Darstellung zu schaffen, durch das
eine Synchronisierung von Basiskanaldaten und Mehrkanal-Zusatzinformationen erreichbar
ist.
[0049] Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Datenstroms gemäß Patentanspruch
1, eine Vorrichtung zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch
17, ein Verfahren zum Erzeugen eines Datenstroms gemäß Patentanspruch 26, ein Verfahren
zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 27, ein Computer-Programm-Produkt
nach patentanspruch 28 oder eine Datenstromdarstellung nach Patentanspruch 29 gelöst.
[0050] Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass eine getrennte Übertragung
und zeitsynchrone Zusammenführung eines Basiskanaldatenstroms und eines Mehrkanal-Zusatzinformationen-Datenstroms
dadurch ermöglicht wird, dass auf "Senderseite" der Multikanal-Datenstrom dahingehend
modifiziert wird, dass Fingerabdruckinformationen, die einen zeitlichen Verlauf des
wenigstens einen Basiskanals wiedergeben, in den Datenstrom mit den Mehrkanal-Zusatzinformationen
derart eingebracht werden, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen
und den Fingerabdruck-Informationen ableitbar ist. So gehören bestimmte Mehrkanal-Zusatzinformationen
zu bestimmten Basiskanaldaten. Genau diese Zuordnung muss auch bei der Übertragung
getrennter Datenströme gesichert werden.
[0051] Erfindungsgemäß wird auf Senderseite die Zugehörigkeit von Mehrkanal-Zusatzinformationen
zu Basiskanaldaten dadurch signalisiert, dass von den Basiskanal-Daten Fingerabdruckinformationen
ermittelt werden, mit denen die Mehrkanal-Zusatzinformationen, die zu genau diesen
Basiskanaldaten gehören, gewissermaßen markiert werden. Diese Markierung bzw. Signalisierung
des Zusammenhangs zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen
wird bei einer blockweisen Datenverarbeitung dadurch erreicht, dass einem Block von
Mehrkanal-Zusatzinformationen, die genau zu einem Block von Basiskanaldaten gehören,
ein Block-Fingerabdruck genau dieses Blocks von Basiskanaldaten zugeordnet werden,
zu dem der betrachtete Block von Mehrkanal-Zusatzinformationen gehört.
[0052] In anderen Worten wird ein Fingerabdruck genau des Basiskanaldatenblocks, mit dem
zusammen die Mehrkanal-Zusatzinformationen bei der Rekonstruktion verarbeitet werden
müssen, den Mehrkanal-Zusatzinformationen zugeordnet. Bei einer Block-basierten Übertragung
kann der Block-Fingerabdruck des Blocks von Basiskanaldaten in der Blockstruktur des
Mehrkanal-Zusatzdatenstroms derart eingetastet werden, dass jeder Block von Mehrkanal-Zusatzinformationen
den Block-Fingerabdruck der zugehörigen Basisdaten enthält. Der Block-Fingerabdruck
kann im unmittelbaren Anschluss an einen bisher verwendeten Block von Mehrkanal-Zusatzinformationen
geschrieben werden, oder kann vor den bisher bestehenden Block geschrieben werden,
oder kann an irgendeiner bekannten Stelle innerhalb dieses Blocks geschrieben werden,
sodass bei der Multikanal-Rekonstruktion der Block-Fingerabdruck zu Synchronisationszwecken
auslesbar ist. In dem Datenstrom befinden sich daher normale Mehrkanal-Zusatzdaten,
sowie entsprechend eingestreut die Block-Fingerabdrücke.
[0053] Alternativ könnte der Datenstrom auch so geschrieben werden, dass z. B. alle Block-Fingerabdrücke,
versehen mit einer Zusatzinformation, wie beispielsweise einem Block-Counter, am Anfang
des erfindungsgemäß erzeugten Datenstroms stehen, sodass ein erster Abschnitt des
Datenstroms lediglich Block-Fingerabdrücke enthält und ein zweiter Teil des Datenstroms
die zu den Block-Fingerabdruckinformationen gehörigen blockweise geschriebenen Mehrkanal-Zusatzdaten
enthält. Diese Alternative hat den Nachteil, dass Referenzinformationen benötigt werden,
wobei jedoch die Zugehörigkeit der Block-Fingerabdrücke zu den blockweise geschriebenen
Mehrkanal-Zusatzinformationen auch implizit durch die Reihenfolge gegeben sein kann,
sodass keine zusätzlichen Informationen nötig sind.
[0054] In diesem Fall könnte bei der Multikanal-Rekonstruktion zu Synchronisationszwecken
einfach zunächst eine große Anzahl von Block-Fingerabdrücken eingelesen werden, um
die Referenz-Fingerabdruckinformationen zu erhalten. Nach und nach kommen dann die
Test-Fingerabdrücke hinzu, bis eine für eine Korrelation verwendete minimale Anzahl
von Test-Fingerabdrücken vorliegen. Während dieser Zeitdauer könnte der Satz von Referenz-Fingerabdrücken
z. B. bereits einer Differenz-Codierung unterworfen werden, wenn die Korrelation bei
der Multikanal-Rekonstruktion unter Verwendung von Differenzen durchgeführt wird,
während im Datenstrom keine Differenz-Block-Fingerabdrücke sondern Absolut-Block-Fingerabdrücke
enthalten sind.
[0055] Allgemein gesagt wird auf Empfängerseite der Datenstrom mit den Basiskanaldaten verarbeitet,
also zunächst beispielsweise decodiert und dann einem Multikanal-Rekonstruierer zugeführt.
Vorzugsweise ist dieser Multikanal-Rekonstruierer so ausgebildet, dass er dann, wenn
er keine Zusatzinformationen bekommt, einfach eine Durchschaltung vornimmt, um die
vorzugsweise zwei Basiskanäle als Stereosignal auszugeben. Parallel hierzu findet
die Extraktion der Referenz-Fingerabdruckinformationen und die Berechnung der Test-Fingerabdruckinformationen
aus den decodierten Basiskanaldaten statt, um dann eine Korrelationsberechnung durchzuführen,
um den Versatz der Basiskanaldaten zu den Mehrkanal-Zusatzdaten zu errechnen. Je nach
Implementierung kann dann durch eine weitere Korrelationsberechnung verifiziert werden,
dass dieser Versatz auch der richtige Versatz ist. Dies wird dann der Fall sein, wenn
der Versatz, der durch die zweite Korrelationsberechnung erhalten worden ist, nicht
mehr als um eine vorbestimmte Schwelle von dem Versatz, der durch die erste Korrelationsberechnung
erhalten worden ist, abweicht.
[0056] War dies der Fall, so kann davon ausgegangen werden, dass der Versatz richtig war.
Hierauf wird nach dem Erhalt synchronisierter Mehrkanal-Zusatzinformationen von einer
Stereoausgabe auf die Multikanal-Ausgabe umgeschaltet.
[0057] Dieses Prozedere wird dann bevorzugt, wenn ein Benutzer von der Zeit, die zur Synchronisierung
benötigt wird, nichts merken soll. Basiskanaldaten werden somit in dem Moment, wo
sie erhalten werden, verarbeitet, sodass natürlich in dem Zeitraum, in dem die Synchronisierung
stattfindet, also die Versatzberechnung stattfindet, lediglich Stereodaten ausgegeben
werden können, da noch keine synchronisierten Mehrkanal-Zusatzinformationen gefunden
worden sind.
[0058] Bei einem anderen Ausführungsbeispiel, bei dem es nicht auf die "Anfangsverzögerung"
ankommt, die zur Berechnung des Versatzes benötigt wird, kann die Wiedergabe so durchgeführt
werden, dass die gesamte Synchronisationsberechnung ausgeführt wird, ohne dass parallel
bereits Stereodaten ausgegeben werden, um dann vom ersten Block der Basiskanaldaten
an synchronisierte Mehrkanal-Zusatzinformationen zu liefern. Der Hörer wird dann bereits
vom ersten Block an ein synchronisiertes 5.1-Erlebnis haben.
[0059] Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung beträgt die Zeit
für eine Synchronisation normalerweise etwa 5 Sekunden, da für eine optimale Versatzberechnung
etwa 200 Referenz-Fingerabdrücke als Referenz-Fingerabdruckinformätionen benötigt
werden. Falls diese Verzögerung von etwa 5 Sekunden keine Rolle spielt, wie es beispielsweise
bei unidirektionalen Übertragungen der Fall ist, kann gleich mit einer 5.1-Wiedergabe
- allerdings erst nach der zur Versatzberechnung nötigen Zeit - begonnen werden. Für
interaktive Anwendungen, beispielsweise wenn es um Dialoge oder etwas ähnliches geht,
wird diese Verzögerung störend sein, sodass hier irgendwann, wenn die Synchronisation
fertig ist, von der Stereowiedergabe auf die Multikanal-Wiedergabe übergegangen wird.
So wurde herausgefunden, dass es besser ist, nur eine Stereo-Wiedergabe zu liefern
als eine Multikanal-Wiedergabe mit nicht-synchronisierten Mehrkanal-Zusatzinformationen.
[0060] Erfindungsgemäß wird das zeitliche Zuordnungsproblem zwischen Basiskanaldaten und
Mehrkanal-Zusatzdaten sowohl durch Maßnahmen auf der Senderseite als auch durch Maßnahmen
auf der Empfangsseite gelöst.
[0061] Auf der Senderseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen
aus dem korrespondierenden Mono- oder Stereo-Downmixaudiosignal berechnet. Vorzugsweise
werden diese Fingerprint-Informationen regelmäßig als Synchronisationshilfe in den
versendeten Mehrkanalzusatzdatenstrom eingetastet. Dies erfolgt vorzugsweise als Datenfeld
inmitten der blockweise organisierten z. B. Spatial-Audio-Coding-Seiteninformationen,
oder so, dass das Fingerprint-Signal als erste oder letzte Information des Datenblocks
geschickt wird, derart, dass sie leicht hinzugefügt oder herausgenommen werden kann.
[0062] Auf der Empfangsseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen
aus dem korrespondierenden Stereoaudiosignal, also den Basiskanaldaten berechnet,
wobei erfindungsgemäß eine Anzahl von zwei Basiskanälen bevorzugt wird. Ferner werden
die Fingerprints aus den Mehrkanalzusatzinformationen extrahiert. Hierauf wird der
zeitliche Versatz zwischen den Mehrkanalzusatzinformationen und dem empfangenen Audiosignal
über Korrelationsmethoden, wie beispielsweise einer Berechnung einer Kreuzkorrelation
zwischen den Test-Fingerabdruckinformationen und den Referenz-Fingerabdruckinformationen
berechnet. Alternativ können auch Trial-And-Error-Verfahren durchgeführt werden, bei
denen verschiedene aus den Basiskanal-Daten unter Zugrundelegung verschiedener Blockraster
berechnete Fingerabdruckinformationen mit den Referenz-Fingerabdruckinformationen
verglichen werden, um anhand des Test-Blockrasters, dessen zugehörige Test-Fingerabdruckinformationen
am besten mit den Referenz-Fingerabdruckinformationen übereinstimmen, den zeitlichen
Versatz zu bestimmen.
[0063] Schließlich wird das Audiosignal der Basiskanäle mit den Mehrkanalzusatzinformationen
für die anschließende Mehrkanal-Rekonstruktion durch eine nachgeschaltete Verzögerungsausgleichsstufe
synchronisiert. Je nach Implementierung kann allein eine Anfangsverzögerung kompensiert
werden. Vorzugsweise wird die Versatzberechnung jedoch parallel zur Wiedergabe durchgeführt,
um im Falle eines zeitlichen Auseinanderdriftens der Basiskanaldaten und der Mehrkanal-Zusatzinformationen
trotz einer kompensierten Anfangsverzögerung den Versatz nach Bedarf und nach Ergebnis
der Korrelationsberechnung nachstellen zu können. Die Verzögerungsausgleichsstufe
kann somit auch aktiv geregelt werden.
[0064] Die vorliegende Erfindung ist dahingehend vorteilhaft, dass keinerlei Änderungen
an den Basiskanal-Daten bzw. an dem Verarbeitungsweg für die Basiskanal-Daten vorgenommen
werden müssen. Der Basiskanal-Datenstrom, der in einen Empfänger eingespeist wird,
unterscheidet sich in nichts von einem üblichen Basiskanal-Datenstrom. Veränderungen
werden lediglich auf Seiten des Multikanal-Datenstroms vorgenommen. Dieser wird dahingehend
modifiziert, dass die Fingerabdruck-Informationen eingetastet werden. Nachdem für
den Multikanal-Datenstrom jedoch derzeit ohnehin keine standardisierten Verfahren
vorliegen, führt die Veränderung des Mehrkanal-Zusatzdatenstroms nicht zu einer unerwünschten
Abkehr von einer bereits standardisierten, implementierten und etablierten Lösung,
wie es dagegen der Fall wäre, wenn der Basiskanal-Datenstrom modifiziert werden würde.
[0065] Das erfindungsgemäße Szenario liefert eine besondere Flexibilität der Verbreitung
von Mehrkanal-Zusatzinförmationen. Insbesondere dann, wenn die Mehrkanal-Zusatzinformationen
Parameterinformationen sind, die bezüglich der erforderlichen Datenrate bzw. Speicherkapazität
sehr kompakt sind, kann ein digitaler Empfänger mit solchen Daten auch völlig getrennt
von dem Stereosignal versorgt werden. So könnte sich ein Benutzer für bereits bei
ihm bestehende Stereo-Aufnahmen, die er bereits auf seinem Solid-State-Player oder
auf seinen CDs hat, Mehrkanal-Zusatzinformationen von einem getrennten Anbieter beschaffen
und auf seinem Wiedergabegerät abspeichern. Dieses Abspeichern ist unproblematisch,
da der Speicherbedarf insbesondere für parametrische Mehrkanal-Zusatzinformationen
nicht besonders groß ist. Legt der Benutzer dann eine CD ein oder wählt er ein Stereo-Stück
aus, so kann von dem Mehrkanal-Zusatzdatenspeicher der entsprechende Mehrkanal-Zusatzdatenstrom
abgerufen werden und aufgrund der Fingerabdruckinformationen in dem Mehrkanal-Zusatzdatenstrom
mit dem Stereosignal synchronisiert werden, um eine Multikanal-Rekonstruktion zu erreichen.
Die erfindungsgemäße Lösung erlaubt es somit, völlig unabhängig von der Art und Weise
des Stereosignals, also unabhängig davon, ob es von einem digitalen Rundfunkempfänger
stammt, ob es von einer CD stammt, ob es von einer DVD stammt oder ob es z. B. über
das Internet angekommen ist, Mehrkanal-Zusatzdaten, die von einer ganz anderen Quelle
stammen können, mit dem Stereosignal zu synchronisieren, wobei das Stereosignal dann
als Basiskanaldaten fungiert, auf deren Basis dann die Multikanal-Rekonstruktion durchgeführt
wird.
[0066] Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug
nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
- Fig. 1
- ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen eines Datenstroms;
- Fig. 2
- ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen einer Multikanal-Darstellung;
- Fig. 3
- einen bekannten Joint-Stereo-Codierer zum Erzeugen von Kanaldaten und parametrischen
Multikanal-Informationen;
- Fig. 4
- eine Darstellung eines Schemas zum Bestimmen von ICLD-, ICTD- und ICC-Parametern für
eine BCC-Codierung/Decodierung;
- Fig. 5
- eine Blockdiagrammdarstellung einer BCC-Codierer/Decodierer-Kette;
- Fig. 6
- ein Blockdiagramm einer Implementierung des BCC-Synthese-Blocks von Fig. 5;
- Fig. 7a
- eine schematische Darstellung eines ursprünglichen Multikanalsignals als Folge von
Blöcken;
- Fig. 7b
- eine schematische Darstellung von einem oder mehreren Basiskanälen als Folge von Blöcken;
- Fig. 7c
- eine schematische Darstellung des erfindungsgemäßen Datenstroms mit Multikanalinformationen
und zugeordneten Block-Fingerabdrücken;
- Fig. 7d
- eine beispielhafte Darstellung für einen Block des Datenstroms von Fig. 7c;
- Fig. 8
- eine detailliertere Darstellung der erfindungsgemäßen Vorrichtung zum Erzeugen einer
Multikanal-Darstellung gemäß einem bevorzugten Ausführungsbeispiel;
- Fig. 9
- eine schematische Darstellung zur Verdeutlichung der Versatzbestimmung durch Korrelation
zwischen den Test-Fingerabdruckinformationen und den Referenz-Fingerabdruckinformationen;
- Fig. 10
- ein Flussdiagramm für eine bevorzugte Ausführung der Versatzbestimmung parallel zur
Datenausgabe; und
- Fig. 11
- eine schematische Darstellung der Berechnung der Fingerabdruckinformationen bzw. codierten
Fingerabdruckinformationen auf Encodierer- und Decodierer-Seite.
[0067] Fig. 1 zeigt eine Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion
eines ursprünglichen Multikanal-Signals, wobei das Multikanal-Signal wenigstens zwei
Kanäle hat, gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung.
Die Vorrichtung umfasst einen Fingerabdruck-Erzeuger 2, dem wenigstens ein aus dem
ursprünglichen Multikanal-Signal abgeleiteter Basis-Kanal über eine Eingangsleitung
3 zuführbar ist. Die Anzahl der Basiskanäle ist größer oder gleich 1 und kleiner als
eine Anzahl von Kanälen des ursprünglichen Multikanal-Signals. Ist das ursprüngliche
Multikanal-Signal lediglich ein Stereosignal mit nur zwei Kanälen, so ist nur ein
einziger Basiskanal vorhanden, der aus den zwei Stereokanälen abgeleitet ist. Ist
das ursprüngliche Multikanal-Signal jedoch ein Signal mit drei oder mehr Kanälen,
so kann die Anzahl der Basiskanäle auch gleich 2 sein. Diese Ausführungsform wird
bevorzugt, da eine Audiowiedergabe dann, ohne Mehrkanal-Zusatzdaten als normale Stereo-Wiedergabe
erfolgen kann. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung
ist das ursprüngliche Multikanal-Signal ein Surround-Signal mit fünf Kanälen und einem
LFE-Kanal (LFE = Low Frequency Enhancement), wobei dieser Kanal auch als Subwoofer
bezeichnet wird. Die fünf Kanäle sind ein Left-Surround-Kanal Ls, ein linker Kanal
L, ein MittenKanal C, ein rechter Kanal R und ein hinterer rechter bzw. Right-Surround-Kanal
Rs. Die beiden Basiskanäle sind dann der linke Basiskanal und der rechte Basiskanal.
In Fachkreisen wird der eine bzw. werden die mehreren Basiskanäle auch als Downmix-Kanal
bzw. Downmix-Kanäle bezeichnet.
[0068] Der Fingerabdruck-Erzeuger 2 ist ausgebildet, um aus dem wenigstens einen Basiskanal
Fingerabdruck-Informationen zu erzeugen, wobei die Fingerabdruck-Informationen einen
zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben. Je nach Implementierung
sind die Fingerabdruck-Informationen mehr oder weniger aufwendig berechnet. So können
hier insbesondere auf der Basis von statistischen Methoden sehr aufwendig berechnete
Fingerabdrücke, die unter dem Stichwort "Audio-ID" bekannt sind, eingesetzt werden.
Alternativ könnte jedoch auch eine beliebige andere Größe verwendet werden, die in
irgendeiner Weise den zeitlichen Verlauf des einen oder der mehreren Basiskanäle repräsentiert.
[0069] Erfindungsgemäß wird eine Block-basierte Verarbeitung bevorzugt. Hier setzen sich
die Fingerabdruck-Informationen aus einer Folge von Block-Fingerabdrücken zusammen,
wobei ein Block-Fingerabdruck ein Maß für die Energie des einen bzw. der mehreren
Basiskanäle in dem Block ist. Alternativ könnte jedoch auch als Block-Fingerabdruck
z. B. immer ein bestimmtes Sample des Blocks oder eine Kombination von Abtastwerten
des Blocks verwendet werden, da bei einer genügend hohen Anzahl von Block-Fingerabdrücken
als Fingerabdruck-Informationen eine - wenn auch grobe - Wiedergabe der zeitlichen
Charakteristik des wenigstens einen Basiskanals entsteht. Allgemein gesagt sind die
Fingerabdruck-Informationen also von den Abtastwertdaten des wenigstens einen Basiskanals
abgeleitet und geben den zeitlichen Verlauf mit mehr oder weniger großem Fehler des
wenigstens einen Basiskanals wieder, sodass, wie später noch dargelegt werden wird,
auf Decodierer/Empfänger-Seite eine Korrelation mit aus dem Basiskanal berechneten
Test-Fingerabdruckinformationen erfolgen kann, um letztendlich den Versatz zwischen
dem Datenstrom mit den Mehrkanal-Zusatzinformationen und dem Basiskanal zu bestimmen
ist.
[0070] Der Fingerabdruck-Erzeuger 2 liefert ausgangsseitig die Fingerabdruck-Informationen,
die einem Datenstrom-Erzeuger 4 zugeführt werden. Der Datenstrom-Erzeuger 4 ist ausgebildet,
um einen Datenstrom aus den Fingerabdruck-Informationen und den typischerweise zeitlich
variablen Mehrkanal-Zusatzinformationen zu erzeugen, wobei die Mehrkanal-Zusatzinformationen
zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen
Multikanal-Signals ermöglichen. Der Datenstrom-Erzeuger ist ausgebildet, um den Datenstrom
an einem Ausgang 5 so zu erzeugen, dass aus dem Datenstrom ein Zusammenhang zwischen
den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist.
Erfindungsgemäß wird der Datenstrom aus Mehrkanal-Zusatzinformationen somit mit den
Fingerabdruckinformationen, die von dem wenigstens einen Basiskanal abgeleitet worden
sind, markiert, derart, dass über die Fingerabdruckinformationen, deren Zuordnung
zu den Mehrkanal-Zusatzinformationen durch den Datenstrom-Erzeuger 4 geliefert wird,
die Zusammengehörigkeit von bestimmten Mehrkanal-Zusatzinformationen zu den Basiskanaldaten
ermittelbar ist.
[0071] Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen einer Multikanal-Darstellung
eines ursprünglichen Multikanal-Signals aus wenigstens einem Basiskanal und einem
Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens
einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen
mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen
Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen
den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist.
Der wenigstens eine Basiskanal wird über einen Eingang 10 einem Empfänger- bzw. Decodierer-seitigen
Fingerabdruckerzeuger 11 zugeführt. Der Fingerabdruckerzeuger 11 liefert ausgangsseitig
Test-Fingerabdruckinformationen über einen Ausgang 12 zu einem Synchronisierer 13.
Vorzugsweise werden die Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal
durch genau den gleichen Algorithmus abgeleitet, der auch im Block 2 von Fig. 1 ausgeführt
wird. Je nach Implementierung müssen die Algorithmen jedoch nicht unbedingt identisch
sein.
[0072] So kann der Fingerabdruck-Erzeuger 2 beispielsweise einen Block-Fingerabdruck in
Absolut-Codierung erzeugen, während der Fingerabdruck-Erzeuger 11 auf Decodiererseite
eine Differenz-Fingerabdruckbestimmung durchführt, derart, dass der einem Block zugeordnete
Test-Blockfingerabdruck die Differenz zwischen zwei Absolut-Fingerabdrücken ist. In
diesem Fall, wenn also über den Datenstrom mit den Fingerabdruckinformationen Absolut-Block-Fingerabdrücke
kommen, wird ein Fingerabdruck-Extrahierer 14 die Fingerabdruck-Informationen aus
dem Datenstrom extrahieren und zugleich Differenzen bilden, damit als Referenz-Fingerabdruckinformationen
über einen Ausgang 15 dem Synchronisierer 13 Daten zugeführt werden, die mit den Test-Fingerabdruckinformationen
vergleichbar sind.
[0073] Allgemein gesagt wird es bevorzugt, dass die Algorithmen zur Berechnung der Test-Fingerabdruckinformationen
auf Decodiererseite und die Algorithmen zur Berechnung der Fingerabdruckinformationen
auf Encodiererseite, die in Fig. 2 auch als Referenz-Fingerabdruckinformationen bezeichnet
werden können, zumindest so ähnlich sind, dass der Synchronisierer 13 unter Verwendung
dieser beiden Informationen die Mehrkanal-Zusatzdaten im Datenstrom, die über einen
Eingang 16 erhalten werden, synchronisiert den Daten über den wenigstens einen Basiskanal
zuordnen kann. Als Multikanal-Darstellung am Ausgang des Synchronisierers wird eine
synchronisierte Multikanal-Darstellung erhalten, die die Basiskanaldaten und synchron
hierzu die Mehrkanal-Zusatzdaten umfasst.
[0074] Hierzu wird es bevorzugt, dass der Synchronisierer 13 einen zeitlichen Versatz zwischen
den Basiskanaldaten und den Mehrkanal-Zusatzdaten bestimmt und dann die Mehrkanal-Zusatzdaten
um diesen Versatz verzögert. Es hat sich herausgestellt, dass die Mehrkanal-Zusatzdaten
üblicherweise früher, also zu früh ankommen, was der wesentlich geringeren Datenmenge,
die typischerweise den Mehrkanal-Zusatzdaten entspricht, im Vergleich zu der Datenmenge
für die Basiskanaldaten zugeschrieben werden kann. Werden also die Mehrkanal-Zusatzdaten
verzögert, werden die Daten über den wenigstens einen Basiskanal vom Eingang 10 über
eine Basiskanaldatenleitung 17 dem Synchronisierer 13 zugeführt und durch diesen eigentlich
nur "durchgeschleift" und an einem Ausgang 18 wieder ausgegeben. Die Mehrkanal-Zusatzdaten,
die über den Eingang 16 erhalten werden, werden über eine Mehrkanal-Zusatzdatenleitung
19 in den Synchronisierer eingespeist, dort um einen bestimmten Versatz verzögert
und an einem Ausgang 20 des Synchronisierers zusammen mit den Basiskanaldaten einem
Multikanal-Rekonstruierer 21 zugeführt, der dann das eigentliche Audio-Rendering ausführt,
um ausgangsseitig z. B. die fünf Audiokanäle und einen Tiefton-Kanal (in Fig. 2 nicht
gezeigt) zu erzeugen.
[0075] Die Daten auf den Leitungen 18 und 20 bilden somit die synchronisierte Multikanal-Darstellung,
wobei der Datenstrom auf der Leitung 20 dem Datenstrom am Eingang 16 abgesehen von
einer eventuell vorhandenen Mehrkanal-Zusatzdatencodierung entspricht, bis auf die
Tatsache, dass die Fingerabdruck-Informationen aus dem Datenstrom entfernt werden,
was je nach Implementierung im Synchronisierer 13 geschehen kann, oder schon vorher.
Alternativ kann die Fingerabdruck-Entfernung auch bereits im Fingerabdruck-Extrahierer
14 erfolgen, sodass dann keine Leitung 19 vorhanden ist, sondern eine Leitung 19',
die vom Fingerabdruck-Extrahierer 9 direkt in den Synchronisierer 13 geht. Der Synchronisierer
13 wird in diesem Fall also parallel vom Fingerabdruck-Extrahierer sowohl mit den
Mehrkanal-Zusatzdaten als auch mit den Referenz-Fingerabdruckinformationen versorgt.
[0076] Der Synchronisierer ist also ausgebildet, um die Mehrkanal-Zusatzinformationen und
den wenigstens einen Basiskanal unter Verwendung der Test-Fingerabdruckinformationen
und der Referenz-Fingerabdruckinformationen sowie unter Verwendung des aus dem Datenstrom
abgeleiteten Zusammenhangs der Mehrkanal-Informationen mit den in dem Datenstrom enthaltenen
Fingerabdruckinformationen zu synchronisieren. Der zeitliche Zusammenhang zwischen
den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen wird, wie es
nachfolgend noch erläutert wird, vorzugsweise einfach dadurch ermittelt, ob die Fingerabdruck-Informationen
vor einem Satz von Mehrkanal-Zusatzinformationen, nach einem Satz von Mehrkanal-Zusatzinformationen
oder innerhalb eines Satzes von Mehrkanal-Zusatzinformationen stehen. Je nachdem,
ob die Fingerabdrücke vor, hinter oder inmitten eines Satzes von Mehrkanal-Zusatzinformationen
stehen, wird auf die Codiererseite ermittelt, dass eben diese Mehrkanal-Informationen
zu diesen Fingerabdruck-Informationen gehören.
[0077] Vorzugsweise wird eine Blockverarbeitung verwendet. Ebenfalls vorzugsweise wird die
Eintastung der Fingerabdrücke so vorgenommen, dass ein Block von Mehrkanal-Zusatzdaten
immer auf einen Block-Fingerabdruck folgt, dass sich also ein Block von Mehrkanal-Zusatzinformationen
mit einem Block-Fingerabdruck abwechselt und umgekehrt. Alternativ könnte jedoch auch
ein Datenstromformat verwendet werden, bei dem die gesamten Fingerabdruck-Informationen
in einen separaten Teil am Anfang des Datenstroms geschrieben werden, woraufhin der
ganze Datenstrom folgt. Hier würden sich also Block-Fingerabdrücke und Blöcke von
Mehrkanal-Zusatzinformationen nicht abwechseln. Alternative Arten und Weisen der Zuordnung
von Fingerabdrücken zu Mehrkanal-Zusatzinformationen sind Fachleuten bekannt. Erfindungsgemäß
muss lediglich aus dem Datenstrom ein Zusammenhang zwischen den Mehrzahl-Zusatzinformationen
und den Fingerabdruckinformationen auf Decodiererseite ableitbar sein, damit die Fingerabdruckinformationen
dazu verwendet werden können, um die Mehrkanal-Zusatzinformationen mit den Basiskanaldaten
zu synchronisieren.
[0078] Nachfolgend wird anhand der Fig. 7a bis 7d eine bevorzugte Ausführungsform der blockweisen
Verarbeitung dargestellt. Fig. 7a zeigt ein ursprüngliches Multikanalsignal, beispielsweise
ein 5.1-Signal, das aus einer Folge von Blöcken B1 bis B8 besteht, wobei in einem
Block bei dem in Fig. 7a gezeigten Beispiel Multikanalinformationen MKi enthalten
sind. Wenn von einem 5-Kanal-Signal ausgegangen wird, so enthält ein Block, wie beispielsweise
der Block B1 jeweils die ersten z. B. 1152 Audioabtastwerte jedes einzelnen Kanals.
Eine solche Blockgröße wird beispielsweise in dem BCC-Codierer 112 von Fig. 5 bevorzugt,
wobei die Blockbildung, also die gewissermaßen Fensterung, um eine Folge von Blöcken
aus einem durchgehenden Signal zu erhalten, durch das Element 111 in Fig. 5, das mit
"Block" bezeichnet ist, erreicht wird.
[0079] Am Ausgang des Downmix-Blocks 114, der in Fig. 5 mit "Summensignal" bezeichnet ist,
und der das Bezugszeichen 115 aufweist, liegt der wenigstens eine Basiskanal an. Die
Basiskanaldaten können wieder als Folge von Blöcken B1 bis B8 dargestellt werden,
wobei die Blöcke B1 bis B8 von Fig. 7b mit den Blöcken B1 bis B8 in Fig. 7a korrespondieren.
Ein Block enthält nunmehr jedoch nicht mehr - wenn in einer Zeitbereichs-Darstellung
geblieben wird, das ursprüngliche 5.1-Signal, sondern nur noch ein Mono-Signal oder
ein Stereo-Signal mit zwei Stereobasiskanälen. Der Block B1 umfasst daher wieder die
1152 zeitlichen Abtastwerte sowohl des ersten Stereobasiskanals als auch des zweiten
Stereobasiskanals, wobei diese 1152 Abtastwerte sowohl des linken Stereobasiskanals
als auch des rechten Stereobasiskanals jeweils durch Abtastwert-Weise Addition/Subtraktion
und gegebenenfalls Gewichtung errechnet worden sind, also durch die Operation, die
im Downmix-Block 114 von Fig. 5 beispielsweise durchgeführt wird. Entsprechend umfasst
der Datenstrom mit Multikanalinformationen wieder Blöcke B1 bis B8, wobei jeder Block
in Fig. 7c dem entsprechenden Block des ursprünglichen Multikanalsignals in Fig. 7a
bzw. des einen oder mehreren Basiskanals von Fig. 7b entspricht. Um zur Rekonstruktion
beispielsweise des Blocks B1 des ursprünglichen Multikanalsignals MK1 zu kommen, müssen
die Basiskanaldaten im Block B1 des Basiskanaldatenstroms, die mit BK1 bezeichnet
sind, mit den Multikanalinformationen P1 des Blocks B1 in Fig. 7c kombiniert werden.
Diese Kombination wird bei dem in Fig. 6 gezeigten Ausführungsbeispiel durch den BCC-Syntheseblock
durchgeführt, der, um eine blockweise Verarbeitung der Basiskanaldaten zu erhalten,
wieder eine Blockbildungs-Stufe an seinem Eingang aufweist.
[0080] P3 bezeichnet also, wie es in Fig. 7c ausgeführt ist, die Multikanalinformationen,
die zusammen mit dem Block von Werten BK3 der Basiskanäle eine Rekonstruktion des
Blocks von Werten MK3 des ursprünglichen Multikanalsignals rekonstruieren lassen.
[0081] Erfindungsgemäß wird nunmehr jeder Block Bi des Datenstroms von Fig. 7c mit einem
Block-Fingerabdruck versehen. Für den Block B3 bedeutet dies, dass vorzugsweise im
Anschluss an den Block P3 von Multikanalinformationen der Block-Fingerabdruck F3 geschrieben
wird. Dieser Block-Fingerabdruck ist nun genau von dem Block B3 des Blocks von Werten
BK3 abgeleitet. Alternativ könnte der Block-Fingerabdruck F3 auch einer Differenzcodierung
unterworfen sein, sodass der Block-Fingerabdruck F3 gleich der Differenz des Block-Fingerabdrucks
von Block BK3 der Basiskanäle und des Block-Fingerabdrucks des Blocks von Werten BK2
der Basiskanäle ist. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung
wird als Block-Fingerabdruck ein Energiemaß bzw. ein Differenz-Energiemaß verwendet.
[0082] Bei dem eingangs beschriebenen Szenario wird der Datenstrom mit dem einen oder mehreren
Basiskanälen in Fig. 7b getrennt vom Datenstrom mit den Mehrkanalinformationen und
den Fingerabdruckinformationen von Fig. 7c zu einem Multikanal-Rekonstruierer übertragen.
Würde nichts weiter getan werden, so könnte der Fall auftreten, dass am Multikanal-Rekonstruierer,
beispielsweise am BCC-Syntheseblock 122 von Fig. 5 gerade der Block BK5 zur Verarbeitung
ansteht. Ferner könnte es sein, dass aufgrund irgendwelcher zeitlicher Unschärfen
jedoch von den Multikanalinformationen gerade der Block B7 statt des Blocks B5 ansteht.
Ohne weitere Maßnahmen würde daher eine Rekonstruktion des Blocks von Basiskanaldaten
BK5 mit den Multikanal-Informationen P7 vorgenommen werden, was zu Artefakten führen
würde. Erfindungsgemäß wird nunmehr, wie es nachfolgend noch erläutert wird, ein Versatz
von zwei Blöcken berechnet, derart, dass der Datenstrom in Fig. 7c um zwei Blöcke
verzögert wird, derart, dass eine Multikanal-Darstellung aus dem Datenstrom von Fig.
7b und dem Datenstrom von Fig. 7c vorliegt, die nun jedoch aufeinander synchronisiert
worden sind.
[0083] Je nach Ausführungsform und Gestaltung/Genauigkeit der Fingerabdruck-Informationen
ist die erfindungsgemäße Versatzbestimmung nicht auf die Berechnung eines Versatzes
als ganzzahliges Vielfaches eines Blocks begrenzt, sondern kann durchaus, bei genügend
genauer Korrelationsberechnung und bei Verwendung einer genügend großen Anzahl von
Block-Fingerabdrücken (was natürlich auf Kosten der Zeitdauer zur Berechnung der Korrelation
geht) auch eine Versatzgenauigkeit erreichen, die gleich einem Bruchteil eines Blocks
ist und bis zu einem Abtastwert erreichen kann. Es hat sich jedoch herausgestellt,
dass eine derart hohe genauigkeit nicht unbedingt benötigt wird, sondern dass eine
Synchronisationsgenauigkeit von +/- einem halben Block (bei einer Blocklänge von 1152
Abtastwerten) bereits zu einer Multikanal-Rekonstruktion führt, die ein Zuhörer als
Artefakt-frei beurteilt.
[0084] Fig. 7d zeigt ein bevorzugtes Ausführungsbeispiel für einen Block Bi, beispielsweise
für den Block B3 des Datenstroms in Fig. 7c. Der Block wird mit einem Sync-Wort, das
beispielsweise ein Byte lang sein kann, eingeleitet. Hierauf kommt eine Längeninformation,
da es bevorzugt wird, die Multikanalinformationen P3, wie es in der Technik bekannt
ist, nach ihrer Berechnung zu skalieren, quantisieren und Entropie-Codieren, sodass
die Länge der Multikanalinformationen, die beispielsweise Parameterinformationen sein
können, die jedoch auch ein Waveform-Signal z. B. des Seite-Kanals sein können, von
vorneherein nicht bekannt ist und daher im Datenstrom signalisiert werden muss. Am
Ende der Multikanalinformationen P3 wird dann der erfindungsgemäße Block-Fingerabdruck
eingefügt. Bei dem in Fig. 7d gezeigten Ausführungsbeispiel wurde für den Block-Fingerabdruck
ein Byte, also 8 Bits, genommen. Da pro Block nur ein einziges Energiemaß genommen
wird, wird bei einem Ausführungsbeispiel, bei dem nur eine Quantisierung, jedoch keine
Entropie-Codierung eingesetzt wird, ein Quantisierer bei der Quantisierung mit einer
Quantisierer-Ausgabebreite von 8 Bits eingesetzt. Die quantisierten Energiewerte werden
daher ohne weitere Verarbeitung in das 8-Bit-Feld "Block-FA" von Fig. 7d eingetragen.
Anschließend folgt dann, obgleich in Fig. 7d nicht gezeigt, wieder ein Synchronisationsbyte
für den nächsten Block des Datenstroms, dem wieder ein Längenbyte folgt, und dem dann
die Multikanalinformationen P4 für BK4 folgen, wobei diesem Block von Multikanalinformationen
P4 für den Basiskanaldatenblock BK4 wieder der Block-Fingerabdruck, der auf den Basiskanal-Daten
BK4 basiert, folgt.
[0085] Wie in Fig. 7d ausgeführt, kann als Energiemaß ein absolutes Energiemaß eingeführt
werden, oder aber auch ein Differenz-Energiemaß. Dann würde dem Block B3 des Datenstroms
als Block-Fingerabdruck die Differenz zwischen dem Energiemaß für die Basiskanaldaten
BK3 und dem Energiemaß für die Basiskanaldaten BK2 zugefügt werden.
[0086] Fig. 8 zeigt eine detailliertere Darstellung des Synchronisierers, des Fingerabdruckerzeugers
11 und des Fingerabdruckextrahierers 9 von Fig. 2 in Kooperation mit dem Multikanalrekonstruierer
21. Die Basiskanaldaten werden in einen Basiskanal-Datenpuffer 25 eingespeist und
zwischengepuffert. Entsprechend werden die Zusatzinformationen bzw. der Datenstrom
mit dien Zusatzinformationen und den Fingerabdruckinformationen einem Zusatzinformationen-Puffer
26 zugeführt. Beide Puffer sind allgemein gesagt in Form eines FIFO-Puffers aufgebaut,
wobei jedoch der Puffer 26 weitere Kapazitäten dahingehend hat, dass die Fingerabdruckinformationen
von dem Referenz-Fingerabdruckextrahierer 9 extrahierbar sind und ferner aus dem Datenstrom
entfernt werden, sodass auf einer Puffer-Ausgangsleitung 27 lediglich Mehrkanal-Zusatzinformationen,
jedoch ohne eingetastete Fingerabdrücke ausgebbar sind. Die Entfernung der Fingerabdrücke
in dem Datenstrom kann jedoch auch von einem Zeitverschieber 28 oder irgendeinem anderen
Element durchgeführt werden, sodass der Multikanalrekonstruierer 21 nicht durch Fingerabdruck-Bytes
bei der Multikanalrekonstruktion gestört wird. Werden Absolut-Fingerabdrücke sowohl
auf Referenz-Seite als auch auf Test-Seite verwendet, so können die durch den Fingerabdruck-Erzeuger
11 berechneten Fingerabdruckinformationen genauso wie die durch den Fingerabdruck-Extrahierer
9 ermittelten Fingerabdruckinformationen direkt in einen Korrelator 29 innerhalb des
Synchronisierers 13 von Fig. 2 eingespeist werden. Der Korrelator berechnet dann den
Versatzwert und liefert denselben über eine Versatz-Leitung 30 zu dem Zeitverschieber
28. Der Synchronisierer 13 ist ferner ausgebildet, um dann, wenn ein gültiger Versatzwert
erzeugt und dem Zeitverschieber 28 zugeführt worden sind, einen Freigeber 31 anzusteuern,
damit der Freigeber 31 einen Schalter 32 schließt, derart, dass der Strom von Mehrkanal-Zusatzdaten
von dem Puffer 26 über den Zeitverschieber 28 und den Schalter 32 in den Multikanal-Rekonstruierer
21 eingespeist wird.
[0087] Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird lediglich
eine Zeitverschiebung (Delay) der Mehrkanal-Zusatzinformationen vorgenommen. Gleichzeitig
wird, damit ein Zuhörer der Ausgabe des Multikanalrekonstruierers 21 die Zeitverzögerung
zur Berechnung des richtigen Versatzwerts nicht merkt, parallel zu der Berechnung
des richtigen Versatzwertes bereits eine Multikanalrekonstruktion durchgeführt. Diese
Multikanalrekonstruktion ist jedoch lediglich eine "triviale" Multikanalrekonstruktion,
da die vorzugsweise zwei Stereobasiskanäle von dem Multikanalrekonstruierer 21 einfach
ausgegeben werden. Ist der Schalter 32 daher offen, so folgt nur eine Stereoausgabe.
Ist der Schalter 32 jedoch geschlossen, so erhält der Multikanalrekonstruierer 21
zusätzlich zu den StereoBasiskanälen auch die Mehrkanal-Zusatzinformationen und kann
eine nun jedoch synchronisierte Multikanal-Ausgabe durchführen. Ein Zuhörer merkt
dies lediglich dadurch, dass von der Stereoqualität auf die Multikanal-Qualität übergegangen
wird.
[0088] In Anwendungsfällen, bei denen Anfangs-Zeitverzögerungen keine große Rolle spielen,
kann jedoch die Ausgabe des Multikanalrekonstruierers 21 so lange zurückgehalten werden,
bis ein gültiger Versatz vorliegt. Dann kann bereits der allererste Block (BK1 von
Fig. 7b) mit den nunmehr korrekt verzögerten Mehrkanal-Zusatzdaten P1 (Fig. 7c) dem
Multikanalrekonstruierer 21 zugeführt werden, sodass erst dann mit der Ausgabe begonnen
wird, wenn Multikanal-Daten vorliegen. Eine Ausgabe des Multikanalrekonstruierers
21 bei geöffnetem Schalter wird es in diesem Ausführungsbeispiel nicht geben.
[0089] Nachfolgend wird Bezug nehmend auf Fig. 9 die Funktionalität des Korrelators 29 von
Fig. 8 dargestellt. Am Ausgang des Test-Fingerabdruck-Berechners 11 wird eine Folge
von Test-Fingerabdruckinformationen geliefert, wie sie im obersten Teilbild von Fig.
9 zu sehen ist. So ist für jeden Block der Basiskanäle, wobei dieser Block mit 1,
2, 3, 4, i bezeichnet ist, ein Block-Fingerabdruck vorhanden. Je nach Korrelationsalgorithmus
wird zur Korrelation nur die Folge von diskreten Werten benötigt. Andere Korrelationsalgorithmen
können jedoch auch als Eingangswert eine zwischen den diskreten Werten interpolierte
Kurve erhalten, wie sie in Fig. 9 gezeichnet ist. Entsprechend erzeugt der Referenz-Fingerabdruckermittler
9 ebenfalls eine Folge von diskreten Referenz-Fingerabdrücken, die er aus dem Datenstrom
extrahiert. Sind im Datenstrom beispielsweise Differenz-codierte Fingerabdruckinformationen
enthalten, und soll der Korrelator auf der Basis von Absolut-Fingerabdrücken arbeiten,
so wird ein Differenz-Decodierer 35 in Fig. 8 aktiviert. Es
wird jedoch bevorzugt, dass im Datenstrom Absolut-Fingerabdrücken als. Energiemaß enthalten sind, da diese Information über die Gesamtenergie
pro Block zu Pegelkorrekturzwecken von dem Multikanalrekonstruierer 21 ebenfalls vorteilhaft
ausgenutzt werden kann. Ferner wird es bevorzugt, die Korrelation auf der Basis von
Differenz-Fingerabdrücken durchzuführen. In diesem Fall wird der Block 9 vor dem Korrelator
eine Differenzverarbeitung durchführen, und wird auch der Block 11 vor dem Korrelator
eine Differenzverarbeitung durchführen, wie es bereits ausgeführt worden ist.
[0090] Der Korrelator 29 wird nunmehr die in den beiden oberen Teilbildern von Fig. 9 dargestellten
Kurven bzw. Folgen von diskreten Werten enthalten und ein Korrelationsergebnis liefern,
das im unteren Teilbild von Fig. 9 dargestellt ist. Es ergibt sich ein Korrelationsergebnis,
dessen Versatz-Komponente genau den Versatz zwischen den beiden Fingerabdruckinformationen-Kurven
liefert. Da der Versatz zudem positiv ist, müssen die Mehrkanal-Zusatzinformationen
in positiver Zeitrichtung verschoben werden, also verzögert werden. Es sei darauf
hingewiesen, dass natürlich auch die Basiskanaldaten in negativer Zeitrichtung verschoben
werden könnten, oder dass sowohl die Mehrkanal-Zusatzinformationen einen Teil in positiver
Richtung verschoben werden können, und die Basiskanal-Zusatzdaten einen Teil des Versatzes
in negativer Zeitrichtung verschoben werden können, so lange der Multikanalrekonstruierer
an seinen beiden Eingängen eine synchronisierte Multikanal-Darstellung enthält.
[0091] Nachfolgend wird auf eine bevorzugte Ausführungsform der Berechnung des Versatzes
parallel zur Audioausgabe anhand von Fig. 10 dargestellt. Die Basiskanaldaten werden
gepuffert, um jeweils einen Fingerabdruck berechnen zu können, wonach der Block, von
dem gerade ein Test-Block-Fingerabdruck berechnet worden ist, dem Multikanalrekonstruierer
zur Multikanalrekonstruktion zugeführt wird. Hierauf wird der nächste Block der Basiskanaldaten
wiederum in den Puffer 25 eingespeist, damit von diesem Block wieder ein Test-Block-Fingerabdruck
berechnet werden kann. Dies wird für z. B. eine Anzahl von 200 Blöcken durchgeführt.
Diese 200 Blöcke werden jedoch, damit der Zuhörer keine Verzögerung merkt, von dem
Multikanalkonstruierer im Sinne einer "trivialen" Multikanalrekonstruktion als Stereo-Ausgangsdaten
einfach ausgegeben.
[0092] Je nach Implementierung können auch weniger als 200 Blöcke oder mehr als 200 Blöcke
verwendet werden. Erfindungsgemäß hat sich herausgestellt, dass eine Anzahl zwischen
100 und 300 Blöcken und vorzugsweise 200 Blöcke Ergebnisse liefert, die einen vernünftigen
Kompromiss zwischen Berechnungszeit, Korrelations-Rechenaufwand und Versatzgenauigkeit
liefern.
[0093] Ist der Block 36 abgearbeitet, so wird auf einen Block 37 übergegangen, in dem durch
den Korrelator 29 die Korrelation zwischen den 200 berechneten Test-Block-Fingerabdrücken
und den 200 berechneten Referenz-Block-Fingerabdrücken durchgeführt wird. Das dort
erhaltene Versatzergebnis wird nunmehr gespeichert. Dann wird in einem Block 38 entsprechend
dem Block 36 eine Anzahl der nächsten z. B. 200 Blöcke der Basiskanaldaten berechnet.
Entsprechend werden wieder 200 Blöcke aus dem Datenstrom mit den Mehrkanal-Zusatzinformationen
extrahiert. Hierauf wird in einem Block 39 wieder eine Korrelation durchgeführt, und
es wird das dort erhaltene Versatzergebnis gespeichert. Dann wird in einem Block 40
eine Abweichung zwischen dem Versatzergebnis aufgrund der zweiten 200 Blöcke und dem
Versatzergebnis aufgrund der ersten 200 Blöcke festgestellt. Liegt die Abweichung
unterhalb einer vorbestimmten Schwelle, so wird durch einen Block 41 der Versatz über
die Versatzleitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt, und es wird der
Schalter 32 geschlossen, sodass ab diesem Zeitpunkt auf die Multikanal-Ausgabe übergegangen
wird. Ein vorbestimmter Wert für die Abweichungsschwelle ist beispielsweise ein Wert
von einem oder zwei Blöcken. Dies basiert darauf, dass dann, wenn sich ein Versatz
von einer Berechnung zur nächsten Berechnung nicht mehr als ein oder zwei Blöcke ändert,
kein Fehler bei der Korrelationsberechnung durchgeführt worden ist.
[0094] Abweichend von diesem Ausführungsbeispiel kann auch gewissermaßen ein gleitendes
Fenster mit einer Fensterlänge einer Anzahl von Blöcken, die z. B. 200 ist, verwendet
werden. So wird z. B. eine Berechnung mit 200 Blöcken vorgenommen und ein Ergebnis
erhalten. Dann wird um einen Block weitergegangen und in die Anzahl der für die Korrelationsberechnung
verwendeten Blöcke ein Block herausgenommen und dafür der neue Block verwendet. Das
erhaltene Ergebnis wird dann ebenso wie das zuletzt erhaltene Ergebnis in ein Histogramm
eingespeichert. Dieses Prozedere wird für eine Anzahl von Korrelationsberechnungen,
wie z. B. 100 oder 200, vorgenommen, so dass sich das Histogramm nach und nach füllt.
Der Peak des Histogramms wird dann als berechneter Versatz verwendet, um den Anfangsversatz
zu liefern oder einen Versatz zum dynamischen Nachstellen zu erhalten.
[0095] Die parallel zur Ausgabe stattfindende Versatzberechnung wird in einem Block 42 mitlaufen,
und es wird je nach Bedarf, wenn ein Aüseinanderdriften des Datenstroms mit den Mehrkanal-Informationen
und des Datenstroms mit den Basiskanaldaten festgestellt worden ist, eine adaptive
bzw. dynamische Versatznachführung erreicht, indem ein aktualisierter Versatzwert
über die Leitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt wird. Im Hinblick
auf die adaptive Nachführung sei darauf hingewiesen, dass je nach Implementierung
auch eine Glättung der Versatzänderung durchgeführt werden kann, sodass dann, wenn
eine Abweichung von beispielsweise zwei Blöcken festgestellt worden ist, zunächst
der Versatz um 1 inkrementiert wird und dann bei Bedarf wieder inkrementiert wird,
damit die Sprünge nicht zu groß werden.
[0096] Nachfolgend wird Bezug nehmend auf Fig. 11 auf eine bevorzugte Ausführungsform des
Fingerabdruck-Erzeugers 2 auf Encodiererseite, wie er in Fig. 1 dargestellt worden
ist, und des Fingerabdruck-Erzeugers 11 von Fig. 2, wie er auf Decodierer-Seite eingesetzt
wird, dargestellt.
[0097] Allgemein wird das Mehrkanalaudiosignal für die Gewinnung der Mehrkanalzusatzdaten
in Blöcke fester Größe eingeteilt. Pro Block wird nun gleichzeitig zur Gewinnung der
Mehrkanalzusatzdaten ein Fingerprint berechnet, der geeignet ist, die zeitliche Struktur
des Signals möglichst eindeutig zu charakterisieren. Ein Ausführungsbeispiel hierzu
ist es, den Energiegehalt des aktuellen Downmixaudiosignals des Audioblocks zu verwenden,
beispielsweise in logarithmierter Form, also in einer Dezibel-verwandten Darstellung.
In diesem Fall ist der Fingerprint ein Maß für die zeitliche Hüllkurve des Audiosignals.
Um die übertragene Informationsmenge zu reduzieren und die Genauigkeit des Messwertes
zu steigern, kann diese Synchronisationsinformation auch als Differenz zum Energiewert
des vorangegangenen Blocks mit anschließend geeigneter Entropiecodierung, beispielsweise
Huffman-Codierung, adaptiver Skalierung und Quantisierung ausgedrückt werden. Der
Fingerprint der zeitlichen Hüllkurve wird dabei wie folgt berechnet:
[0098] Zunächst wird, wie bei Punkt 1 in Fig. 11 dargestellt ist, eine Energieberechnung
des Downmixaudiosignals im aktuellen Block gegebenenfalls für ein Stereosignal durchgeführt.
Hierbei werden z. B. 1152 Audioabtastwerte sowohl vom linken als auch vom rechten
Downmixkanal jeweils quadriert und aufsummiert. S
left (i) stellt hierbei einen zeitlichen Abtastwert zum Zeitpunkt i des linken Basiskanals
dar, während S
right(i) einen zeitlichen Abtastwert des rechten Basiskanals zum Zeitpunkt i darstellt.
Bei einem monophonen Downmixsignal entfällt die Summierung. Ferner wird es bevorzugt,
vor der Berechnung die für die vorliegende Erfindung nicht aussagekräftigen Gleichanteile
des Dowrimixaudiosignals zu entfernen.
[0099] In einem Schritt 2 wird eine Minimumbegrenzung der Energie zwecks anschließender
logarithmischer Darstellung durchgeführt. Für eine Dezibel-verwandte Bewertung der
Energie wird es bevorzugt, einen minimalen Energieoffset zu verwenden, damit sich
im Falle einer Nullenergie eine sinnvolle logarithmische Berechnung ergibt. Diese
Energiemaßzahl in dB überstreicht dabei einen Zahlenbereich von 0 bis 90 (dB) bei
einer Audiosignalauflösung von 16 Bit.
[0100] Wie es bei 3 in Fig. 11 gezeigt ist, wird es bevorzugt, für eine exakte Bestimmung
des zeitlichen Versatzes zwischen Mehrkanalzusatzinformationen und empfangenem Audiosignal
nicht den absoluten Energie-Hüllkurvenwert zu verwenden, sondern vielmehr die Steigung
(Steilheit) der Signalhüllkurve. Daher wird für die Korrelationsmessung nur die Steigung
der Energie-Hüllkurve herangezogen. Technisch gesehen wird diese Signalableitung durch
Differenzbildung des Energiewertes mit dem des vorangegangenen Blocks berechnet. Dieser
Schritt wird z. B. im Encoder vollzogen. Dann besteht der Fingerprint aus differenzcodierten
Werten. Alternativ kann dieser Schritt auch rein decodiererseitig implemontiert werden.
Hier besteht der übertragene Fingerprint also aus nicht-differenzcodierten Werten.
Die Differenzbildung wird hier erst im Decodierer vorgenommen. Letztere Möglichkeit
hat den Vorteil, dass der Fingerprint Information über die absolute Energie des Downmixsignals
enthält. Es wird allerdings typischerweise eine etwas höhere Fingerprintwortlänge
benötigt.
[0101] Weiterhin wird es bevorzugt, die Energie (Hüllkurve des Signals) für eine optimale
Aussteuerung zu skalieren. Damit bei der anschließenden Quantisierung dieses Fingerprints
sowohl der Zahlenbereich maximal ausgenutzt als auch die Auflösung bei geringen Energiewerten
verbessert werden kann, ist es sinnvoll, eine zusätzliche Skalierung (= Verstärkung)
einzuführen. Diese kann entweder als feste und statische Gewichtungsgröße oder über
eine an das Hüllkurvensignal angepasste dynamische Verstärkungsregelung realisiert
werden.
[0102] Ferner wird, wie es bei 5 in Fig. 11 gezeigt ist, eine Quantisierung des Fingerprint
vorgenommen. Um diesen Fingerprint für die Eintastung in die Mehrkanalzusatzinformationen
vorzubereiten, wird dieser auf 8 Bit quantisiert. Diese reduzierte Fingerprintauflösung
hat sich in der Praxis als guter Kompromiss hinsichtlich Bitbedarf und Zuverlässigkeit
der Verzögerungsdetektion bewährt. Zahlenüberläufe von größer als 255 werden dabei
mit einer Sättigungskennlinie auf den Maximalwert von 255 begrenzt.
[0103] Wie es bei 6 in Fig. 11 gezeigt ist, kann noch eine optimale Entropiecodierung des
Fingerprints vorgenommen werden. Durch Auswertung von statistischen Eigenschaften
des Fingerprints kann der Bitbedarf des quantisierten Fingerprints noch weiter reduziert
werden. Ein geeignetes Entropieverfahren ist beispielsweise die Huffman-Codierung
oder die arithmetische Codierung. Statistisch unterschiedliche Häufigkeiten von Fingerprintwerten
können durch verschiedene Codelängen ausgedrückt werden und somit im Mittel den Bitbedarf
der Fingerprintdarstellung reduzieren.
[0104] Pro Audioblock wird die Berechnung der Mehrkanalzusatzdaten unter Zuhilfenahme der
Mehrkanalaudiodaten durchgeführt. Hierbei berechnete Mehrkanalzusatzinformationen
werden anschließend durch die neu hinzukommende Synchronisationsinformation durch
geeignetes Einbetten in den Bitstrom erweitert.
[0105] Mit Hilfe der erfindungsgemäßen Lösung ist der Empfänger nunmehr in der Lage, einen
zeitlichen Versatz von Downmixsignal und Zusatzdaten zu erkennen und eine zeitkorrekte
Anpassung, also eine Verzögerungskompensation zwischen Stereoaudiosignalen und Mehrkanalzusatzinformationen
in der Größenordnung von +/- ½ Audioblock zu realisieren. Somit kann die Mehrkanalzuordnung
im Empfänger fast vollständig, d. h. bis auf eine kaum wahrnehmbaren Zeitunterschied
von +/- ½ Audioframes rekonstruiert werden, welcher sich nicht nennenswert auf die
Qualität des rekonstruierten Mehrkanalaudiosignals auswirkt.
[0106] Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen bzw.
Decodieren in Hardware oder in Software implementiert werden. Die Implementierung
kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch
auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem
zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung
somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren
Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt
auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit
als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert
werden, wenn das Computer-Programm auf einem Computer abläuft.
1. Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines
ursprünglichen Multikanal-Audiosignals, wobei das Multikanal-Audiosignal wenigstens
zwei Kanäle hat, mit folgenden Merkmalen:
einem Fingerabdruck-Erzeuger (2) zum Erzeugen von Fingerabdruck-Informationen aus
wenigstens einem aus dem ursprünglichen Multikanal-Audiosignal abgeleiteten Basis-Kanal,
wobei eine Anzahl von Basis-Kanälen größer oder gleich 1 und kleiner als eine Anzahl
von Kanälen des ursprünglichen Multikanal-Audiosignals ist, wobei die Fingerabdruck-Informationen
einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben; und
einem Datenstrom-Erzeuger (4) zum Erzeugen eines Datenstroms aus den Fingerabdruck-Informationen
und von zeitlich variablen Mehrkanal-Zusatzinformationen, die zusammen mit dem wenigstens
einen Basis-Kanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals
ermöglichen, wobei der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom
so zu erzeugen, dass aus dem Datenstrom ein zeitlicher Zusammenhang zwischen den Mehrkanal-Zusatzinformationen
und den Fingerabdruck-Informationen ableitbar ist.
2. Vorrichtung nach Anspruch 1,
bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um den wenigstens einen Basiskanal
blockweise zu verarbeiten, um die Fingerabdruck-Informationen zu erhalten,
bei der die Mehrkanal-Zusatzinformationen blockweise berechnet sind, sodass sie zusammen
mit Blöcken des wenigstens einen Basiskanals zur Multikanal-Rekonstruktion zu verwenden
sind, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um die Mehrkanal-Zusatzinformationen
und die Fingerabdruck-Informationen blockweise in den Datenstrom zu schreiben.
3. Vorrichtung nach Anspruch 2, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist,
um für einen Block des wenigstens einen Basiskanals als Fingerabdruck-Informationen
einen Block-Fingerabdruck zu erzeugen, der einen zeitlichen Verlauf des Basiskanals
in dem Block wiedergibt,
bei der ein Block der Mehrkanal-Zusatzinformationen zusammen mit dem Block des Basiskanals
für die Multikanal-Rekonstruktion zu verwenden ist, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise
so zu schreiben, dass der Block von Mehrkanal-Zusatzinformationen und der Block von
Fingerabdruck-Informationen eine vorbestimmte Beziehung zueinander aufweisen.
4. Vorrichtung nach Anspruch 2, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist,
um für zeitlich folgende Blöcke des wenigstens einen Basiskanals als Fingerabdruck-Informationen
eine Folge von Block-Fingerabdrücken zu berechnen,
bei der die Mehrkanal-Zusatzinformationen blockweise für zeitlich folgende Blöcke
des wenigstens einen Basiskanals gegeben sind, und
bei der der Datenstrom-Erzeuger ausgebildet ist, um die Folge von Block-Fingerabdrücken
in einer vorbestimmten Beziehung zu der Folge von Blöcken der Mehrkanal-Zusatzinformationen
zu schreiben.
5. Vorrichtung nach Anspruch 4, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist,
um eine Differenz zwischen zwei Fingerabdruck-Werten zweier Blöcke des wenigstens
einen Basiskanals als Block-Fingerabdruck zu berechnen.
6. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger
(2) ausgebildet ist, um eine Quantisierung und Entropie-Codierung von Fingerabdruck-Werten
durchzuführen, um die Fingerabdruck-Informationen zu erhalten.
7. Vorrichtung nach Anspruch 6, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist,
um Fingerabdruck-Werte mit einer Skalierungsinformation zu skalieren und die Skalierungsinformation
ferner in Zuordnung zu den Fingerabdruck-Informationen in den Datenstrom zu schreiben.
8. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger
(2) ausgebildet ist, um die Fingerabdruck-Informationen blockweise zu berechnen, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise
zu schreiben, sodass ein Block des Datenstroms einen Block von Mehrkanal-Zusatzinformationen
und einen Block von Fingerabdruck-Informationen, die dem Block von Mehrkanal-Zusatzinformationen
und einem Block des wenigstens einen Basiskanals zugeordnet sind, aufweist.
9. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der wenigstens zwei Basiskanäle
vorhanden sind, und
bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um die wenigstens zwei Basiskanäle
abtastwertweise oder spektralwertweise zu addieren oder vor der Addition zu quadrieren.
10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger
(2) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve
des wenigstens einen Basiskanals zu verwenden.
11. Vorrichtung nach Anspruch 10, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist,
um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens
einen Basiskanals zu verwenden, und
bei der der Fingerabdruck-Erzeuger (2) ferner ausgebildet ist, um eine Minimumbegrenzung
der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten
Energie zu liefern.
12. Vorrichtung nach Anspruch 11, bei der der wenigstens eine Basiskanal in codierter
Form zu einem Multikanal-Rekonstruierer übertragbar ist,
wobei die codierte Form unter Verwendung eines verlustbehafteten Codierers erzeugt
worden ist, und
bei der ferner ein Basiskanal-Decodierer vorhanden ist, um eine decodierte Form des
wenigstens einen Basiskanals als Eingangssignal für den Fingerabdruck-Erzeuger (2)
bereitzustellen.
13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Mehrkanal-Zusatzdaten
Mehrkanal-Parameterdaten sind, die jeweils blockweise entsprechenden Blöcken des wenigstens
einen Basiskanals zugeordnet sind.
14. Vorrichtung nach Anspruch 13, die ferner folgende Merkmale aufweist:
einen Mehrkanal-Analysierer (112) zum blockweisen Erzeugen sowohl einer Folge von
Blöcken des wenigstens einen Basiskanals als auch einer Folge von Blöcken der Mehrkanal-Zusatzinformationen,
wobei der Fingerabdruck-Erzeuger (2) ausgebildet ist, um von jedem Block von Werten
des wenigstens einen Basiskanals einen Block-Fingerabdruckwert zu berechnen.
15. Vorrichtung nach Anspruch 14, bei der der Datenstrom-Erzeuger (4) ausgebildet ist,
um den Datenstrom in einen separaten Datenkanal zu schreiben, der zusätzlich zu einem
Standard-Datenkanal vorhanden ist, über den der wenigstens eine Basiskanal zu einer
Multikanal-Rekonstruktionseinrichtung übertragbar ist.
16. Vorrichtung nach Anspruch 15, bei der der Standard-Datenkanal ein standardisierter
Kanal für ein digitales Stereo-Rundfunksignal oder ein standardisierter Kanal für
eine Übertragung über das Internet ist.
17. Vorrichtung zum Erzeugen einer Multikanal-Darstellung (18, 20) eines ursprünglichen
Multikanal-Audiosignals aus wenigstens einem Basiskanal und einem Datenstrom, der
Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals
wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens
einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals
ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen
und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Merkmalen:
einem Fingerabdruck-Erzeuger (11) zum Erzeugen von Test-Fingerabdruckinformationen
aus dem wenigstens einen Basiskanal;
einem Fingerabdruck-Extrahierer (9) zum Extrahieren der Fingerabdruck-Informationen
aus dem Datenstrom, um Referenz-Fingerabdruckinformationen zu erhalten; und
einem Synchronisierer (13) zum zeitlichen Synchronisieren der Mehrkanal-Zusatzinformationen
und des wenigstens einen Basiskanals unter Verwendung der Test-Fingerabdruckinformationen,
der Referenz-Fingerabdruckinformationen und eines aus dem Datenstrom abgeleiteten
Zusammenhangs der Mehrkanal-Informationen und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen,
um eine synchronisierte Multikanal-Darstellung zu erhalten.
18. Vorrichtung nach Anspruch 17, die ferner folgendes Merkmal aufweist:
einen Multikanal-Rekonstruierer (21) zum Rekonstruieren der Multikanal-Darstellung
unter Verwendung der synchronisierten Multikanal-Darstellung, um eine Rekonstruktion
des ursprünglichen Multikanal-Audiosignals zu erhalten.
19. Vorrichtung nach Anspruch 17 oder 18,
bei der der Datenstrom eine Folge von Blöcken von Mehrkanal-Zusatzdaten in zeitlichem
Zusammenhang mit einer Folge von Referenz-Fingerabdruckwerten als Referenz-Fingerabdruckinformationen
aufweist,
bei der der Extrahierer (9) ausgebildet ist, um zu einem Block von Mehrkanal-Zusatzdaten
aufgrund des zeitlichen Zusammenhangs einen zugehörigen Fingerabdruckwert zu ermitteln;
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um für eine Folge von Blöcken
des wenigstens einen Basiskanals eine Folge von Test-Fingerabdruckwerten als Test-Fingerabdruckinformationen
zu ermitteln;
bei der der Synchronisierer (13) ausgebildet ist, um aufgrund eines Versatzes (30)
zwischen der Folge von Test-Fingerabdruckwerten und der Folge von Referenz-Fingerabdruckwerten
einen Versatz zwischen den Blöcken von Mehrkanal-Zusatzdaten und den Blöcken des wenigstens
einen Basiskanals zu berechnen, und um den Versatz durch Verzögern (28) der Folge
von Blöcken der Mehrkanal-Zusatzinformationen unter Verwendung des berechneten Versatzes
zu kompensieren.
20. Vorrichtung nach einem der Ansprüche 17 bis 19,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um eine Quantisierung von
Fingerabdruck-Werten durchzuführen, um die Test-Fingerabdruck-Informationen zu erhalten.
21. Vorrichtung nach einem der Ansprüche 17 bis 20,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um Fingerabdruck-Werte mit
einer Skalierungsinformation aus dem Datenstrom zu skalieren.
22. Vorrichtung nach einem der Ansprüche 17 bis 21,
bei der wenigstens zwei Basiskanäle vorhanden sind, und
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um die wenigstens zwei Basiskanäle
abtastwertweise oder spektralwertweise zu addieren oder vor der Addition zu quadrieren.
23. Vorrichtung nach einem der Ansprüche 17 bis 22,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen
Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden.
24. Vorrichtung nach einem der Ansprüche 17 bis 23
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen
Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden, und
bei der der Fingerabdruck-Erzeuger (11) ferner ausgebildet ist, um eine Minimumbegrenzung
der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten
Energie zu liefern.
25. Vorrichtung nach einem der Ansprüche 17 bis 24, bei der der Datenstrom blockweise
organisiert ist und in einem Block des Datenstroms ein Block von Mehrkanal-Zusatzinformationen
und ein Block-Fingerabdruck enthalten sind,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Test-Fingerabdruck-Information
eine Differenz zwischen zwei Block-Fingerabdrücken des wenigstens einen Basiskanals
zu berechnen, und
bei der der Fingerabdruck-Extrahierer (9) ferner ausgebildet ist, um eine Differenz
aus zwei Block-Fingerabdrücken im Datenstrom zu berechnen und als Referenz-Fingerabdruck-Informationen
zu dem Synchronisierer (13) zu liefern.
26. Vorrichtung nach einem der Ansprüche 17 bis 25,
bei der der Synchronisierer (13) ausgebildet ist, um parallel zu einer Audioausgabe
einen Versatz zwischen den Mehrkanal-Zusatzdaten und dem wenigstens einen Basiskanal
zu berechnen und den Versatz adaptiv zu kompensieren.
27. Vorrichtung nach Anspruch 18, die ferner ausgebildet ist, um dann, wenn noch keine
synchronisierten Mehrkanal-Zusatzdaten vorliegen, den wenigstens einen Basiskanal
wiederzugeben und dann, wenn synchronisierte Mehrkanal-Zusatzdaten vorhanden sind,
von einer Mono- oder Stereo-Wiedergabe des wenigstens einen Basiskanals in eine Multikanal-Wiedergabe
umzuschalten (32).
28. Vorrichtung nach einem der Ansprüche 17 bis 27, die ausgebildet ist, um den Datenstrom
und den wenigstens einen Basiskanal über voneinander separate Bitströme zu erhalten,
die über zwei voneinander unterschiedliche logische Kanäle oder physische Kanäle empfangen
werden, oder über denselben allerdings zu unterschiedlichen Zeiten aktiven Übertragungskanal
erhalten werden.
29. Verfahren zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines
ursprünglichen Multikanal-Audiosignals, wobei das Multikanal-Audiosignal wenigstens
zwei Kanäle hat, mit folgenden Schritten:
Erzeugen (2) von Fingerabdruck-Informationen aus wenigstens einem aus dem ursprünglichen
Multikanal-Audiosignal abgeleiteten Basis-Kanal, wobei eine Anzahl von Basis-Kanälen
größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Audiosignals
ist, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens
einen Basiskanals wiedergeben; und
Erzeugen (4) eines Datenstroms aus den Fingerabdruck-Informationen und von zeitlich
variablen Mehrkanal-Zusatzinformationen, die zusammen mit dem wenigstens einen Basis-Kanal
die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals ermöglichen,
wobei der Datenstrom so erzeuget wird, dass aus dem Datenstrom ein zeitlicher Zusammenhang
zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar
ist.
30. Verfahren zum Erzeugen einer Multikanal-Darstellung (18, 20) eines ursprünglichen
Multikanal-Audiosignals aus wenigstens einem Basiskanal und einem Datenstrom, der
Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals
wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens
einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals
ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen
und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Schritten:
Erzeugen (11) von Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal;
Extrahieren (9) der Fingerabdruck-Informationen aus dem Datenstrom, um Referenz-Fingerabdruckinformationen
zu erhalten; und
Synchronisieren (13) der Mehrkanal-Zusatzinformationen und des wenigstens einen Basiskanals
unter Verwendung der Test-Fingerabdruckinformationen, der Referenz-Fingerabdruckinformationen
und eines aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal-Informationen
und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen, um eine synchronisierte
Multikanal-Darstellung zu erhalten.
31. Computer-Programm-Produkt mit einem Programmcode zur Ausführung des Verfahrens gemäß
Patentanspruch 29 oder Patentanspruch 30, wenn der Programmcode auf einem Rechner
abläuft.
32. Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf wenigstens
eines aus einem ursprünglichen Multikanal-Audiosignal abgeleiteten Basis-Kanals wiedergeben,
wobei eine Anzahl von Basis-Kanälen größer oder gleichen 1 und kleiner als eine Anzahl
von Kanälen des ursprünglichen Multikanal-Audiosignals ist, und Mehrkanal-Zusatzinformationen
aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion
des ursprünglichen Multikanal-Audiosignals ermöglichen, wobei aus dem Datenstrom ein
Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen
ableitbar ist.
33. Datenstrom nach Anspruch 32, der Steuersignale aufweist, um eine synchronisierte Multikanal-Darstellung
des ursprünglichen Multikanal-Audiosignals zu erzeugen, wenn der Datenstrom in die
Vorrichtung nach Patentanspruch 17 eingespeist wird.
1. Device for generating a data stream for a multichannel reconstruction of an original
multi-channel audio signal, wherein the multi-channel audio signal has at least two
channels, comprising:
a fingerprint generator (2) for generating fingerprint information from at least one
base channel derived from the original multi-channel audio signal, wherein a number
of base channels is equal to or larger than 1 and less than a number of channels of
the original multi-channel audio signal, wherein the fingerprint information gives
a progress in time of the at least one base channel; and
a data stream generator (4) for generating a data stream from the fingerprint information
and of time-variable multi-channel additional information which, together with the
at least one base channel, allow the multi-channel reconstruction of the original
multichannel audio signal, wherein the data stream generator (4) is designed to generate
the data stream so that a time connection between the multi-channel additional information
and the fingerprint information may be derived from the data stream.
2. Device of claim 1,
wherein the fingerprint generator (2) is designed to process the at least one base
channel blockwise to obtain the fingerprint information,
wherein the multi-channel additional information is calculated blockwise so that they
are to be used together with blocks of the at least one base channel for the multi-channel
reconstruction, and
wherein the data stream generator (4) is designed to write the multi-channel additional
information and the fingerprint information blockwise into the data stream.
3. Device of claim 2, wherein the fingerprint generator (2) is designed to generate,
as fingerprint information for a block of the at least one base channel, a block fingerprint
giving a progress in time of the base channel in the block,
wherein a block of the multi-channel additional information is to be used together
with the block of the base channel for the multi-channel reconstruction, and
wherein the data stream generator (4) is designed to write the data stream blockwise
so that the block of multi-channel additional information and the block of fingerprint
information have a predetermined relationship to each other.
4. Device of claim 2, wherein the fingerprint generator (2) is designed to calculate
a sequence of block fingerprints as fingerprint information for blocks of the at least
one base channel that are subsequent in time,
wherein the multi-channel additional information is given blockwise for blocks of
the at least one base channel that are subsequent in time, and
wherein the data stream generator is designed to write the sequence of block fingerprints
in a predetermined relationship to the sequence of blocks of the multichannel additional
information.
5. Device of claim 4, wherein the fingerprint generator (2) is designed to calculate
a difference between two fingerprint values of two blocks of the at least one base
channel as block fingerprint.
6. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed
to perform a quantization and entropy coding of fingerprint values to obtain the fingerprint
information.
7. Device of claim 6, wherein the fingerprint generator (2) is designed to scale fingerprint
values with scaling information and to further write the scaling information into
the data stream in association with the fingerprint information.
8. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed
to calculate the fingerprint information blockwise, and
wherein the data stream generator (4) is designed to write the data stream blockwise
so that a block of the data stream comprises a block of multi-channel additional information
and a block of fingerprint information associated with the block of multi-channel
additional information and a block of the at least one base channel.
9. Device of one of the preceding claims, wherein there are at least two base channels,
and
wherein the fingerprint generator (2) is designed to add the at least two base channels
sample-wise or spectral value-wise or to square them prior to the addition.
10. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed
to use data on an energy envelope of the at least one base channel as fingerprint
information.
11. Device of claim 10, wherein the fingerprint generator (2) is designed to use data
on an energy envelope of the at least one base channel as fingerprint information,
and
wherein the fingerprint generator (2) is further designed to use a minimum limitation
of the energy and to provide a logarithmic representation of a minimum-limited energy.
12. Device of claim 11, wherein the at least one base channel may be transmitted in coded
form to a multichannel reconstructor,
wherein the coded form has been generated using a lossy encoder, and
wherein there is further a base channel decoder to provide a decoded form of the at
least one base channel as input signal for the fingerprint generator (2).
13. Device of one of the preceding claims, wherein the multi-channel additional data are
multi-channel parameter data each associated blockwise with corresponding blocks of
the at least one base channel.
14. Device of claim 13, further comprising:
a multi-channel analyzer (112) for the blockwise generation of both a sequence of
blocks of the at least one base channel and a sequence of blocks of the multi-channel
additional information,
wherein the fingerprint generator (2) is designed to calculate a block fingerprint
value from each block of values of the at least one base channel.
15. Device of claim 14, wherein the data stream generator (4) is designed to write the
data stream into a separate data channel existing in addition to a standard data channel,
via which the at least one base channel may be transmitted to a multi-channel reconstruction
means.
16. Device of claim 15, wherein the standard data channel is a standardized channel for
a digital stereo radio signal or a standardized channel for transmission via the internet.
17. Device for generating a multi-channel representation (18, 20) of an original multi-channel
audio signal from at least one base channel and a data stream comprising fingerprint
information giving a progress in time of the at least one base channel and multichannel
additional information which, together with the at least one base channel, allow the
multi-channel reconstruction of the original multi-channel audio signal, wherein a
connection between the multi-channel additional information and the fingerprint information
may be derived from the data stream, comprising:
a fingerprint generator (11) for generating test fingerprint information from the
at least one base channel;
a fingerprint extractor (9) for extracting the fingerprint information from the data
stream to obtain reference fingerprint information; and
a synchronizer (13) for synchronizing the multichannel additional information and
the at least one base channel in time using the test fingerprint information, the
reference fingerprint information and a connection of the multi-channel information
and the fingerprint information contained in the data stream, which is derived from
the data stream, to obtain a synchronized multi-channel representation.
18. Device of claim 17, further comprising:
a multi-channel reconstructor (21) for reconstructing the multi-channel representation
using the synchronized multi-channel representation to obtain a reconstruction of
the original multi-channel audio signal.
19. Device of claim 17 or 18,
wherein the data stream comprises a sequence of blocks of multi-channel additional
data in time connection with a sequence of reference fingerprint values as reference
fingerprint information,
wherein the extractor (9) is designed to determine an associated fingerprint value
to a block of multichannel additional data based on the time connection;
wherein the fingerprint generator (11) is designed to determine a sequence of test
fingerprint values as test fingerprint information for a sequence of blocks of the
at least one base channel;
wherein the synchronizer (13) is designed to calculate an offset between the blocks
of multi-channel additional data and the blocks of the at least one base channel based
on an offset (30) between the sequence of test fingerprint values and the sequence
of reference fingerprint values, and to compensate the offset by delaying (28) the
sequence of blocks of the multi-channel additional information using the calculated
offset.
20. Device of one of claims 17 to 19,
wherein the fingerprint generator (11) is designed to perform a quantization of fingerprint
values to obtain the test fingerprint information.
21. Device of one of claims 17 to 20,
wherein the fingerprint generator (11) is designed to scale fingerprint values with
scaling information from the data stream.
22. Device of one of claims 17 to 21,
wherein there are at least two base channels, and
wherein the fingerprint generator (11) is designed to add the at least two base channels
sample-wise or spectral value-wise or to square them prior to the addition.
23. Device of one of claims 17 to 22,
wherein the fingerprint generator (11) is designed to use data on an energy envelope
of the at least one base channel as fingerprint information.
24. Device of one of claims 17 to 23,
wherein the fingerprint generator (11) is designed to use data on an energy envelope
of the at least one base channel as fingerprint information, and
wherein the fingerprint generator (11) is further designed to use a minimum limitation
of the energy and to provide a logarithmic representation of a minimum-limited energy.
25. Device of one of claims 17 to 24, wherein the data stream is organized blockwise,
and a block of multichannel additional information and a block fingerprint are contained
in a block of the data stream,
wherein the fingerprint generator (11) is designed to calculate a difference between
two block fingerprints of the at least one base channel as test fingerprint information,
and
wherein the fingerprint extractor (9) is further designed to calculate a difference
of two block fingerprints in the data stream and to provide it as reference fingerprint
information to the synchronizer (13).
26. Device of one of claims 17 to 25,
wherein the synchronizer (13) is designed to calculate an offset between the multi-channel
additional data and the at least one base channel in parallel to an audio output and
to compensate the offset adaptively.
27. Device of claim 18, further designed to reproduce the at least one base channel when
there are no synchronized multi-channel additional data yet, and to switch (32) from
a mono or stereo reproduction of the at least one base channel to a multi-channel
reproduction when there are synchronized multi-channel additional data.
28. Device of one of claims 17 to 27, designed to obtain the data stream and the at least
one base channel via bit streams separate from each other, which are received via
two logic channels or physical channels different from each other, or are obtained
via the same transmission channel which, however, is active at different times.
29. Method for generating a data stream for a multichannel reconstruction of an original
multi-channel audio signal, wherein the multi-channel audio signal has at least two
channels, comprising:
generating (2) fingerprint information from at least one base channel derived from
the original multichannel audio signal, wherein a number of base channels is equal
to or larger than 1 and less than a number of channels of the original multi-channel
audio signal, wherein the fingerprint information gives a progress in time of the
at least one base channel; and
generating (4) a data stream from the fingerprint information and of time-variable
multi-channel additional information which, together with the at least one base channel,
allow the multi-channel reconstruction of the original multi-channel audio signal,
wherein the data stream is generated so that a time connection between the multi-channel
additional information and the fingerprint information may be derived from the data
stream.
30. Method for generating a multi-channel representation (18, 20) of an original multi-channel
audio signal from at least one base channel and a data stream comprising fingerprint
information giving a progress in time of the at least one base channel and multichannel
additional information which, together with the at least one base channel, allow the
multi-channel reconstruction of the original multi-channel audio signal, wherein a
connection between the multi-channel additional information and the fingerprint information
may be derived from the data stream, comprising:
generating (11) test fingerprint information from the at least one base channel;
extracting (9) the fingerprint information from the data stream to obtain reference
fingerprint information; and
synchronizing (13) the multi-channel additional information and the at least one base
channel using the test fingerprint information, the reference fingerprint information
and a connection of the multichannel information and the fingerprint information contained
in the data stream, which is derived from the data stream, to obtain a synchronized
multichannel representation.
31. Computer program product having a program code for performing the method of claim
29 or claim 30, when the program code runs on a computer.
32. Data stream comprising fingerprint information giving a progress in time of at least
one base channel derived from an original multi-channel audio signal, wherein a number
of base channels is equal to or larger than 1 and less than a number of channels of
the original multi-channel audio signal, and multichannel additional information which,
together with the at least one base channel, allow the multi-channel reconstruction
of the original multi-channel audio signal, wherein a connection between the multi-channel
additional information and the fingerprint information may be derived from the data
stream.
33. Data stream of claim 32, comprising control signals to generate a synchronized multi-channel
representation of the original multi-channel audio signal, when the data stream is
fed into the device of claim 17.
1. Dispositif pour générer un flux de données pour une reconstruction multicanal d'un
signal audio multicanal original, le signal audio multicanal ayant au moins deux canaux,
aux caractéristiques suivantes:
un générateur d'empreinte (2) destiné à générer des informations d'empreinte à partir
d'au moins un canal de base dérivé du signal audio multicanal original, un nombre
de canaux de base étant supérieur ou égal à 1 et inférieur à un nombre de canaux du
signal audio multicanal original, les informations d'empreinte reproduisant une évolution
dans le temps de l'au moins un canal de base; et
un générateur de flux de données (4) destiné à générer un flux de données à partir
des informations d'empreinte et d'informations multicanal additionnelles variables
dans le temps qui permettent, ensemble avec l'au moins un canal de base, la reconstruction
multicanal du signal audio multicanal original, le générateur de flux de données (4)
étant réalisé de manière à générer le flux de données de sorte que du flux de données
puisse être dérivé un rapport dans le temps entre les informations multicanal additionnelles
et les informations d'empreinte.
2. Dispositif selon la revendication 1,
dans lequel le générateur d'empreinte (2) est réalisé de manière à traiter par bloc
l'au moins un canal de base, pour obtenir les informations d'empreinte,
dans lequel les informations multicanal additionnelles sont calculées par bloc, de
sorte qu'elles soient à utiliser ensemble avec les blocs de l'au moins un canal de
base pour la reconstruction multicanal, et
dans lequel le générateur de flux de données (4) est réalisé de manière à écrire les
informations multicanal additionnelles et les informations d'empreinte par bloc dans
le flux de données.
3. Dispositif selon la revendication 2, dans lequel le générateur d'empreinte (2) est
réalisé de manière à générer comme informations d'empreinte, pour un bloc de l'au
moins un canal de base, une empreinte de bloc qui reproduit une évolution dans le
temps du canal de base dans le bloc,
dans lequel un bloc des informations multicanal additionnelles est à utiliser ensemble
avec le bloc du canal de base pour la reconstruction multicanal, et
dans lequel le générateur de flux de données (4) est réalisé de manière à écrire le
flux de données par bloc de sorte que le bloc d'informations multicanal additionnelles
et le bloc d'informations d'empreinte présentent un rapport prédéterminé entre eux.
4. Dispositif selon la revendication 2, dans lequel le générateur d'empreinte (2) est
réalisé de manière à calculer pour des blocs successifs dans le temps de l'au moins
un canal de base, comme informations d'empreinte, une succession d'empreintes de bloc,
dans lequel les informations multicanal additionnelles sont données par bloc pour
des blocs successifs dans le temps de l'au moins un canal de base, et
dans lequel le générateur de flux de données est réalisé de manière à écrire la succession
d'empreintes de bloc selon un rapport prédéterminé avec la succession de blocs des
informations multicanal additionnelles.
5. Dispositif selon la revendication 4, dans lequel le générateur d'empreinte (2) est
réalisé de manière à calculer comme empreinte de bloc une différence entre deux valeurs
d'empreinte de deux blocs de l'au moins un canal de base.
6. Dispositif selon l'une des revendications précédentes, dans lequel le générateur d'empreinte
(2) est réalisé de manière à effectuer une quantification et un codage entropique
de valeurs d'empreinte, pour obtenir les informations d'empreinte.
7. Dispositif selon la revendication 6, dans lequel le générateur d'empreinte (2) est
réalisé de manière à moduler les valeurs d'empreinte par une information de modulation
et à écrire l'information de modulation par ailleurs en association avec les informations
d'empreinte dans le flux de données.
8. Dispositif selon l'une des revendications précédentes, dans lequel le générateur d'empreinte
(2) est réalisé de manière à calculer les informations d'empreinte par bloc, et
dans lequel le générateur de flux de données (4) est réalisé de manière à écrire le
flux de données par bloc, de sorte qu'un bloc du flux de données présente un bloc
d'informations multicanal additionnelles et un bloc d'informations d'empreinte qui
sont associés au bloc d'informations multicanal additionnelles et à un bloc d'au moins
un canal de base.
9. Dispositif selon l'une des revendications précédentes, dans lequel sont présents au
moins deux canaux de base, et
dans lequel le générateur d'empreinte (2) est réalisé de manière à additionner les
au moins deux canaux de base par valeur de balayage ou par valeur spectrale ou à les
élever au carré avant addition.
10. Dispositif selon l'une des revendications précédentes, dans lequel le générateur d'empreinte
(2) est réalisé de manière à utiliser comme informations d'empreinte des données sur
une courbe enveloppante d'énergie de l'au moins un canal de base.
11. Dispositif selon la revendication 10, dans lequel le générateur d'empreinte (2) est
réalisé de manière à utiliser comme informations d'empreinte des données sur une courbe
enveloppante d'énergie de l'au moins un canal de base, et
dans lequel le générateur d'empreinte (2) est par ailleurs réalisé de manière à utiliser
une limitation à un minimum de l'énergie et à fournir une représentation logarithmique
d'une énergie limitée à un minimum.
12. Dispositif selon la revendication 11, dans lequel l'au moins un canal de base peut
être transmis de forme codée à un reconstructeur multicanal,
la forme codée ayant été générée à l'aide d'un codeur à perte, et
dans lequel est par ailleurs présent un décodeur de canal de base, pour mettre à disposition
une forme décodée de l'au moins un canal de base comme signal d'entrée pour le générateur
d'empreinte (2).
13. Dispositif selon l'une des revendications précédentes, dans lequel les données multicanal
additionnelles sont des données de paramètre multicanal qui sont associées, chacune,
par bloc à des blocs correspondants de l'au moins un canal de base.
14. Dispositif selon la revendication 13, présentant par ailleurs les caractéristiques
suivantes:
un analyseur multicanal (112) destiné à générer par bloc tant une succession de blocs
de l'au moins un canal de base qu'une succession de blocs des d'informations multicanal
additionnelles,
dans lequel le générateur d'empreinte (2) est par ailleurs réalisé de manière à calculer,
de chaque bloc de valeurs de l'au moins un canal de base, une valeur d'empreinte de
bloc.
15. Dispositif selon la revendication 14, dans lequel le générateur de flux de données
(4) est réalisé de manière à écrire le flux de données dans un canal de données séparé
qui est présent en plus d'un canal de données standard, par lequel l'au moins un canal
de base peut être transmis à un moyen de reconstruction multicanal.
16. Dispositif selon la revendication 15, dans lequel le canal de données standard est
un canal standardisé pour un signal de radiodiffusion stéréo numérique ou un canal
standardisé pour une transmission par Internet.
17. Dispositif pour générer une représentation multicanal (18, 20) d'un signal audio multicanal
original à partir d'au moins un canal de base et d'un flux de données présentant des
informations d'empreinte reproduisant une évolution dans le temps d'au moins un canal
de base et des informations multicanal additionnelles permettant, ensemble avec l'au
moins un canal de base, la reconstruction multicanal du signal audio multicanal original,
du flux de données pouvant être dérivé un rapport entre les informations multicanal
additionnelles et les informations d'empreinte, aux caractéristiques suivantes:
un générateur d'empreinte (11) destiné à générer des informations d'empreinte de test
à partir de l'au moins un canal de base;
un extracteur d'empreinte (9) destiné à extraire les informations d'empreinte du flux
de données, pour obtenir des informations d'empreinte de référence; et
un synchronisateur (13) destiné à synchroniser dans le temps les informations multicanal
additionnelles et l'au moins un canal de base à l'aide des informations d'empreinte
de test, des informations d'empreinte de référence et d'un rapport dérivé du flux
de données entre les informations multicanal et les informations d'empreinte contenues
dans le flux de données, pour obtenir une représentation multicanal synchronisée.
18. Dispositif selon la revendication 17, présentant par ailleurs la caractéristique suivante:
un reconstructeur multicanal (21) destiné à reconstruire la représentation multicanal
à l'aide de la représentation multicanal synchronisée, pour obtenir une reconstruction
du signal audio multicanal original.
19. Dispositif selon la revendication 17 ou 18,
dans lequel lé flux de données présente une succession de blocs de données multicanal
additionnelles selon un rapport dans le temps avec une succession de valeurs d'empreinte
de référence comme informations d'empreinte de référence,
dans lequel l'extracteur (9) est réalisé de manière à déterminer pour un bloc de données
multicanal additionnelles, sur base du rapport dans le temps, une valeur d'empreinte
associée;
dans lequel le générateur d'empreinte (11) est réalisé de manière à déterminer pour
une succession de blocs de l'au moins un canal de base, comme informations d'empreinte
de test, une succession de valeurs d'empreinte de test;
dans lequel le synchronisateur (13) est réalisé de manière à calculer, sur base d'un
décalage (30) entre la succession de valeurs d'empreinte de test et la succession
de valeurs d'empreinte de référence, un décalage entre les blocs d'informations multicanal
additionnelles et les blocs de l'au moins un canal de base, et à compenser le décalage
par temporisation (28) de la succession de blocs des données multicanal additionnelles
à l'aide du décalage calculé.
20. Dispositif selon l'une des revendications 17 à 19,
dans lequel le générateur d'empreinte (11) est réalisé de manière à effectuer une
quantification de valeurs d'empreinte, pour obtenir les informations d'empreinte de
test.
21. Dispositif selon l'une des revendications 17 à 20,
dans lequel le générateur d'empreinte (11) est réalisé de manière à moduler les valeurs
d'empreinte par une information de modulation du flux de données.
22. Dispositif selon l'une des revendications 17 à 21,
dans lequel sont présents au moins deux canaux de base, et
dans lequel le générateur d'empreinte (11) est réalisé de manière à additionner les
au moins deux canaux de base par valeur de balayage ou par valeur spectrale ou à les
élever au carré avant addition.
23. Dispositif selon l'une des revendications 17 à 22,
dans lequel le générateur d'empreinte (11) est réalisé de manière à utiliser comme
informations d'empreinte des données sur une courbe enveloppante d'énergie de l'au
moins un canal de base.
24. Dispositif selon l'une des revendications 17 à 23,
dans lequel le générateur d'empreinte (11) est réalisé de manière à utiliser comme
informations d'empreinte des données sur une courbe enveloppante d'énergie de l'au
moins un canal de base, et
dans lequel le générateur d'empreinte (11) est par ailleurs réalisé de manière à utiliser
une limitation à un minimum de l'énergie et à fournir une représentation logarithmique
d'une énergie limitée à un minimum.
25. Dispositif selon l'une des revendications 17 à 24, dans lequel le flux de données
est organisé par bloc et dans un bloc du flux de données sont contenus un bloc d'informations
multicanal additionnelles et une empreinte de bloc,
dans lequel le générateur d'empreinte (11) est réalisé de manière à calculer comme
information d'empreinte de test une différence entre deux empreintes de bloc de l'au
moins un canal de base, et
dans lequel l'extracteur d'empreinte (9) est par ailleurs réalisé de manière à calculer
une différence entre deux empreintes de bloc dans le flux de données et à la fournir
comme informations d'empreinte de référence au synchronisateur (13).
26. Dispositif selon l'une des revendications 17 à 25,
dans lequel le synchronisateur (13) est réalisé de manière à calculer, en parallèle
avec une sortie audio, un décalage entre les données multicanal additionnelles et
l'au moins un canal de base et à compenser le décalage de manière adaptative.
27. Dispositif selon la revendication 18, qui est par ailleurs réalisé de manière à reproduire,
lorsqu'il n'est pas encore présent de données multicanal additionnelles synchronisées,
l'au moins un canal de base et, lorsque des données multicanal additionnelles synchronisées
sont présentes, à commuter d'une reproduction mono ou stéréo de l'au moins un canal
de base à une reproduction multicanal (32).
28. Dispositif selon l'une des revendications 17 à 27, qui est réalisé de manière à obtenir
le flux de données et l'au moins un canal de base par des trains binaires séparés
l'un de l'autre qui sont reçus par deux canaux logiques ou canaux physiques différents
l'un de l'autre, ou qui sont reçus par le même canal de transmission, toutefois actif
à des moments différents.
29. Procédé pour générer un flux de données pour une reconstruction multicanal d'un signal
audio multicanal original, le signal audio multicanal ayant au moins deux canaux,
aux étapes suivantes consistant à:
générer (2) des informations d'empreinte à partir d'au moins un canal de base dérivé
du signal audio multicanal original, un nombre de canaux de base étant supérieur ou
égal à 1 et inférieur à un nombre de canaux du signal audio multicanal original, les
informations d'empreinte reproduisant une évolution dans le temps de l'au moins un
canal de base; et
générer (4) un flux de données à partir des informations d'empreinte et d'informations
multicanal additionnelles variables dans le temps qui permettent, ensemble avec l'au
moins un canal de base, la reconstruction multicanal du signal audio multicanal original,
le flux de données étant généré de sorte que du flux de données puisse être dérivé
un rapport dans le temps entre les informations multicanal additionnelles et les informations
d'empreinte.
30. Procédé pour générer une représentation multicanal (18, 20) d'un signal audio multicanal
original à partir d'au moins un canal de base et d'un flux de données présentant des
informations d'empreinte reproduisant une évolution dans le temps de l'au moins un
canal de base et des informations multicanal additionnelles permettant, ensemble avec
l'au moins un canal de base, la reconstruction multicanal du signal audio multicanal
original, du flux de données pouvant être dérivé un rapport entre les informations
multicanal additionnelles et les informations d'empreinte, aux étapes suivantes consistant
à:
générer (11) des informations d'empreinte de test à partir de l'au moins un canal
de base;
extraire (9) les informations d'empreinte du flux de données, pour obtenir des informations
d'empreinte de référence; et
synchroniser (13) les informations multicanal additionnelles et l'au moins un canal
de base à l'aide des informations d'empreinte de test, des informations d'empreinte
de référence et d'un rapport dérivé du flux de données entre les informations multicanal
et les informations d'empreinte contenues dans le flux de données, pour obtenir une
représentation multicanal synchronisée.
31. Programme d'ordinateur avec un code de programme pour réaliser le procédé selon la
revendication 29 ou la revendication 30 lorsque le code de programme est exécuté sur
un ordinateur.
32. Flux de données présentant des informations d'empreinte reproduisant une évolution
dans le temps d'au moins un canal de base dérivé d'un signal audio multicanal original,
un nombre de canaux de base étant supérieur ou égal à 1 et inférieur à un nombre de
canaux du signal audio multicanal original, et des informations multicanal additionnelles
permettant, ensemble avec l'au moins un canal de base, la reconstruction multicanal
du signal audio multicanal original, du flux de données pouvant être dérivé un rapport
entre les informations multicanal additionnelles et les informations d'empreinte.
33. Flux de données selon la revendication 32, présentant des signaux de commande pour
générer une représentation multicanal synchronisée du signal audio multicanal original
lorsque le flux de données est alimenté vers le dispositif selon la revendication
17.