VORRICHTUNG UND VERFAHREN ZUM ERZEUGEN EINES DATENSTROMS UND ZUM ERZEUGEN EINER MULTIKANAL-DARSTELLUNG

(19)

(11)

EP 1 864 279 B1

(12)	EUROPÄISCHE PATENTSCHRIFT

(45)	Hinweis auf die Patenterteilung:
	17.06.2009 Patentblatt 2009/25

(21)	Anmeldenummer: 06707562.2

(22)	Anmeldetag: 15.03.2006

(51)

Internationale Patentklassifikation (IPC):

G10L 19/00^(2006.01)

(86)	Internationale Anmeldenummer:
	PCT/EP2006/002369

(87)	Internationale Veröffentlichungsnummer:
	WO 2006/102991 (05.10.2006 Gazette 2006/40)

(54)

VORRICHTUNG UND VERFAHREN ZUM ERZEUGEN EINES DATENSTROMS UND ZUM ERZEUGEN EINER MULTIKANAL-DARSTELLUNG

DEVICE AND METHOD FOR PRODUCING A DATA FLOW AND FOR PRODUCING A MULTI-CHANNEL REPRESENTATION

DISPOSITIF ET PROCEDE POUR PRODUIRE UN FLUX DE DONNEES ET POUR PRODUIRE UNE REPRESENTATION MULTICANAUX

(84)	Benannte Vertragsstaaten:
	AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

(30)

Priorität:

30.03.2005 DE 102005014477

(43)	Veröffentlichungstag der Anmeldung:
	12.12.2007 Patentblatt 2007/50

(73)	Patentinhaber: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
	80686 München (DE)

(72)	Erfinder:
	FIESEL, Wolfgang 90596 Schwanstetten (DE) NEUSINGER, Matthias 91189 Rohr (DE) POPP, Harald 90587 Tuchenbach (DE) GEYERSBERGER, Stephan 97076 Würzburg (DE)

(74)	Vertreter: Zinkler, Franz
	Schoppe, Zimmermann, Stöckeler & Zinkler Patentanwälte Postfach 246 82043 Pullach bei München 82043 Pullach bei München (DE)

(56)

Entgegenhaltungen: :

WO-A-03/091990
WO-A-20/06034825

WO-A-20/05011281
US-B1- 6 611 212

HERRE J, FALLER C, DISCH S, HOLPERT J, HOELZER A, LINZMEIER A, SPENGER C, KROON P: "Spatial Audio coding - An Enabeling Technology for Bitrate-Efficient and Compatible Multi-channel Audio Broadcasting" AES 117TH CONVENTION, 28. Oktober 2004 (2004-10-28), - 31. Oktober 2004 (2004-10-31) Seiten 1-13, XP008065968 San Francisco, USA

Anmerkung: Innerhalb von neun Monaten nach der Bekanntmachung des Hinweises auf die Erteilung des europäischen Patents kann jedermann beim Europäischen Patentamt gegen das erteilte europäischen Patent Einspruch einlegen. Der Einspruch ist schriftlich einzureichen und zu begründen. Er gilt erst als eingelegt, wenn die Einspruchsgebühr entrichtet worden ist. (Art. 99(1) Europäisches Patentübereinkommen).

Beschreibung

[0001] Die vorliegende Erfindung bezieht sich auf die Audiosignalverarbeitung und insbesondere auf Multikanal-Verarbeitungstechniken, die darauf basieren, dass auf der Basis wenigstens eines Basiskanals bzw. Downmix-Kanals und Mehrkanal-Zusatzinformationen eine Multikanal-Rekonstruktion eines ursprünglichen Multikanalsignals erzeugt wird.

[0002] Derzeit in der Entwicklung befindliche Technologien ermöglichen eine immer effizientere Übertragung von Audiosignalen durch Datenreduktion, aber auch eine Steigerung des Hörgenusses durch Erweiterungen, wie beispielsweise durch den Einsatz der Mehrkanaltechnik. Beispiele für eine solche Erweiterung der üblichen Übertragungstechniken sind in jüngster Zeit unter dem Namen Binaural Cue Coding (BCC) sowie "Spatial Audio Coding" bekannt geworden, wie es in J. Herre, C. Faller, S. Disch, C. Ertel, J. Hilbert, A. Hoelzer, K. Linzmeier, C. Sprenger, P. Kroon: "Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi-Channel Audio", 117th. AES Convention, San Francisco 2004, Preprint 6186, beschrieben ist.

[0003] Nachfolgend wird näher auf verschiedene Techniken zum Reduzieren der Datenmenge, die zur Übertragung eines Multikanal-Audiosignals benötigt wird, eingegangen.

[0004] Solche Techniken werden Joint-Stereo-Techniken genannt. Zu diesem Zweck wird auf Fig. 3 verwiesen, die eine Joint-Stereo-Vorrichtung 60 zeigt. Diese Vorrichtung kann eine Vorrichtung sein, die beispielsweise die Intensity-Stereo-(IS-) Technik oder die Binaural Cue Codiertechnik (BCC) implementiert. Ein solches Gerät empfängt üblicherweise als Eingangssignal zumindest zwei Kanäle CH1, CH2, .... CHn, und gibt einen einzigen Trägerkanal sowie parametrische Multikanalinformationen aus. Die parametrischen Daten sind so definiert, dass in einem Decodierer eine Approximation eines Ursprungskanals (CH1, CH2, ..., CHn) berechnet werden kann.

[0005] Normalerweise wird der Trägerkanal Subband-Abtastwerte, Spektralkoeffizienten, Zeitbereichsabtastwerte etc. umfassen, die eine relativ feine Darstellung des zugrundeliegenden Signals liefern, während die parametrischen Daten keine solchen Abtastwerte oder Spektralkoeffizienten umfassen, sondern Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus, wie beispielsweise Gewichten durch multiplizierten, durch Zeitverschieben, durch Frequenzverschieben, etc. Die parametrischen Multikanalinformationen umfassen daher eine relativ grobe Darstellung des Signals oder des zugeordneten Kanals. In Zahlen ausgedrückt beträgt die Menge an Daten, die von einem Trägerkanal benötigt wird, eine Menge von etwa 60 bis 70 kBit/s, während die Menge an Daten, die durch parametrische Seiteninformationen für einen Kanal benötigt wird, im Bereich von 1,5 bis 2,5 kBit/s ist. Es sei darauf hingewiesen, dass die vorstehenden Zahlen für komprimierte Daten gelten. Selbstverständlich benötigt ein nicht-komprimierter CD-Kanal Datenraten im Bereich von etwa dem Zehnfachen. Ein Beispiel für parametrische Daten sind die bekannten Skalenfaktoren, Intensity-Stereo-Informationen oder BCC-Parameter, wie es nachfolgend dargelegt wird.

[0006] Die Technik der Intensity-Stereo-Codierung ist in dem AES-Preprint 3799, "Intensity Stereo Coding", J. Herre, K.H. Brandenburg, D. Lederer, Februar 1994, Amsterdam beschrieben. Allgemein basiert das Konzept von Intensity Stereo auf einer Hauptachsentransformation, die auf Daten beider stereophoner Audiokanäle durchzuführen ist. Wenn die meisten Datenpunkte um die erste Hauptachse herum konzentriert sind, kann ein Codiergewinn erreicht werden, indem beide Signale um einen bestimmten Winkel gedreht werden, bevor die Codierung stattfindet. Dies ist jedoch nicht immer für reale stereophone Reproduktionstechniken gegeben. Daher wird diese Technik dahingehend modifiziert, dass die zweite orthogonale Komponente von der Übertragung in dem Bitstrom ausgeschlossen wird. Somit bestehen die rekonstruierten Signale für den linken und den rechten Kanal aus unterschiedlich gewichteten oder skalierten Versionen desselben übertragenen Signals. Dennoch unterscheiden sich die rekonstruierten Signale in ihrer Amplitude, sie sind jedoch identisch im Hinblick auf ihre Phaseninformationen. Die Energie-Zeit-Hüllkurven beider ursprünglicher Audiokanäle werden jedoch durch die selektive Skalierungsoperation beibehalten, die typischerweise auf frequenzselektive Art und Weise arbeitet. Dies entspricht der menschlichen Wahrnehmung des Schalls bei hohen Frequenzen, wo die dominanten räumlichen Informationen durch die Energiehüllkurven bestimmt werden.

[0007] Zusätzlich wird bei praktischen Implementierungen das übertragene Signal, d. h. der Trägerkanal aus dem Summensignal des linken Kanals und des rechten Kanals anstatt der Rotation beider Komponenten erzeugt. Ferner wird diese Verarbeitung, d. h. das Erzeugen von Intensity-Stereo-Parametern zum Durchführen der Skalierungsoperationen frequenzselektiv durchgeführt, d. h. unabhängig für jedes Skalenfaktorband, d. h. für jede Codiererfrequenzpartition. Vorzugsweise werden beide Kanäle kombiniert, um einen kombinierten oder "Träger"-Kanal und zusätzlich zu dem kombinierten Kanal die Intensity-Stereo-Informationen zu bilden. Die Intensity-Stereo-Informationen hängen von der Energie des ersten Kanals, der Energie des zweiten Kanals oder der Energie des kombinierten Kanals ab.

[0008] Die BCC-Technik ist in dem AES-Convention-Paper 5574 "Binaural Cue Coding applied to stereo and multichannel audio compression", T. Faller, F. Baumgarte, Mai 2002, München, beschrieben. Bei der BCC-Codierung wird eine Anzahl von Audioeingangskanälen in eine Spektraldarstellung umgewandelt, und zwar unter Verwendung einer DFT-basierten Transformation mit überlappenden Fenstern. Das resultierende Spektrum wird in nicht-überlappende Abschnitte eingeteilt, von denen jeder einen Index hat. Jede Partition hat eine Bandbreite proportional zu der äquivalenten Rechteckbandbreite (ERB). Die Inter-Kanal-Pegelunterschiede (ICLD; ICLD = Inter Channel Level Differences) und die Interkanal-Zeitunterschiede (ICTD; ICTD = Inter Channel Time Differences) werden für jede Partition und für jeden Frame k ermittelt. Die ICLD und ICTD werden quantisiert und codiert, um schließlich als Seiteninformationen in einen BCC-Bitstrom zu kommen. Die Interkanal-Pegelunterschiede und die Interkanal-Zeitunterschiede sind für jeden Kanal relativ zu einem Referenzkanal gegeben. Dann werden die Parameter gemäß vorbestimmter Formeln berechnet, die von den bestimmten Partitionen des zu verarbeitenden Signals abhängen.

[0009] Auf Decodiererseite empfängt der Decodierer typischerweise ein Monosignal und den BCC-Bitstrom. Das Monosignal wird in den Frequenzbereich transformiert und in einen Raumsyntheseblock (Spatial-Syntheseblock) eingegeben, der auch decodierte ICLD- und ICTD-Werte empfängt. In dem Spatial-Syntheseblock werden die BCC-Parameter (ICLD und ICTD) verwendet, um eine Gewichtungsoperation des Monosignals durchzuführen, um die Multikanalsignale zu synthetisieren, die, nach einer Frequenz-/Zeit-Umwandlung eine Rekonstruktion des ursprünglichen Multikanal-Audiosignals darstellen.

[0010] Im Fall von BCC ist das Joint-Stereo-Modul 60 wirksam, um die kanalseitigen Informationen so auszugeben, dass die parametrischen Kanaldaten quantisierte und codierte ICLD- oder ICTD-Parameter sind, wobei einer der ursprünglichen Kanäle als Referenzkanal zum Codieren der Kanalseiteninformationen verwendet wird.

[0011] Normalerweise wird der Trägersignal aus der Summe der teilnehmenden Ursprungskanäle gebildet.

[0012] Natürlich liefern die obigen Techniken nur eine Monodarstellung für einen Decodierer, der nur den Trägerkanal verarbeiten kann, der jedoch nicht in der Lage ist, die parametrischen Daten zur Erzeugung von einer oder mehreren Approximationen von mehr als einem Eingangskanal zu verarbeiten.

[0013] Die BCC-Technik ist auch in den US-Patentveröffentlichungen US 2003/0219130 A1, US 2003/0026441 A1 und US 2003/0035553 A1 beschrieben. Zusätzlich wird auf die Fachveröffentlichung "Binaural Cue Coding. Part II: Schemes and Applications", T. Faller und F. Baumgarte, IEEE Trans. On Audio and Speech Proc. Bd. 11, Nr. 6, November 2003 verwiesen.

[0014] Nachfolgend wird ein typisches BCC-Schema zur Multikanalaudiocodierung detaillierter dargestellt, und zwar Bezug nehmend auf die Fig. 4 bis 6.

[0015] Fig. 5 zeigt ein solches BCC-Schema zur Codierung/Übertragung von Multikanalaudiosignalen. Das Multikanalaudioeingangssignal an einem Eingang 110 eines BCC-Codierers 112 wird in einem sogenannten Downmix-Block 114 heruntergemischt. Bei diesem Beispiel ist das ursprüngliche Multikanalsignal an dem Eingang 110 ein 5-Kanal-Surround-Signal mit einem vorderen linken Kanal, einem vorderen rechten Kanal, einem linken Surround-Kanal, einem rechten Surround-Kanal und einem Mittenkanal. Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung erzeugt der Downmix-Block 114 ein Summensignal durch eine einfache Addition dieser fünf Kanäle in ein Monosignal.

[0016] Andere Downmixing-Schemen sind in der Technik bekannt, so dass unter Verwendung eines Multikanal-Eingangssignals ein Downmix-Kanal mit einem einzigen Kanal erhalten wird.

[0017] Dieser einzige Kanal wird an einer Summensignalleitung 115 ausgegeben. Eine Seiteninformation, die von dem BCC-Analyseblock 116 erhalten wird, wird auf einer Seiteninformationsleitung 117 ausgegeben.

[0018] Bei dem BCC-Analyseblock werden Interkanal-Pegelunterschiede (ICLD) und Interkanal-Zeitunterschiede (ICTD) berechnet, wie es vorstehend dargestellt worden ist. Neuerdings ist der BCC-Analyseblock 116 auch in der Lage, Interkanal-Korrelationswerte (ICC-Werte) zu berechnen. Das Summensignal und die Seiteninformationen werden in einem quantisierten und codierten Format zu einem BCC-Decodierer 120 übertragen. Der BCC-Decodierer zerlegt das übertragene Summensignal in eine Anzahl von Subbändern und führt Skalierungen, Verzögerungen und andere Verarbeitungsschritte aus, um die Subbänder der auszugebenden Multikanal-Audiokanäle zu liefern. Diese Verarbeitung wird so durchgeführt, dass die ICLD-, ICTD- und ICC-Parameter (Cues) eines rekonstruierten Multikanalsignals am Ausgang 121 mit den entsprechenden Cues für das ursprüngliche Multikanalsignal am Eingang 110 in dem BCC-Codierer 112 übereinstimmen. Zu diesem Zweck umfasst der BCC-Decodierer 120 einen BCC-Syntheseblock 122 und einen Seiteninformationenüberarbeitungsblock 123.

[0019] Nachfolgend wird der interne Aufbau des BCC-Syntheseblocks 122 Bezug nehmend auf Fig. 6 dargestellt. Das Summensignal auf der Leitung 115 wird in eine Zeit-/Frequenz-Umwandlungseinheit oder Filterbank FB 125 eingespeist. Am Ausgang des Blocks 125 existiert eine Anzahl N von Subbandsignalen oder, in einem Extremfall, ein Block von Spektralkoeffizienten, wenn die Audio-Filterbank 125 eine 1:1-Transformation durchführt, d. h. eine Transformation, die N Spektralkoeffizienten aus N Zeitbereichsabtastwerten erzeugt.

[0020] Der BCC-Syntheseblock 122 umfasst ferner eine Verzögerungsstufe 126, eine Pegelmodifikationsstufe 127, eine Korrelationsverarbeitungsstufe 128 und eine Inversfilterbankstufe IFB 129. Am Ausgang der Stufe 129 kann das rekonstruierte Multikanalaudiosignal mit beispielsweise fünf Kanälen im Falle eines 5-Kanal-Surroundsystems zu einem Satz von Lautsprechern 124 ausgegeben werden, wie sie in Fig. 5 oder Fig. 4 dargestellt sind.

[0021] Das Eingangssignal sn wird in den Frequenzbereich oder den Filterbankbereich mittels des Elements 125 umgewandelt. Das Signal, das vom Element 125 ausgegeben wird, wird derart kopiert, dass mehrere Versionen desselben Signals erhalten werden, wie es durch den Kopierknoten 130 dargestellt ist. Die Anzahl der Versionen des ursprünglichen Signals ist gleich der Anzahl der Ausgangskanäle in dem Ausgangssignal. Dann wird jede Version des ursprünglichen Signals am Knoten 130 einer bestimmten Verzögerung d₁, d₂, ..., d_i, ... d_N unterzogen. Die Verzögerungsparameter werden durch den Seiteninformationsverarbeitungsblock 123 in Fig. 5 berechnet und von den Interkanal-Zeitunterschieden, wie sie durch den BCC-Analyseblock 116 von Fig. 5 berechnet worden sind, abgeleitet.

[0022] Dasselbe gilt für die Multiplikationsparameter a₁, a₂, ..., a_i, ..., aN, die ebenfalls durch den Seiteninformationsverarbeitungsblock 123 basierend auf den Interkanal-Pegelunterschieden, wie sie durch den BCC-Analyseblock 116 berechnet worden sind, berechnet werden.

[0023] Die durch den BCC-Analyseblock 116 berechneten ICC-Parameter werden zum Steuern der Funktionalität des Blocks 128 verwendet, so dass bestimmte Korrelationen zwischen den verzögerten und in ihren Pegeln manipulierten Signalen an den Ausgängen des Blocks 128 erhalten werden. Es sei hier darauf hingewiesen, dass die Reihenfolge der Stufen 126, 127, 128 von der in Fig. 6 gezeigten Reihenfolge abweichen kann.

[0024] Es sei darauf hingewiesen, dass bei einer rahmenweisen Verarbeitung des Audiosignals auch die BCC-Analyse rahmenweise durchgeführt wird, also zeitlich variabel, und dass ferner eine frequenzweise BCC-Analyse erhalten wird, wie es durch die Filterbank-Aufteilung aus Fig. 6 ersichtlich ist. Dies bedeutet, dass die BCC-Parameter für jedes Spektralband erhalten werden. Dies bedeutet ferner, dass in dem Fall, in dem die Audiofilterbank 125 das Eingangssignal in beispielsweise 32 Bandpasssignale zerlegt, der BCC-Analyseblock einen Satz von BCC-Parametern für jedes der 32 Bänder erhält. Natürlich führt der BCC-Syntheseblock 122 von Fig. 5, der detailliert in Fig. 6 dargestellt ist, eine Rekonstruktion durch, die auch auf den beispielhaft genannten 32 Bändern basiert.

[0025] Nachfolgend wird Bezug nehmend auf Fig. 4 ein Szenario dargestellt, das dazu verwendet wird, um einzelne BCC-Parameter zu bestimmen. Normalerweise können die ICLD-, ICTD- und ICC-Parameter zwischen Kanalpaaren definiert werden. Es wird jedoch bevorzugt, die ICLD- und ICTD-Parameter zwischen einem Referenzkanal und jedem anderen Kanal zu bestimmen. Dies ist in Fig. 4A dargestellt.

[0026] ICC-Parameter können auf verschiedene Arten und Weisen definiert werden. Allgemein gesagt kann man ICC-Parameter in dem Codierer zwischen allen möglichen Kanalpaaren bestimmen, wie es in Fig. 4B dargestellt ist. Es wurde jedoch vorgeschlagen, nur ICC-Parameter zwischen den stärksten zwei Kanälen zu einem Zeitpunkt zu berechnen, wie es in Fig. 4C dargestellt ist, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 2 berechnet wird, und zu einem anderen Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 5 berechnet wird. Der Decodierer synthetisiert dann die Interkanalkorrelation zwischen den stärksten Kanälen in dem Decoder und verwendet bestimmte heuristische Regeln zum Berechnen und Synthetisieren der Interkanalkohärenz für die restlichen Kanalpaare.

[0027] Bezüglich der Berechnung beispielsweise der Multiplikationsparameter a₁, aN basierend auf den übertragenen ICLD-Parametern wird auf das AES-Convention-Paper Nr. 5574 Bezug genommen. Die ICLD-Parameter stellen eine Energieverteilung eines ursprünglichen Mehrkanalsignals dar. Ohne Verlust der Allgemeinheit wird es bevorzugt, wie es in Fig. 4A gezeigt, vier ICLD-Parameter zu nehmen, die die Energiedifferenz zwischen den jeweiligen Kanälen und dem vorderen linken Kanal darstellen. In dem Seiteninformationsverarbeitungsblock 122 werden die Multiplikationsparameter a₁, ..., aN von den ICLD-Parametern so abgeleitet, dass die gesamte Energie aller rekonstruierter Ausgangskanäle dieselbe ist (oder proportional zu der Energie des übertragenen Summensignals ist).

[0028] Allgemein findet bei solchen insbesondere parametrischen Multikanalcodierschemen eine Erzeugung wenigstens eines Basiskanals sowie der Seiteninformationen statt, wie es aus Fig. 5 ersichtlich ist. Typischerweise werden Block-basierte Schemen verwendet, bei denen, wie es ebenfalls aus Fig. 5 ersichtlich ist, das ursprüngliche Multikanalsignal am Eingang 110 einer Block-Verarbeitung durch eine Block-Stufe 111 unterzogen wird, derart, dass aus einem Block von beispielsweise 1152 Abtastwerten das Downmix-Signal bzw. Summensignal bzw. der wenigstens eine Basiskanal für diesen Block gebildet wird, während gleichzeitig für diesen Block durch die BCC-Analyse die entsprechenden Multikanal-Parameter erzeugt werden. Nach dem Downmix-Kanal wird das Summensignal typischerweise wieder mit einem Block-basierten Codierer, wie beispielsweise einem MP3-Codierer oder einem AAC-Codierer codiert, um eine weitere Datenratenreduktion zu erhalten. Genauso werden die Parameterdaten codiert, beispielsweise durch Differenzcodierung, Skalierung/Quantisierung und Entropie-Codierung.

[0029] Dann, am Ausgang des gesamten Codierers, der also den BCC-Codierer 112 sowie eine nachgeschalteten Basiskanal-Codierer umfasst, wird ein gemeinsamer Datenstrom geschrieben, in dem ein Block des wenigstens einen Basiskanals auf einen früheren Block des wenigstens einen Basiskanals folgt, und in dem die codierten Mehrkanal-Zusatzinformationen ebenfalls beispielsweise durch einen Bitstrommultiplexer eingetastet werden.

[0030] Diese Eintastung findet so statt, dass der Datenstrom aus Basiskanaldaten und Mehrkanal-Zusatzinformationen immer einen Block von Basiskanaldaten umfasst und in Zuordnung zu diesem Block einen Block von Mehrkanal-Zusatzdaten umfasst, die dann z. B. einen gemeinsamen Übertragungsframe bilden. Dieser Übertragungsframe wird dann über eine Übertragungsstrecke zu einem Decodierer geschickt.

[0031] Der Decodierer umfasst eingangsseitig wieder einen Datenstrom-Demultiplexer, um einen Frame des Datenstroms in einen Block von Basiskanaldaten und einen Block von zugehörigen Mehrkanal-Zusatzinformationen zu splitten. Dann wird der Block von Basisdaten z. B. durch einen MP3-Decodierer oder einen AAC-Decodierer decodiert. Dieser Block von decodierten Basisdaten wird dann zusammen mit dem Block von gegebenenfalls ebenfalls decodierten Mehrkanal-Zusatzinformationen dem BCC-Decodierer 120 zugeführt.

[0032] Damit ist aufgrund der gemeinsamen Übertragung von Basiskanaldaten und Zusatzinformationen die zeitliche Zuordnung der Zusatzinformationen zu den Basiskanaldaten automatisch festgelegt und durch einen Decodierer, der frameweise arbeitet, ohne weiteres wieder herzustellen. Der Decodierer findet also aufgrund der gemeinsamen Übertragung der beiden Datenarten in einem einzigen Datenstrom gewissermaßen automatisch die einem Block von Basiskanaldaten zugehörigen Zusatzinformationen, damit eine Multikanal-Rekonstruktion mit hoher Qualität möglich ist. Es wird also keine Problematik auftreten, dass die Mehrkanal-Zusatzinformationen einen zeitlichen Versatz zu den Basiskanaldaten haben. Würde jedoch ein solcher Versatz vorhanden sein, so würde dies zu einer erheblichen Qualitätseinbuße der Multikanal-Rekonstruktion führen, da dann ein Block von Basiskanaldaten zusammen mit Mehrkanal-Zusatzdaten verarbeitet wird, obgleich diese Mehrkanal-Zusatzdaten gar nicht zu dem Block von Basisdaten gehören, sondern z. B. zu einem früheren oder späteren Block.

[0033] Ein solches Szenario, bei dem die Zuordnung zwischen Mehrkanal-Zusatzdaten und Basiskanaldaten nicht mehr gegeben ist, wird dann auftreten, wenn kein gemeinsamer Datenstrom geschrieben wird, sondern wenn ein eigener Datenstrom mit den Basiskanaldaten existiert und ein anderer davon getrennter Datenstrom mit den Mehrkanal-Zusatzinformationen vorhanden ist. Eine solche Situation kann beispielsweise bei einem sequenziell arbeitenden Übertragungssystem entstehen, wie beispielsweise Rundfunk oder Internet. Hier wird das zu übertragende Audioprogramm in Audiobasisdaten (Mono- oder Stereodownmix-Audiosignal) und Erweiterungsdaten (Mehrkanal-Zusatzinformationen) aufgeteilt, welche einzeln oder kombiniert ausgestrahlt werden. Selbst wenn die beiden Datenströme noch von einem Sender zeitlich synchron ausgesendet werden, können auf dem Übertragungsweg zum Empfänger viele "Überraschungen" lauern, die dazu führen, dass der im Hinblick auf die Anzahl von Bits wesentlich kompaktere Datenstrom mit den Mehrkanal-Zusatzdaten z. B. schneller zu einem Empfänger übertragen wird als der Datenstrom mit den Basiskanaldaten.

[0034] Ferner wird es bevorzugt, Codierer/Decodierer mit nichtkonstanter Ausgangsdatenrate einzusetzen, um eine besonders gute Biteffizienz zu erreichen. Hier ist nicht vorhersehbar, wie lange die Decodierung eines Blocks von Basiskanaldaten dauert. Ferner hängt diese Verarbeitung auch von den tatsächlich eingesetzten Hardware-Komponenten zum Decodieren ab, wie sie beispielsweise in einem PC oder digitalen Empfänger vorhanden sein müssen. Ferner existieren auch System- bzw. algorithmisch-inhärente Unschärfen, da insbesondere bei der Bitsparkassentechnik zwar im Mittel eine konstante Ausgangsdatenrate erzeugt wird, allerdings, lokal betrachtet, Bits, die für einen besonders gut zu codierenden Block nicht benötigt werden, angespart werden, um für einen anderen Block, der besonders schwer zu codieren ist, weil das Audiosignal z. B. besonders transient ist, aus der Bitsparkasse wieder entnommen zu werden.

[0035] Andererseits hat die Trennung des oben beschriebenen gemeinsamen Datenstroms in zwei einzelne Datenströme besondere Vorteile. So ist ein klassischer Empfänger, also z. B. ein reiner Mono- oder Stereoempfänger jederzeit unabhängig von Inhalt und Version der Mehrkanal-Zusatzinformationen in der Lage, die Audiobasisdaten zu empfangen und wiederzugeben. Die Auftrennung in separate Datenströme sichert also die Rückwärtskompatibilität des gesamten Konzepts.

[0036] Dagegen kann ein Empfänger der neueren Generation diese Mehrkanal-Zusatzdaten auswerten und mit dem Audiobasisdaten so kombinieren, dass dem Nutzer die vollständige Erweiterung, hier der Mehrkanalton, zur Verfügung gestellt werden kann.

[0037] Ein besonders interessantes Anwendungsszenario der getrennten Übertragung von Audiobasisdaten und Erweiterungsdaten liegt beim digitalen Rundfunk. Hier kann mit Hilfe der Mehrkanal-Zusatzinformationen das bisher ausgestrahlte Stereoaudiosignal durch geringen zusätzlichen Übertragungsaufwand auf ein Mehrkanalformat, wie beispielsweise 5.1, erweitert werden. Hier erzeugt der Programmanbieter auf der Senderseite aus Mehrkanaltonquellen, wie sie beispielsweise auf DVD-Audio/Video zu finden sind, die Mehrkanalzusatzinformationen. Anschließend werden diese Mehrkanalzusatzinformationen parallel zum wie bisher ausgestrahlten Audiostereosignal übertragen, welches nun jedoch nicht einfach ein Stereosignal ist, sondern zwei Basiskanäle umfasst, die durch irgendeinen Downmix von dem Multikanalsignal abgeleitet worden sind. Für den Hörer hört sich das Stereosignal der beiden Basiskanäle jedoch wie ein übliches Stereosignal an, da bei der Multikanal-Analyse letztendlich ähnliche Schritte vorgenommen werden, wie sie von einem Tonmeister, der ein Stereosignal aus mehreren Tracks abgemischt hat, vorgenommen worden sind.

[0038] Ein großer Vorteil der Auftrennung besteht in der Kompatibilität mit den bisher bestehenden digitalen Rundfunkübertragungssystemen. Ein klassischer Empfänger, der diese Zusatzinformationen nicht auswerten kann, wird wie bisher das Zweikanaltonsignal ohne irgendwelchen qualitativen Einschränkungen empfangen und wiedergeben können. Ein Empfänger neuerer Bauart hingegen kann zusätzlich zum bisher empfangenen Stereotonsignal diese Mehrkanalinformation auswerten, decodieren und das ursprüngliche 5.1-Mehrkanalsignal daraus rekonstruieren.

[0039] Um die gleichzeitige Übertragung der Mehrkanalzusatzinformation als Ergänzung zum bisher verwendeten Stereosignal zu ermöglichen, kann man, wie es bereits ausgeführt worden ist, für ein digitales Rundfunksystem die Mehrkanalzusatzinformationen mit dem codierten Downmixaudiosignal kombinieren, also dass es einen einzigen Datenstrom gibt, der dann gegebenenfalls skalierbar ist und ebenfalls von einem existierenden Empfänger gelesen werden kann, der jedoch die zusätzlichen Daten bezüglich der Mehrkanal-Zusatzinformationen ignoriert.

[0040] Der Empfänger sieht also nur einen (gültigen) Audiodatenstrom und kann, wenn er ein Empfänger der neueren Bauart ist, aus dem Datenstrom ferner die Mehrkanaltonzusatzinformationen über einen entsprechend vorgeschalteten Datenverteiler wieder synchron zu dem zugehörigen Audiodatenblock extrahieren, decodieren und als 5.1-Mehrkanalton ausgeben.

[0041] Nachteilig an diesem Ansatz ist jedoch die Erweiterung der vorhandenen Infrastruktur bzw. der vorhandenen Datenwege, sodass sie statt wie bisher lediglich die Stereoaudiosignale die aus Downmixsignalen und Erweiterung kombinierten Datensignale transportieren können. Wenn man also das Standardübertragungsformat für Stereodaten verlässt, kann die Synchronität auch bei Rundfunkübertragungen durch den gemeinsamen Datenstrom gewährleistet werden.

[0042] Allerdings ist es für eine Durchsetzung am Markt höchst problematisch, wenn bestehende Rundfunk-Infrastrukturen geändert werden müssen, wenn also die Problematik nicht nur auf Seiten der Decodierer existiert, sondern auch auf Seiten der Rundfunksender und der normierten Übertragungsprotokolle. Dieses Konzept ist also aufgrund der Problematik, ein einmal standardisiertes und implementiertes System wieder zu ändern, sehr nachteilhaft.

[0043] Die andere Alternative besteht darin, die Mehrkanal-Zusatzinformationen nicht an das verwendete Audiocodierungssystem zu koppeln und daher nicht in den eigentlichen Audiodatenstrom einzutasten. In diesem Fall erfolgt die Übertragung über einen gesonderten, aber zeitlich nicht notwendigerweise synchronisierten parallelen digitalen Zusatzkanal. Diese Situation kann dann auftreten, wenn die Downmixdaten in unreduzierter Form, beispielsweise als PCM-Daten per AES/EBU-Datenformat durch eine in Studios vorhandene übliche Audioverteilungsinfrastruktur geleitet werden. Diese Infrastrukturen sind darauf ausgerichtet, Audiosignale zwischen diversen Quellen digital zu verteilen. Hierzu werden normalerweise als "Kreuzschienen" bekannte Funktionseinheiten eingesetzt. Alternativ oder zusätzlich werden Audiosignale auch im PCM-Format zu Zwecken der Klangregelung und Dynamikkompression verarbeitet. Alle diese Schritte führen auf einem Weg vom Sender zum Empfänger zu unkalkulierbaren Verzögerungen.

[0044] Andererseits ist die getrennte Übertragung von Basiskanaldaten und Mehrkanal-Zusatzinformationen besonders interessant, da bestehende Stereo-Infrastrukturen nicht verändert werden müssen, also die bezüglich der ersten Möglichkeit beschriebenen Nachteile der Nicht-Standardkonformität hier nicht auftreten. Ein Rundfunksystem muss lediglich einen zusätzlichen Kanal senden, jedoch nicht die Infrastruktur für den bereits existierenden Stereokanal verändern. Der Zusatzaufwand wird daher gewissermaßen allein auf Seiten der Empfänger getrieben, jedoch so, dass Rückwärtskompatibilität besteht, dass also ein Benutzer, der einen neuen Empfänger hat, eine bessere Klangqualität bekommt als ein Benutzer, der einen alten Empfänger hat.

[0045] Wie es bereits ausgeführt worden ist, kann die Größenordnung der zeitlichen Verschiebung nicht mehr aus dem empfangenen Audiosignal und den Zusatzinformationen ermittelt werden. Damit ist eine zeitlich korrekte Rekonstruktion und Zuordnung des Mehrkanalsignals im Empfänger nicht mehr gewährleistet. Ein weiteres Beispiel für ein solches Verzögerungs-Problem besteht, wenn ein bereits laufendes zweikanaliges Übertragungssystem auf Multikanal-Übertragung erweitert werden soll, beispielsweise in einem Empfänger eines digitalen Radios. Hier ist es oft der Fall, dass die Decodierung des Downmixsignals mittels eines im Empfänger bereits vorhandenen Zwei-Kanal-Audiodecodierers geschieht, dessen Verzögerungszeit nicht bekannt ist und damit auch nicht ausgeglichen werden kann. Im Extremfall kann das Downmix-Audiosignal den Multikanal-Rekonstruktions-Audiodecodierer sogar über eine Übertragungskette erreichen, die analoge Teile enthält, d. h. dass einem Punkt eine Digital/Analog-Umsetzung vorgenommen und nach einer weiteren Speicherung/Übertragung wieder eine Analog/DigitalUmsetzung stattfindet. Etwas derartiges findet immer bei einer Funkübertragung statt. Auch hier sind zunächst keinerlei Anhaltspunkte verfügbar, wie ein passender Verzögerungsausgleich des Downmixsignals relativ zu den Mehrkanalzusatzdaten durchgeführt werden kann. Auch wenn die Abtastfrequenz für die A/D-Wandlung und die Abtastfrequenz für die D/A-Wandlung leicht voneinander abweichen, entsteht eine langsame zeitliche Drift der notwendigen Ausgleichsverzögerung entsprechend dem Verhältnis der beiden Abtastraten zueinander.

[0046] Zur Synchronisation der Zusatzdaten zu den Basisdaten können verschiedene Techniken eingesetzt werden, die unter dem Begriff "Zeitsynchronisierungsverfahren" bekannt sind. Diese basieren darauf, Zeitstempel in beide Datenströme einzutasten, derart, dass anhand dieser Zeitstempel im'Empfänger eine korrekte Zuordnung der zueinander gehörigen Daten erreicht werden kann. Das Eintasten von Zeitstempeln führt jedoch ebenfalls bereits zu einer Änderung der normalen Stereo-Infrastruktur.

[0047] Die WO 2005/011281 A1 offenbart ein Verfahren und eine Vorrichtung zum Erzeugen und Erfassen von Fingerabdrücken zur Synchronisation von Audio- und Video-Signalen. Insbesondere werden ein erster Fingerabdruck und ein zweiter Fingerabdruck erzeugt, die zur Synchronisation von zumindest zwei Signalen verwendbar sind. Hierzu werden ein Segment eines ersten Signals, beispielsweise eines Audio-Signals, und ein Segment eines zweiten Signals, beispielsweise eines VideoSignals an jedem Synchronisationszeitpunkt verwendet. Die erzeugten Fingerabdruck-Paare werden in einer Datenbank gespeichert und zu einem Synchronisationsgerät übermittelt. Während der Synchronisation werden Fingerabdrücke des Audio-Signals und Fingerabdrücke des Videosignals erzeugt und mit den Fingerabdrücken in der Datenbank verglichen. Wenn eine Übereinstimmung herausgefunden worden ist, bezeichnen die Fingerabdrücke auch den Synchronisationszeitpunkt, der verwendet wird, um die zwei Signale zu synchronisieren.

[0048] Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen eines Datenstroms bzw. zum Erzeugen einer Multikanal-Darstellung zu schaffen, durch das eine Synchronisierung von Basiskanaldaten und Mehrkanal-Zusatzinformationen erreichbar ist.

[0049] Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Datenstroms gemäß Patentanspruch 1, eine Vorrichtung zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 17, ein Verfahren zum Erzeugen eines Datenstroms gemäß Patentanspruch 26, ein Verfahren zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 27, ein Computer-Programm-Produkt nach patentanspruch 28 oder eine Datenstromdarstellung nach Patentanspruch 29 gelöst.

[0050] Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass eine getrennte Übertragung und zeitsynchrone Zusammenführung eines Basiskanaldatenstroms und eines Mehrkanal-Zusatzinformationen-Datenstroms dadurch ermöglicht wird, dass auf "Senderseite" der Multikanal-Datenstrom dahingehend modifiziert wird, dass Fingerabdruckinformationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, in den Datenstrom mit den Mehrkanal-Zusatzinformationen derart eingebracht werden, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. So gehören bestimmte Mehrkanal-Zusatzinformationen zu bestimmten Basiskanaldaten. Genau diese Zuordnung muss auch bei der Übertragung getrennter Datenströme gesichert werden.

[0051] Erfindungsgemäß wird auf Senderseite die Zugehörigkeit von Mehrkanal-Zusatzinformationen zu Basiskanaldaten dadurch signalisiert, dass von den Basiskanal-Daten Fingerabdruckinformationen ermittelt werden, mit denen die Mehrkanal-Zusatzinformationen, die zu genau diesen Basiskanaldaten gehören, gewissermaßen markiert werden. Diese Markierung bzw. Signalisierung des Zusammenhangs zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen wird bei einer blockweisen Datenverarbeitung dadurch erreicht, dass einem Block von Mehrkanal-Zusatzinformationen, die genau zu einem Block von Basiskanaldaten gehören, ein Block-Fingerabdruck genau dieses Blocks von Basiskanaldaten zugeordnet werden, zu dem der betrachtete Block von Mehrkanal-Zusatzinformationen gehört.

[0052] In anderen Worten wird ein Fingerabdruck genau des Basiskanaldatenblocks, mit dem zusammen die Mehrkanal-Zusatzinformationen bei der Rekonstruktion verarbeitet werden müssen, den Mehrkanal-Zusatzinformationen zugeordnet. Bei einer Block-basierten Übertragung kann der Block-Fingerabdruck des Blocks von Basiskanaldaten in der Blockstruktur des Mehrkanal-Zusatzdatenstroms derart eingetastet werden, dass jeder Block von Mehrkanal-Zusatzinformationen den Block-Fingerabdruck der zugehörigen Basisdaten enthält. Der Block-Fingerabdruck kann im unmittelbaren Anschluss an einen bisher verwendeten Block von Mehrkanal-Zusatzinformationen geschrieben werden, oder kann vor den bisher bestehenden Block geschrieben werden, oder kann an irgendeiner bekannten Stelle innerhalb dieses Blocks geschrieben werden, sodass bei der Multikanal-Rekonstruktion der Block-Fingerabdruck zu Synchronisationszwecken auslesbar ist. In dem Datenstrom befinden sich daher normale Mehrkanal-Zusatzdaten, sowie entsprechend eingestreut die Block-Fingerabdrücke.

[0053] Alternativ könnte der Datenstrom auch so geschrieben werden, dass z. B. alle Block-Fingerabdrücke, versehen mit einer Zusatzinformation, wie beispielsweise einem Block-Counter, am Anfang des erfindungsgemäß erzeugten Datenstroms stehen, sodass ein erster Abschnitt des Datenstroms lediglich Block-Fingerabdrücke enthält und ein zweiter Teil des Datenstroms die zu den Block-Fingerabdruckinformationen gehörigen blockweise geschriebenen Mehrkanal-Zusatzdaten enthält. Diese Alternative hat den Nachteil, dass Referenzinformationen benötigt werden, wobei jedoch die Zugehörigkeit der Block-Fingerabdrücke zu den blockweise geschriebenen Mehrkanal-Zusatzinformationen auch implizit durch die Reihenfolge gegeben sein kann, sodass keine zusätzlichen Informationen nötig sind.

[0054] In diesem Fall könnte bei der Multikanal-Rekonstruktion zu Synchronisationszwecken einfach zunächst eine große Anzahl von Block-Fingerabdrücken eingelesen werden, um die Referenz-Fingerabdruckinformationen zu erhalten. Nach und nach kommen dann die Test-Fingerabdrücke hinzu, bis eine für eine Korrelation verwendete minimale Anzahl von Test-Fingerabdrücken vorliegen. Während dieser Zeitdauer könnte der Satz von Referenz-Fingerabdrücken z. B. bereits einer Differenz-Codierung unterworfen werden, wenn die Korrelation bei der Multikanal-Rekonstruktion unter Verwendung von Differenzen durchgeführt wird, während im Datenstrom keine Differenz-Block-Fingerabdrücke sondern Absolut-Block-Fingerabdrücke enthalten sind.

[0055] Allgemein gesagt wird auf Empfängerseite der Datenstrom mit den Basiskanaldaten verarbeitet, also zunächst beispielsweise decodiert und dann einem Multikanal-Rekonstruierer zugeführt. Vorzugsweise ist dieser Multikanal-Rekonstruierer so ausgebildet, dass er dann, wenn er keine Zusatzinformationen bekommt, einfach eine Durchschaltung vornimmt, um die vorzugsweise zwei Basiskanäle als Stereosignal auszugeben. Parallel hierzu findet die Extraktion der Referenz-Fingerabdruckinformationen und die Berechnung der Test-Fingerabdruckinformationen aus den decodierten Basiskanaldaten statt, um dann eine Korrelationsberechnung durchzuführen, um den Versatz der Basiskanaldaten zu den Mehrkanal-Zusatzdaten zu errechnen. Je nach Implementierung kann dann durch eine weitere Korrelationsberechnung verifiziert werden, dass dieser Versatz auch der richtige Versatz ist. Dies wird dann der Fall sein, wenn der Versatz, der durch die zweite Korrelationsberechnung erhalten worden ist, nicht mehr als um eine vorbestimmte Schwelle von dem Versatz, der durch die erste Korrelationsberechnung erhalten worden ist, abweicht.

[0056] War dies der Fall, so kann davon ausgegangen werden, dass der Versatz richtig war. Hierauf wird nach dem Erhalt synchronisierter Mehrkanal-Zusatzinformationen von einer Stereoausgabe auf die Multikanal-Ausgabe umgeschaltet.

[0057] Dieses Prozedere wird dann bevorzugt, wenn ein Benutzer von der Zeit, die zur Synchronisierung benötigt wird, nichts merken soll. Basiskanaldaten werden somit in dem Moment, wo sie erhalten werden, verarbeitet, sodass natürlich in dem Zeitraum, in dem die Synchronisierung stattfindet, also die Versatzberechnung stattfindet, lediglich Stereodaten ausgegeben werden können, da noch keine synchronisierten Mehrkanal-Zusatzinformationen gefunden worden sind.

[0058] Bei einem anderen Ausführungsbeispiel, bei dem es nicht auf die "Anfangsverzögerung" ankommt, die zur Berechnung des Versatzes benötigt wird, kann die Wiedergabe so durchgeführt werden, dass die gesamte Synchronisationsberechnung ausgeführt wird, ohne dass parallel bereits Stereodaten ausgegeben werden, um dann vom ersten Block der Basiskanaldaten an synchronisierte Mehrkanal-Zusatzinformationen zu liefern. Der Hörer wird dann bereits vom ersten Block an ein synchronisiertes 5.1-Erlebnis haben.

[0059] Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung beträgt die Zeit für eine Synchronisation normalerweise etwa 5 Sekunden, da für eine optimale Versatzberechnung etwa 200 Referenz-Fingerabdrücke als Referenz-Fingerabdruckinformätionen benötigt werden. Falls diese Verzögerung von etwa 5 Sekunden keine Rolle spielt, wie es beispielsweise bei unidirektionalen Übertragungen der Fall ist, kann gleich mit einer 5.1-Wiedergabe - allerdings erst nach der zur Versatzberechnung nötigen Zeit - begonnen werden. Für interaktive Anwendungen, beispielsweise wenn es um Dialoge oder etwas ähnliches geht, wird diese Verzögerung störend sein, sodass hier irgendwann, wenn die Synchronisation fertig ist, von der Stereowiedergabe auf die Multikanal-Wiedergabe übergegangen wird. So wurde herausgefunden, dass es besser ist, nur eine Stereo-Wiedergabe zu liefern als eine Multikanal-Wiedergabe mit nicht-synchronisierten Mehrkanal-Zusatzinformationen.

[0060] Erfindungsgemäß wird das zeitliche Zuordnungsproblem zwischen Basiskanaldaten und Mehrkanal-Zusatzdaten sowohl durch Maßnahmen auf der Senderseite als auch durch Maßnahmen auf der Empfangsseite gelöst.

[0061] Auf der Senderseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen aus dem korrespondierenden Mono- oder Stereo-Downmixaudiosignal berechnet. Vorzugsweise werden diese Fingerprint-Informationen regelmäßig als Synchronisationshilfe in den versendeten Mehrkanalzusatzdatenstrom eingetastet. Dies erfolgt vorzugsweise als Datenfeld inmitten der blockweise organisierten z. B. Spatial-Audio-Coding-Seiteninformationen, oder so, dass das Fingerprint-Signal als erste oder letzte Information des Datenblocks geschickt wird, derart, dass sie leicht hinzugefügt oder herausgenommen werden kann.

[0062] Auf der Empfangsseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen aus dem korrespondierenden Stereoaudiosignal, also den Basiskanaldaten berechnet, wobei erfindungsgemäß eine Anzahl von zwei Basiskanälen bevorzugt wird. Ferner werden die Fingerprints aus den Mehrkanalzusatzinformationen extrahiert. Hierauf wird der zeitliche Versatz zwischen den Mehrkanalzusatzinformationen und dem empfangenen Audiosignal über Korrelationsmethoden, wie beispielsweise einer Berechnung einer Kreuzkorrelation zwischen den Test-Fingerabdruckinformationen und den Referenz-Fingerabdruckinformationen berechnet. Alternativ können auch Trial-And-Error-Verfahren durchgeführt werden, bei denen verschiedene aus den Basiskanal-Daten unter Zugrundelegung verschiedener Blockraster berechnete Fingerabdruckinformationen mit den Referenz-Fingerabdruckinformationen verglichen werden, um anhand des Test-Blockrasters, dessen zugehörige Test-Fingerabdruckinformationen am besten mit den Referenz-Fingerabdruckinformationen übereinstimmen, den zeitlichen Versatz zu bestimmen.

[0063] Schließlich wird das Audiosignal der Basiskanäle mit den Mehrkanalzusatzinformationen für die anschließende Mehrkanal-Rekonstruktion durch eine nachgeschaltete Verzögerungsausgleichsstufe synchronisiert. Je nach Implementierung kann allein eine Anfangsverzögerung kompensiert werden. Vorzugsweise wird die Versatzberechnung jedoch parallel zur Wiedergabe durchgeführt, um im Falle eines zeitlichen Auseinanderdriftens der Basiskanaldaten und der Mehrkanal-Zusatzinformationen trotz einer kompensierten Anfangsverzögerung den Versatz nach Bedarf und nach Ergebnis der Korrelationsberechnung nachstellen zu können. Die Verzögerungsausgleichsstufe kann somit auch aktiv geregelt werden.

[0064] Die vorliegende Erfindung ist dahingehend vorteilhaft, dass keinerlei Änderungen an den Basiskanal-Daten bzw. an dem Verarbeitungsweg für die Basiskanal-Daten vorgenommen werden müssen. Der Basiskanal-Datenstrom, der in einen Empfänger eingespeist wird, unterscheidet sich in nichts von einem üblichen Basiskanal-Datenstrom. Veränderungen werden lediglich auf Seiten des Multikanal-Datenstroms vorgenommen. Dieser wird dahingehend modifiziert, dass die Fingerabdruck-Informationen eingetastet werden. Nachdem für den Multikanal-Datenstrom jedoch derzeit ohnehin keine standardisierten Verfahren vorliegen, führt die Veränderung des Mehrkanal-Zusatzdatenstroms nicht zu einer unerwünschten Abkehr von einer bereits standardisierten, implementierten und etablierten Lösung, wie es dagegen der Fall wäre, wenn der Basiskanal-Datenstrom modifiziert werden würde.

[0065] Das erfindungsgemäße Szenario liefert eine besondere Flexibilität der Verbreitung von Mehrkanal-Zusatzinförmationen. Insbesondere dann, wenn die Mehrkanal-Zusatzinformationen Parameterinformationen sind, die bezüglich der erforderlichen Datenrate bzw. Speicherkapazität sehr kompakt sind, kann ein digitaler Empfänger mit solchen Daten auch völlig getrennt von dem Stereosignal versorgt werden. So könnte sich ein Benutzer für bereits bei ihm bestehende Stereo-Aufnahmen, die er bereits auf seinem Solid-State-Player oder auf seinen CDs hat, Mehrkanal-Zusatzinformationen von einem getrennten Anbieter beschaffen und auf seinem Wiedergabegerät abspeichern. Dieses Abspeichern ist unproblematisch, da der Speicherbedarf insbesondere für parametrische Mehrkanal-Zusatzinformationen nicht besonders groß ist. Legt der Benutzer dann eine CD ein oder wählt er ein Stereo-Stück aus, so kann von dem Mehrkanal-Zusatzdatenspeicher der entsprechende Mehrkanal-Zusatzdatenstrom abgerufen werden und aufgrund der Fingerabdruckinformationen in dem Mehrkanal-Zusatzdatenstrom mit dem Stereosignal synchronisiert werden, um eine Multikanal-Rekonstruktion zu erreichen. Die erfindungsgemäße Lösung erlaubt es somit, völlig unabhängig von der Art und Weise des Stereosignals, also unabhängig davon, ob es von einem digitalen Rundfunkempfänger stammt, ob es von einer CD stammt, ob es von einer DVD stammt oder ob es z. B. über das Internet angekommen ist, Mehrkanal-Zusatzdaten, die von einer ganz anderen Quelle stammen können, mit dem Stereosignal zu synchronisieren, wobei das Stereosignal dann als Basiskanaldaten fungiert, auf deren Basis dann die Multikanal-Rekonstruktion durchgeführt wird.

[0066] Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1: ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen eines Datenstroms;
Fig. 2: ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen einer Multikanal-Darstellung;
Fig. 3: einen bekannten Joint-Stereo-Codierer zum Erzeugen von Kanaldaten und parametrischen Multikanal-Informationen;
Fig. 4: eine Darstellung eines Schemas zum Bestimmen von ICLD-, ICTD- und ICC-Parametern für eine BCC-Codierung/Decodierung;
Fig. 5: eine Blockdiagrammdarstellung einer BCC-Codierer/Decodierer-Kette;
Fig. 6: ein Blockdiagramm einer Implementierung des BCC-Synthese-Blocks von Fig. 5;
Fig. 7a: eine schematische Darstellung eines ursprünglichen Multikanalsignals als Folge von Blöcken;
Fig. 7b: eine schematische Darstellung von einem oder mehreren Basiskanälen als Folge von Blöcken;
Fig. 7c: eine schematische Darstellung des erfindungsgemäßen Datenstroms mit Multikanalinformationen und zugeordneten Block-Fingerabdrücken;
Fig. 7d: eine beispielhafte Darstellung für einen Block des Datenstroms von Fig. 7c;
Fig. 8: eine detailliertere Darstellung der erfindungsgemäßen Vorrichtung zum Erzeugen einer Multikanal-Darstellung gemäß einem bevorzugten Ausführungsbeispiel;
Fig. 9: eine schematische Darstellung zur Verdeutlichung der Versatzbestimmung durch Korrelation zwischen den Test-Fingerabdruckinformationen und den Referenz-Fingerabdruckinformationen;
Fig. 10: ein Flussdiagramm für eine bevorzugte Ausführung der Versatzbestimmung parallel zur Datenausgabe; und
Fig. 11: eine schematische Darstellung der Berechnung der Fingerabdruckinformationen bzw. codierten Fingerabdruckinformationen auf Encodierer- und Decodierer-Seite.

[0067] Fig. 1 zeigt eine Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multikanal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. Die Vorrichtung umfasst einen Fingerabdruck-Erzeuger 2, dem wenigstens ein aus dem ursprünglichen Multikanal-Signal abgeleiteter Basis-Kanal über eine Eingangsleitung 3 zuführbar ist. Die Anzahl der Basiskanäle ist größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Signals. Ist das ursprüngliche Multikanal-Signal lediglich ein Stereosignal mit nur zwei Kanälen, so ist nur ein einziger Basiskanal vorhanden, der aus den zwei Stereokanälen abgeleitet ist. Ist das ursprüngliche Multikanal-Signal jedoch ein Signal mit drei oder mehr Kanälen, so kann die Anzahl der Basiskanäle auch gleich 2 sein. Diese Ausführungsform wird bevorzugt, da eine Audiowiedergabe dann, ohne Mehrkanal-Zusatzdaten als normale Stereo-Wiedergabe erfolgen kann. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist das ursprüngliche Multikanal-Signal ein Surround-Signal mit fünf Kanälen und einem LFE-Kanal (LFE = Low Frequency Enhancement), wobei dieser Kanal auch als Subwoofer bezeichnet wird. Die fünf Kanäle sind ein Left-Surround-Kanal Ls, ein linker Kanal L, ein MittenKanal C, ein rechter Kanal R und ein hinterer rechter bzw. Right-Surround-Kanal Rs. Die beiden Basiskanäle sind dann der linke Basiskanal und der rechte Basiskanal. In Fachkreisen wird der eine bzw. werden die mehreren Basiskanäle auch als Downmix-Kanal bzw. Downmix-Kanäle bezeichnet.

[0068] Der Fingerabdruck-Erzeuger 2 ist ausgebildet, um aus dem wenigstens einen Basiskanal Fingerabdruck-Informationen zu erzeugen, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben. Je nach Implementierung sind die Fingerabdruck-Informationen mehr oder weniger aufwendig berechnet. So können hier insbesondere auf der Basis von statistischen Methoden sehr aufwendig berechnete Fingerabdrücke, die unter dem Stichwort "Audio-ID" bekannt sind, eingesetzt werden. Alternativ könnte jedoch auch eine beliebige andere Größe verwendet werden, die in irgendeiner Weise den zeitlichen Verlauf des einen oder der mehreren Basiskanäle repräsentiert.

[0069] Erfindungsgemäß wird eine Block-basierte Verarbeitung bevorzugt. Hier setzen sich die Fingerabdruck-Informationen aus einer Folge von Block-Fingerabdrücken zusammen, wobei ein Block-Fingerabdruck ein Maß für die Energie des einen bzw. der mehreren Basiskanäle in dem Block ist. Alternativ könnte jedoch auch als Block-Fingerabdruck z. B. immer ein bestimmtes Sample des Blocks oder eine Kombination von Abtastwerten des Blocks verwendet werden, da bei einer genügend hohen Anzahl von Block-Fingerabdrücken als Fingerabdruck-Informationen eine - wenn auch grobe - Wiedergabe der zeitlichen Charakteristik des wenigstens einen Basiskanals entsteht. Allgemein gesagt sind die Fingerabdruck-Informationen also von den Abtastwertdaten des wenigstens einen Basiskanals abgeleitet und geben den zeitlichen Verlauf mit mehr oder weniger großem Fehler des wenigstens einen Basiskanals wieder, sodass, wie später noch dargelegt werden wird, auf Decodierer/Empfänger-Seite eine Korrelation mit aus dem Basiskanal berechneten Test-Fingerabdruckinformationen erfolgen kann, um letztendlich den Versatz zwischen dem Datenstrom mit den Mehrkanal-Zusatzinformationen und dem Basiskanal zu bestimmen ist.

[0070] Der Fingerabdruck-Erzeuger 2 liefert ausgangsseitig die Fingerabdruck-Informationen, die einem Datenstrom-Erzeuger 4 zugeführt werden. Der Datenstrom-Erzeuger 4 ist ausgebildet, um einen Datenstrom aus den Fingerabdruck-Informationen und den typischerweise zeitlich variablen Mehrkanal-Zusatzinformationen zu erzeugen, wobei die Mehrkanal-Zusatzinformationen zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen. Der Datenstrom-Erzeuger ist ausgebildet, um den Datenstrom an einem Ausgang 5 so zu erzeugen, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. Erfindungsgemäß wird der Datenstrom aus Mehrkanal-Zusatzinformationen somit mit den Fingerabdruckinformationen, die von dem wenigstens einen Basiskanal abgeleitet worden sind, markiert, derart, dass über die Fingerabdruckinformationen, deren Zuordnung zu den Mehrkanal-Zusatzinformationen durch den Datenstrom-Erzeuger 4 geliefert wird, die Zusammengehörigkeit von bestimmten Mehrkanal-Zusatzinformationen zu den Basiskanaldaten ermittelbar ist.

[0071] Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen einer Multikanal-Darstellung eines ursprünglichen Multikanal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. Der wenigstens eine Basiskanal wird über einen Eingang 10 einem Empfänger- bzw. Decodierer-seitigen Fingerabdruckerzeuger 11 zugeführt. Der Fingerabdruckerzeuger 11 liefert ausgangsseitig Test-Fingerabdruckinformationen über einen Ausgang 12 zu einem Synchronisierer 13. Vorzugsweise werden die Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal durch genau den gleichen Algorithmus abgeleitet, der auch im Block 2 von Fig. 1 ausgeführt wird. Je nach Implementierung müssen die Algorithmen jedoch nicht unbedingt identisch sein.

[0072] So kann der Fingerabdruck-Erzeuger 2 beispielsweise einen Block-Fingerabdruck in Absolut-Codierung erzeugen, während der Fingerabdruck-Erzeuger 11 auf Decodiererseite eine Differenz-Fingerabdruckbestimmung durchführt, derart, dass der einem Block zugeordnete Test-Blockfingerabdruck die Differenz zwischen zwei Absolut-Fingerabdrücken ist. In diesem Fall, wenn also über den Datenstrom mit den Fingerabdruckinformationen Absolut-Block-Fingerabdrücke kommen, wird ein Fingerabdruck-Extrahierer 14 die Fingerabdruck-Informationen aus dem Datenstrom extrahieren und zugleich Differenzen bilden, damit als Referenz-Fingerabdruckinformationen über einen Ausgang 15 dem Synchronisierer 13 Daten zugeführt werden, die mit den Test-Fingerabdruckinformationen vergleichbar sind.

[0073] Allgemein gesagt wird es bevorzugt, dass die Algorithmen zur Berechnung der Test-Fingerabdruckinformationen auf Decodiererseite und die Algorithmen zur Berechnung der Fingerabdruckinformationen auf Encodiererseite, die in Fig. 2 auch als Referenz-Fingerabdruckinformationen bezeichnet werden können, zumindest so ähnlich sind, dass der Synchronisierer 13 unter Verwendung dieser beiden Informationen die Mehrkanal-Zusatzdaten im Datenstrom, die über einen Eingang 16 erhalten werden, synchronisiert den Daten über den wenigstens einen Basiskanal zuordnen kann. Als Multikanal-Darstellung am Ausgang des Synchronisierers wird eine synchronisierte Multikanal-Darstellung erhalten, die die Basiskanaldaten und synchron hierzu die Mehrkanal-Zusatzdaten umfasst.

[0074] Hierzu wird es bevorzugt, dass der Synchronisierer 13 einen zeitlichen Versatz zwischen den Basiskanaldaten und den Mehrkanal-Zusatzdaten bestimmt und dann die Mehrkanal-Zusatzdaten um diesen Versatz verzögert. Es hat sich herausgestellt, dass die Mehrkanal-Zusatzdaten üblicherweise früher, also zu früh ankommen, was der wesentlich geringeren Datenmenge, die typischerweise den Mehrkanal-Zusatzdaten entspricht, im Vergleich zu der Datenmenge für die Basiskanaldaten zugeschrieben werden kann. Werden also die Mehrkanal-Zusatzdaten verzögert, werden die Daten über den wenigstens einen Basiskanal vom Eingang 10 über eine Basiskanaldatenleitung 17 dem Synchronisierer 13 zugeführt und durch diesen eigentlich nur "durchgeschleift" und an einem Ausgang 18 wieder ausgegeben. Die Mehrkanal-Zusatzdaten, die über den Eingang 16 erhalten werden, werden über eine Mehrkanal-Zusatzdatenleitung 19 in den Synchronisierer eingespeist, dort um einen bestimmten Versatz verzögert und an einem Ausgang 20 des Synchronisierers zusammen mit den Basiskanaldaten einem Multikanal-Rekonstruierer 21 zugeführt, der dann das eigentliche Audio-Rendering ausführt, um ausgangsseitig z. B. die fünf Audiokanäle und einen Tiefton-Kanal (in Fig. 2 nicht gezeigt) zu erzeugen.

[0075] Die Daten auf den Leitungen 18 und 20 bilden somit die synchronisierte Multikanal-Darstellung, wobei der Datenstrom auf der Leitung 20 dem Datenstrom am Eingang 16 abgesehen von einer eventuell vorhandenen Mehrkanal-Zusatzdatencodierung entspricht, bis auf die Tatsache, dass die Fingerabdruck-Informationen aus dem Datenstrom entfernt werden, was je nach Implementierung im Synchronisierer 13 geschehen kann, oder schon vorher. Alternativ kann die Fingerabdruck-Entfernung auch bereits im Fingerabdruck-Extrahierer 14 erfolgen, sodass dann keine Leitung 19 vorhanden ist, sondern eine Leitung 19', die vom Fingerabdruck-Extrahierer 9 direkt in den Synchronisierer 13 geht. Der Synchronisierer 13 wird in diesem Fall also parallel vom Fingerabdruck-Extrahierer sowohl mit den Mehrkanal-Zusatzdaten als auch mit den Referenz-Fingerabdruckinformationen versorgt.

[0076] Der Synchronisierer ist also ausgebildet, um die Mehrkanal-Zusatzinformationen und den wenigstens einen Basiskanal unter Verwendung der Test-Fingerabdruckinformationen und der Referenz-Fingerabdruckinformationen sowie unter Verwendung des aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal-Informationen mit den in dem Datenstrom enthaltenen Fingerabdruckinformationen zu synchronisieren. Der zeitliche Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen wird, wie es nachfolgend noch erläutert wird, vorzugsweise einfach dadurch ermittelt, ob die Fingerabdruck-Informationen vor einem Satz von Mehrkanal-Zusatzinformationen, nach einem Satz von Mehrkanal-Zusatzinformationen oder innerhalb eines Satzes von Mehrkanal-Zusatzinformationen stehen. Je nachdem, ob die Fingerabdrücke vor, hinter oder inmitten eines Satzes von Mehrkanal-Zusatzinformationen stehen, wird auf die Codiererseite ermittelt, dass eben diese Mehrkanal-Informationen zu diesen Fingerabdruck-Informationen gehören.

[0077] Vorzugsweise wird eine Blockverarbeitung verwendet. Ebenfalls vorzugsweise wird die Eintastung der Fingerabdrücke so vorgenommen, dass ein Block von Mehrkanal-Zusatzdaten immer auf einen Block-Fingerabdruck folgt, dass sich also ein Block von Mehrkanal-Zusatzinformationen mit einem Block-Fingerabdruck abwechselt und umgekehrt. Alternativ könnte jedoch auch ein Datenstromformat verwendet werden, bei dem die gesamten Fingerabdruck-Informationen in einen separaten Teil am Anfang des Datenstroms geschrieben werden, woraufhin der ganze Datenstrom folgt. Hier würden sich also Block-Fingerabdrücke und Blöcke von Mehrkanal-Zusatzinformationen nicht abwechseln. Alternative Arten und Weisen der Zuordnung von Fingerabdrücken zu Mehrkanal-Zusatzinformationen sind Fachleuten bekannt. Erfindungsgemäß muss lediglich aus dem Datenstrom ein Zusammenhang zwischen den Mehrzahl-Zusatzinformationen und den Fingerabdruckinformationen auf Decodiererseite ableitbar sein, damit die Fingerabdruckinformationen dazu verwendet werden können, um die Mehrkanal-Zusatzinformationen mit den Basiskanaldaten zu synchronisieren.

[0078] Nachfolgend wird anhand der Fig. 7a bis 7d eine bevorzugte Ausführungsform der blockweisen Verarbeitung dargestellt. Fig. 7a zeigt ein ursprüngliches Multikanalsignal, beispielsweise ein 5.1-Signal, das aus einer Folge von Blöcken B1 bis B8 besteht, wobei in einem Block bei dem in Fig. 7a gezeigten Beispiel Multikanalinformationen MKi enthalten sind. Wenn von einem 5-Kanal-Signal ausgegangen wird, so enthält ein Block, wie beispielsweise der Block B1 jeweils die ersten z. B. 1152 Audioabtastwerte jedes einzelnen Kanals. Eine solche Blockgröße wird beispielsweise in dem BCC-Codierer 112 von Fig. 5 bevorzugt, wobei die Blockbildung, also die gewissermaßen Fensterung, um eine Folge von Blöcken aus einem durchgehenden Signal zu erhalten, durch das Element 111 in Fig. 5, das mit "Block" bezeichnet ist, erreicht wird.

[0079] Am Ausgang des Downmix-Blocks 114, der in Fig. 5 mit "Summensignal" bezeichnet ist, und der das Bezugszeichen 115 aufweist, liegt der wenigstens eine Basiskanal an. Die Basiskanaldaten können wieder als Folge von Blöcken B1 bis B8 dargestellt werden, wobei die Blöcke B1 bis B8 von Fig. 7b mit den Blöcken B1 bis B8 in Fig. 7a korrespondieren. Ein Block enthält nunmehr jedoch nicht mehr - wenn in einer Zeitbereichs-Darstellung geblieben wird, das ursprüngliche 5.1-Signal, sondern nur noch ein Mono-Signal oder ein Stereo-Signal mit zwei Stereobasiskanälen. Der Block B1 umfasst daher wieder die 1152 zeitlichen Abtastwerte sowohl des ersten Stereobasiskanals als auch des zweiten Stereobasiskanals, wobei diese 1152 Abtastwerte sowohl des linken Stereobasiskanals als auch des rechten Stereobasiskanals jeweils durch Abtastwert-Weise Addition/Subtraktion und gegebenenfalls Gewichtung errechnet worden sind, also durch die Operation, die im Downmix-Block 114 von Fig. 5 beispielsweise durchgeführt wird. Entsprechend umfasst der Datenstrom mit Multikanalinformationen wieder Blöcke B1 bis B8, wobei jeder Block in Fig. 7c dem entsprechenden Block des ursprünglichen Multikanalsignals in Fig. 7a bzw. des einen oder mehreren Basiskanals von Fig. 7b entspricht. Um zur Rekonstruktion beispielsweise des Blocks B1 des ursprünglichen Multikanalsignals MK1 zu kommen, müssen die Basiskanaldaten im Block B1 des Basiskanaldatenstroms, die mit BK1 bezeichnet sind, mit den Multikanalinformationen P1 des Blocks B1 in Fig. 7c kombiniert werden. Diese Kombination wird bei dem in Fig. 6 gezeigten Ausführungsbeispiel durch den BCC-Syntheseblock durchgeführt, der, um eine blockweise Verarbeitung der Basiskanaldaten zu erhalten, wieder eine Blockbildungs-Stufe an seinem Eingang aufweist.

[0080] P3 bezeichnet also, wie es in Fig. 7c ausgeführt ist, die Multikanalinformationen, die zusammen mit dem Block von Werten BK3 der Basiskanäle eine Rekonstruktion des Blocks von Werten MK3 des ursprünglichen Multikanalsignals rekonstruieren lassen.

[0081] Erfindungsgemäß wird nunmehr jeder Block Bi des Datenstroms von Fig. 7c mit einem Block-Fingerabdruck versehen. Für den Block B3 bedeutet dies, dass vorzugsweise im Anschluss an den Block P3 von Multikanalinformationen der Block-Fingerabdruck F3 geschrieben wird. Dieser Block-Fingerabdruck ist nun genau von dem Block B3 des Blocks von Werten BK3 abgeleitet. Alternativ könnte der Block-Fingerabdruck F3 auch einer Differenzcodierung unterworfen sein, sodass der Block-Fingerabdruck F3 gleich der Differenz des Block-Fingerabdrucks von Block BK3 der Basiskanäle und des Block-Fingerabdrucks des Blocks von Werten BK2 der Basiskanäle ist. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird als Block-Fingerabdruck ein Energiemaß bzw. ein Differenz-Energiemaß verwendet.

[0082] Bei dem eingangs beschriebenen Szenario wird der Datenstrom mit dem einen oder mehreren Basiskanälen in Fig. 7b getrennt vom Datenstrom mit den Mehrkanalinformationen und den Fingerabdruckinformationen von Fig. 7c zu einem Multikanal-Rekonstruierer übertragen. Würde nichts weiter getan werden, so könnte der Fall auftreten, dass am Multikanal-Rekonstruierer, beispielsweise am BCC-Syntheseblock 122 von Fig. 5 gerade der Block BK5 zur Verarbeitung ansteht. Ferner könnte es sein, dass aufgrund irgendwelcher zeitlicher Unschärfen jedoch von den Multikanalinformationen gerade der Block B7 statt des Blocks B5 ansteht. Ohne weitere Maßnahmen würde daher eine Rekonstruktion des Blocks von Basiskanaldaten BK5 mit den Multikanal-Informationen P7 vorgenommen werden, was zu Artefakten führen würde. Erfindungsgemäß wird nunmehr, wie es nachfolgend noch erläutert wird, ein Versatz von zwei Blöcken berechnet, derart, dass der Datenstrom in Fig. 7c um zwei Blöcke verzögert wird, derart, dass eine Multikanal-Darstellung aus dem Datenstrom von Fig. 7b und dem Datenstrom von Fig. 7c vorliegt, die nun jedoch aufeinander synchronisiert worden sind.

[0083] Je nach Ausführungsform und Gestaltung/Genauigkeit der Fingerabdruck-Informationen ist die erfindungsgemäße Versatzbestimmung nicht auf die Berechnung eines Versatzes als ganzzahliges Vielfaches eines Blocks begrenzt, sondern kann durchaus, bei genügend genauer Korrelationsberechnung und bei Verwendung einer genügend großen Anzahl von Block-Fingerabdrücken (was natürlich auf Kosten der Zeitdauer zur Berechnung der Korrelation geht) auch eine Versatzgenauigkeit erreichen, die gleich einem Bruchteil eines Blocks ist und bis zu einem Abtastwert erreichen kann. Es hat sich jedoch herausgestellt, dass eine derart hohe genauigkeit nicht unbedingt benötigt wird, sondern dass eine Synchronisationsgenauigkeit von +/- einem halben Block (bei einer Blocklänge von 1152 Abtastwerten) bereits zu einer Multikanal-Rekonstruktion führt, die ein Zuhörer als Artefakt-frei beurteilt.

[0084] Fig. 7d zeigt ein bevorzugtes Ausführungsbeispiel für einen Block Bi, beispielsweise für den Block B3 des Datenstroms in Fig. 7c. Der Block wird mit einem Sync-Wort, das beispielsweise ein Byte lang sein kann, eingeleitet. Hierauf kommt eine Längeninformation, da es bevorzugt wird, die Multikanalinformationen P3, wie es in der Technik bekannt ist, nach ihrer Berechnung zu skalieren, quantisieren und Entropie-Codieren, sodass die Länge der Multikanalinformationen, die beispielsweise Parameterinformationen sein können, die jedoch auch ein Waveform-Signal z. B. des Seite-Kanals sein können, von vorneherein nicht bekannt ist und daher im Datenstrom signalisiert werden muss. Am Ende der Multikanalinformationen P3 wird dann der erfindungsgemäße Block-Fingerabdruck eingefügt. Bei dem in Fig. 7d gezeigten Ausführungsbeispiel wurde für den Block-Fingerabdruck ein Byte, also 8 Bits, genommen. Da pro Block nur ein einziges Energiemaß genommen wird, wird bei einem Ausführungsbeispiel, bei dem nur eine Quantisierung, jedoch keine Entropie-Codierung eingesetzt wird, ein Quantisierer bei der Quantisierung mit einer Quantisierer-Ausgabebreite von 8 Bits eingesetzt. Die quantisierten Energiewerte werden daher ohne weitere Verarbeitung in das 8-Bit-Feld "Block-FA" von Fig. 7d eingetragen. Anschließend folgt dann, obgleich in Fig. 7d nicht gezeigt, wieder ein Synchronisationsbyte für den nächsten Block des Datenstroms, dem wieder ein Längenbyte folgt, und dem dann die Multikanalinformationen P4 für BK4 folgen, wobei diesem Block von Multikanalinformationen P4 für den Basiskanaldatenblock BK4 wieder der Block-Fingerabdruck, der auf den Basiskanal-Daten BK4 basiert, folgt.

[0085] Wie in Fig. 7d ausgeführt, kann als Energiemaß ein absolutes Energiemaß eingeführt werden, oder aber auch ein Differenz-Energiemaß. Dann würde dem Block B3 des Datenstroms als Block-Fingerabdruck die Differenz zwischen dem Energiemaß für die Basiskanaldaten BK3 und dem Energiemaß für die Basiskanaldaten BK2 zugefügt werden.

[0086] Fig. 8 zeigt eine detailliertere Darstellung des Synchronisierers, des Fingerabdruckerzeugers 11 und des Fingerabdruckextrahierers 9 von Fig. 2 in Kooperation mit dem Multikanalrekonstruierer 21. Die Basiskanaldaten werden in einen Basiskanal-Datenpuffer 25 eingespeist und zwischengepuffert. Entsprechend werden die Zusatzinformationen bzw. der Datenstrom mit dien Zusatzinformationen und den Fingerabdruckinformationen einem Zusatzinformationen-Puffer 26 zugeführt. Beide Puffer sind allgemein gesagt in Form eines FIFO-Puffers aufgebaut, wobei jedoch der Puffer 26 weitere Kapazitäten dahingehend hat, dass die Fingerabdruckinformationen von dem Referenz-Fingerabdruckextrahierer 9 extrahierbar sind und ferner aus dem Datenstrom entfernt werden, sodass auf einer Puffer-Ausgangsleitung 27 lediglich Mehrkanal-Zusatzinformationen, jedoch ohne eingetastete Fingerabdrücke ausgebbar sind. Die Entfernung der Fingerabdrücke in dem Datenstrom kann jedoch auch von einem Zeitverschieber 28 oder irgendeinem anderen Element durchgeführt werden, sodass der Multikanalrekonstruierer 21 nicht durch Fingerabdruck-Bytes bei der Multikanalrekonstruktion gestört wird. Werden Absolut-Fingerabdrücke sowohl auf Referenz-Seite als auch auf Test-Seite verwendet, so können die durch den Fingerabdruck-Erzeuger 11 berechneten Fingerabdruckinformationen genauso wie die durch den Fingerabdruck-Extrahierer 9 ermittelten Fingerabdruckinformationen direkt in einen Korrelator 29 innerhalb des Synchronisierers 13 von Fig. 2 eingespeist werden. Der Korrelator berechnet dann den Versatzwert und liefert denselben über eine Versatz-Leitung 30 zu dem Zeitverschieber 28. Der Synchronisierer 13 ist ferner ausgebildet, um dann, wenn ein gültiger Versatzwert erzeugt und dem Zeitverschieber 28 zugeführt worden sind, einen Freigeber 31 anzusteuern, damit der Freigeber 31 einen Schalter 32 schließt, derart, dass der Strom von Mehrkanal-Zusatzdaten von dem Puffer 26 über den Zeitverschieber 28 und den Schalter 32 in den Multikanal-Rekonstruierer 21 eingespeist wird.

[0087] Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird lediglich eine Zeitverschiebung (Delay) der Mehrkanal-Zusatzinformationen vorgenommen. Gleichzeitig wird, damit ein Zuhörer der Ausgabe des Multikanalrekonstruierers 21 die Zeitverzögerung zur Berechnung des richtigen Versatzwerts nicht merkt, parallel zu der Berechnung des richtigen Versatzwertes bereits eine Multikanalrekonstruktion durchgeführt. Diese Multikanalrekonstruktion ist jedoch lediglich eine "triviale" Multikanalrekonstruktion, da die vorzugsweise zwei Stereobasiskanäle von dem Multikanalrekonstruierer 21 einfach ausgegeben werden. Ist der Schalter 32 daher offen, so folgt nur eine Stereoausgabe. Ist der Schalter 32 jedoch geschlossen, so erhält der Multikanalrekonstruierer 21 zusätzlich zu den StereoBasiskanälen auch die Mehrkanal-Zusatzinformationen und kann eine nun jedoch synchronisierte Multikanal-Ausgabe durchführen. Ein Zuhörer merkt dies lediglich dadurch, dass von der Stereoqualität auf die Multikanal-Qualität übergegangen wird.

[0088] In Anwendungsfällen, bei denen Anfangs-Zeitverzögerungen keine große Rolle spielen, kann jedoch die Ausgabe des Multikanalrekonstruierers 21 so lange zurückgehalten werden, bis ein gültiger Versatz vorliegt. Dann kann bereits der allererste Block (BK1 von Fig. 7b) mit den nunmehr korrekt verzögerten Mehrkanal-Zusatzdaten P1 (Fig. 7c) dem Multikanalrekonstruierer 21 zugeführt werden, sodass erst dann mit der Ausgabe begonnen wird, wenn Multikanal-Daten vorliegen. Eine Ausgabe des Multikanalrekonstruierers 21 bei geöffnetem Schalter wird es in diesem Ausführungsbeispiel nicht geben.

[0089] Nachfolgend wird Bezug nehmend auf Fig. 9 die Funktionalität des Korrelators 29 von Fig. 8 dargestellt. Am Ausgang des Test-Fingerabdruck-Berechners 11 wird eine Folge von Test-Fingerabdruckinformationen geliefert, wie sie im obersten Teilbild von Fig. 9 zu sehen ist. So ist für jeden Block der Basiskanäle, wobei dieser Block mit 1, 2, 3, 4, i bezeichnet ist, ein Block-Fingerabdruck vorhanden. Je nach Korrelationsalgorithmus wird zur Korrelation nur die Folge von diskreten Werten benötigt. Andere Korrelationsalgorithmen können jedoch auch als Eingangswert eine zwischen den diskreten Werten interpolierte Kurve erhalten, wie sie in Fig. 9 gezeichnet ist. Entsprechend erzeugt der Referenz-Fingerabdruckermittler 9 ebenfalls eine Folge von diskreten Referenz-Fingerabdrücken, die er aus dem Datenstrom extrahiert. Sind im Datenstrom beispielsweise Differenz-codierte Fingerabdruckinformationen enthalten, und soll der Korrelator auf der Basis von Absolut-Fingerabdrücken arbeiten, so wird ein Differenz-Decodierer 35 in Fig. 8 aktiviert. Es wird jedoch bevorzugt, dass im Datenstrom Absolut-Fingerabdrücken als. Energiemaß enthalten sind, da diese Information über die Gesamtenergie pro Block zu Pegelkorrekturzwecken von dem Multikanalrekonstruierer 21 ebenfalls vorteilhaft ausgenutzt werden kann. Ferner wird es bevorzugt, die Korrelation auf der Basis von Differenz-Fingerabdrücken durchzuführen. In diesem Fall wird der Block 9 vor dem Korrelator eine Differenzverarbeitung durchführen, und wird auch der Block 11 vor dem Korrelator eine Differenzverarbeitung durchführen, wie es bereits ausgeführt worden ist.

[0090] Der Korrelator 29 wird nunmehr die in den beiden oberen Teilbildern von Fig. 9 dargestellten Kurven bzw. Folgen von diskreten Werten enthalten und ein Korrelationsergebnis liefern, das im unteren Teilbild von Fig. 9 dargestellt ist. Es ergibt sich ein Korrelationsergebnis, dessen Versatz-Komponente genau den Versatz zwischen den beiden Fingerabdruckinformationen-Kurven liefert. Da der Versatz zudem positiv ist, müssen die Mehrkanal-Zusatzinformationen in positiver Zeitrichtung verschoben werden, also verzögert werden. Es sei darauf hingewiesen, dass natürlich auch die Basiskanaldaten in negativer Zeitrichtung verschoben werden könnten, oder dass sowohl die Mehrkanal-Zusatzinformationen einen Teil in positiver Richtung verschoben werden können, und die Basiskanal-Zusatzdaten einen Teil des Versatzes in negativer Zeitrichtung verschoben werden können, so lange der Multikanalrekonstruierer an seinen beiden Eingängen eine synchronisierte Multikanal-Darstellung enthält.

[0091] Nachfolgend wird auf eine bevorzugte Ausführungsform der Berechnung des Versatzes parallel zur Audioausgabe anhand von Fig. 10 dargestellt. Die Basiskanaldaten werden gepuffert, um jeweils einen Fingerabdruck berechnen zu können, wonach der Block, von dem gerade ein Test-Block-Fingerabdruck berechnet worden ist, dem Multikanalrekonstruierer zur Multikanalrekonstruktion zugeführt wird. Hierauf wird der nächste Block der Basiskanaldaten wiederum in den Puffer 25 eingespeist, damit von diesem Block wieder ein Test-Block-Fingerabdruck berechnet werden kann. Dies wird für z. B. eine Anzahl von 200 Blöcken durchgeführt. Diese 200 Blöcke werden jedoch, damit der Zuhörer keine Verzögerung merkt, von dem Multikanalkonstruierer im Sinne einer "trivialen" Multikanalrekonstruktion als Stereo-Ausgangsdaten einfach ausgegeben.

[0092] Je nach Implementierung können auch weniger als 200 Blöcke oder mehr als 200 Blöcke verwendet werden. Erfindungsgemäß hat sich herausgestellt, dass eine Anzahl zwischen 100 und 300 Blöcken und vorzugsweise 200 Blöcke Ergebnisse liefert, die einen vernünftigen Kompromiss zwischen Berechnungszeit, Korrelations-Rechenaufwand und Versatzgenauigkeit liefern.

[0093] Ist der Block 36 abgearbeitet, so wird auf einen Block 37 übergegangen, in dem durch den Korrelator 29 die Korrelation zwischen den 200 berechneten Test-Block-Fingerabdrücken und den 200 berechneten Referenz-Block-Fingerabdrücken durchgeführt wird. Das dort erhaltene Versatzergebnis wird nunmehr gespeichert. Dann wird in einem Block 38 entsprechend dem Block 36 eine Anzahl der nächsten z. B. 200 Blöcke der Basiskanaldaten berechnet. Entsprechend werden wieder 200 Blöcke aus dem Datenstrom mit den Mehrkanal-Zusatzinformationen extrahiert. Hierauf wird in einem Block 39 wieder eine Korrelation durchgeführt, und es wird das dort erhaltene Versatzergebnis gespeichert. Dann wird in einem Block 40 eine Abweichung zwischen dem Versatzergebnis aufgrund der zweiten 200 Blöcke und dem Versatzergebnis aufgrund der ersten 200 Blöcke festgestellt. Liegt die Abweichung unterhalb einer vorbestimmten Schwelle, so wird durch einen Block 41 der Versatz über die Versatzleitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt, und es wird der Schalter 32 geschlossen, sodass ab diesem Zeitpunkt auf die Multikanal-Ausgabe übergegangen wird. Ein vorbestimmter Wert für die Abweichungsschwelle ist beispielsweise ein Wert von einem oder zwei Blöcken. Dies basiert darauf, dass dann, wenn sich ein Versatz von einer Berechnung zur nächsten Berechnung nicht mehr als ein oder zwei Blöcke ändert, kein Fehler bei der Korrelationsberechnung durchgeführt worden ist.

[0094] Abweichend von diesem Ausführungsbeispiel kann auch gewissermaßen ein gleitendes Fenster mit einer Fensterlänge einer Anzahl von Blöcken, die z. B. 200 ist, verwendet werden. So wird z. B. eine Berechnung mit 200 Blöcken vorgenommen und ein Ergebnis erhalten. Dann wird um einen Block weitergegangen und in die Anzahl der für die Korrelationsberechnung verwendeten Blöcke ein Block herausgenommen und dafür der neue Block verwendet. Das erhaltene Ergebnis wird dann ebenso wie das zuletzt erhaltene Ergebnis in ein Histogramm eingespeichert. Dieses Prozedere wird für eine Anzahl von Korrelationsberechnungen, wie z. B. 100 oder 200, vorgenommen, so dass sich das Histogramm nach und nach füllt. Der Peak des Histogramms wird dann als berechneter Versatz verwendet, um den Anfangsversatz zu liefern oder einen Versatz zum dynamischen Nachstellen zu erhalten.

[0095] Die parallel zur Ausgabe stattfindende Versatzberechnung wird in einem Block 42 mitlaufen, und es wird je nach Bedarf, wenn ein Aüseinanderdriften des Datenstroms mit den Mehrkanal-Informationen und des Datenstroms mit den Basiskanaldaten festgestellt worden ist, eine adaptive bzw. dynamische Versatznachführung erreicht, indem ein aktualisierter Versatzwert über die Leitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt wird. Im Hinblick auf die adaptive Nachführung sei darauf hingewiesen, dass je nach Implementierung auch eine Glättung der Versatzänderung durchgeführt werden kann, sodass dann, wenn eine Abweichung von beispielsweise zwei Blöcken festgestellt worden ist, zunächst der Versatz um 1 inkrementiert wird und dann bei Bedarf wieder inkrementiert wird, damit die Sprünge nicht zu groß werden.

[0096] Nachfolgend wird Bezug nehmend auf Fig. 11 auf eine bevorzugte Ausführungsform des Fingerabdruck-Erzeugers 2 auf Encodiererseite, wie er in Fig. 1 dargestellt worden ist, und des Fingerabdruck-Erzeugers 11 von Fig. 2, wie er auf Decodierer-Seite eingesetzt wird, dargestellt.

[0097] Allgemein wird das Mehrkanalaudiosignal für die Gewinnung der Mehrkanalzusatzdaten in Blöcke fester Größe eingeteilt. Pro Block wird nun gleichzeitig zur Gewinnung der Mehrkanalzusatzdaten ein Fingerprint berechnet, der geeignet ist, die zeitliche Struktur des Signals möglichst eindeutig zu charakterisieren. Ein Ausführungsbeispiel hierzu ist es, den Energiegehalt des aktuellen Downmixaudiosignals des Audioblocks zu verwenden, beispielsweise in logarithmierter Form, also in einer Dezibel-verwandten Darstellung. In diesem Fall ist der Fingerprint ein Maß für die zeitliche Hüllkurve des Audiosignals. Um die übertragene Informationsmenge zu reduzieren und die Genauigkeit des Messwertes zu steigern, kann diese Synchronisationsinformation auch als Differenz zum Energiewert des vorangegangenen Blocks mit anschließend geeigneter Entropiecodierung, beispielsweise Huffman-Codierung, adaptiver Skalierung und Quantisierung ausgedrückt werden. Der Fingerprint der zeitlichen Hüllkurve wird dabei wie folgt berechnet:

[0098] Zunächst wird, wie bei Punkt 1 in Fig. 11 dargestellt ist, eine Energieberechnung des Downmixaudiosignals im aktuellen Block gegebenenfalls für ein Stereosignal durchgeführt. Hierbei werden z. B. 1152 Audioabtastwerte sowohl vom linken als auch vom rechten Downmixkanal jeweils quadriert und aufsummiert. S_left (i) stellt hierbei einen zeitlichen Abtastwert zum Zeitpunkt i des linken Basiskanals dar, während S_right(i) einen zeitlichen Abtastwert des rechten Basiskanals zum Zeitpunkt i darstellt. Bei einem monophonen Downmixsignal entfällt die Summierung. Ferner wird es bevorzugt, vor der Berechnung die für die vorliegende Erfindung nicht aussagekräftigen Gleichanteile des Dowrimixaudiosignals zu entfernen.

[0099] In einem Schritt 2 wird eine Minimumbegrenzung der Energie zwecks anschließender logarithmischer Darstellung durchgeführt. Für eine Dezibel-verwandte Bewertung der Energie wird es bevorzugt, einen minimalen Energieoffset zu verwenden, damit sich im Falle einer Nullenergie eine sinnvolle logarithmische Berechnung ergibt. Diese Energiemaßzahl in dB überstreicht dabei einen Zahlenbereich von 0 bis 90 (dB) bei einer Audiosignalauflösung von 16 Bit.

[0100] Wie es bei 3 in Fig. 11 gezeigt ist, wird es bevorzugt, für eine exakte Bestimmung des zeitlichen Versatzes zwischen Mehrkanalzusatzinformationen und empfangenem Audiosignal nicht den absoluten Energie-Hüllkurvenwert zu verwenden, sondern vielmehr die Steigung (Steilheit) der Signalhüllkurve. Daher wird für die Korrelationsmessung nur die Steigung der Energie-Hüllkurve herangezogen. Technisch gesehen wird diese Signalableitung durch Differenzbildung des Energiewertes mit dem des vorangegangenen Blocks berechnet. Dieser Schritt wird z. B. im Encoder vollzogen. Dann besteht der Fingerprint aus differenzcodierten Werten. Alternativ kann dieser Schritt auch rein decodiererseitig implemontiert werden. Hier besteht der übertragene Fingerprint also aus nicht-differenzcodierten Werten. Die Differenzbildung wird hier erst im Decodierer vorgenommen. Letztere Möglichkeit hat den Vorteil, dass der Fingerprint Information über die absolute Energie des Downmixsignals enthält. Es wird allerdings typischerweise eine etwas höhere Fingerprintwortlänge benötigt.

[0101] Weiterhin wird es bevorzugt, die Energie (Hüllkurve des Signals) für eine optimale Aussteuerung zu skalieren. Damit bei der anschließenden Quantisierung dieses Fingerprints sowohl der Zahlenbereich maximal ausgenutzt als auch die Auflösung bei geringen Energiewerten verbessert werden kann, ist es sinnvoll, eine zusätzliche Skalierung (= Verstärkung) einzuführen. Diese kann entweder als feste und statische Gewichtungsgröße oder über eine an das Hüllkurvensignal angepasste dynamische Verstärkungsregelung realisiert werden.

[0102] Ferner wird, wie es bei 5 in Fig. 11 gezeigt ist, eine Quantisierung des Fingerprint vorgenommen. Um diesen Fingerprint für die Eintastung in die Mehrkanalzusatzinformationen vorzubereiten, wird dieser auf 8 Bit quantisiert. Diese reduzierte Fingerprintauflösung hat sich in der Praxis als guter Kompromiss hinsichtlich Bitbedarf und Zuverlässigkeit der Verzögerungsdetektion bewährt. Zahlenüberläufe von größer als 255 werden dabei mit einer Sättigungskennlinie auf den Maximalwert von 255 begrenzt.

[0103] Wie es bei 6 in Fig. 11 gezeigt ist, kann noch eine optimale Entropiecodierung des Fingerprints vorgenommen werden. Durch Auswertung von statistischen Eigenschaften des Fingerprints kann der Bitbedarf des quantisierten Fingerprints noch weiter reduziert werden. Ein geeignetes Entropieverfahren ist beispielsweise die Huffman-Codierung oder die arithmetische Codierung. Statistisch unterschiedliche Häufigkeiten von Fingerprintwerten können durch verschiedene Codelängen ausgedrückt werden und somit im Mittel den Bitbedarf der Fingerprintdarstellung reduzieren.

[0104] Pro Audioblock wird die Berechnung der Mehrkanalzusatzdaten unter Zuhilfenahme der Mehrkanalaudiodaten durchgeführt. Hierbei berechnete Mehrkanalzusatzinformationen werden anschließend durch die neu hinzukommende Synchronisationsinformation durch geeignetes Einbetten in den Bitstrom erweitert.

[0105] Mit Hilfe der erfindungsgemäßen Lösung ist der Empfänger nunmehr in der Lage, einen zeitlichen Versatz von Downmixsignal und Zusatzdaten zu erkennen und eine zeitkorrekte Anpassung, also eine Verzögerungskompensation zwischen Stereoaudiosignalen und Mehrkanalzusatzinformationen in der Größenordnung von +/- ½ Audioblock zu realisieren. Somit kann die Mehrkanalzuordnung im Empfänger fast vollständig, d. h. bis auf eine kaum wahrnehmbaren Zeitunterschied von +/- ½ Audioframes rekonstruiert werden, welcher sich nicht nennenswert auf die Qualität des rekonstruierten Mehrkanalaudiosignals auswirkt.

[0106] Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen bzw. Decodieren in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.

Ansprüche

1. Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multikanal-Audiosignals, wobei das Multikanal-Audiosignal wenigstens zwei Kanäle hat, mit folgenden Merkmalen:

einem Fingerabdruck-Erzeuger (2) zum Erzeugen von Fingerabdruck-Informationen aus wenigstens einem aus dem ursprünglichen Multikanal-Audiosignal abgeleiteten Basis-Kanal, wobei eine Anzahl von Basis-Kanälen größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Audiosignals ist, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben; und

einem Datenstrom-Erzeuger (4) zum Erzeugen eines Datenstroms aus den Fingerabdruck-Informationen und von zeitlich variablen Mehrkanal-Zusatzinformationen, die zusammen mit dem wenigstens einen Basis-Kanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals ermöglichen, wobei der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom so zu erzeugen, dass aus dem Datenstrom ein zeitlicher Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist.

2. Vorrichtung nach Anspruch 1,
bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um den wenigstens einen Basiskanal blockweise zu verarbeiten, um die Fingerabdruck-Informationen zu erhalten,
bei der die Mehrkanal-Zusatzinformationen blockweise berechnet sind, sodass sie zusammen mit Blöcken des wenigstens einen Basiskanals zur Multikanal-Rekonstruktion zu verwenden sind, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um die Mehrkanal-Zusatzinformationen und die Fingerabdruck-Informationen blockweise in den Datenstrom zu schreiben.

3. Vorrichtung nach Anspruch 2, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um für einen Block des wenigstens einen Basiskanals als Fingerabdruck-Informationen einen Block-Fingerabdruck zu erzeugen, der einen zeitlichen Verlauf des Basiskanals in dem Block wiedergibt,
bei der ein Block der Mehrkanal-Zusatzinformationen zusammen mit dem Block des Basiskanals für die Multikanal-Rekonstruktion zu verwenden ist, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise so zu schreiben, dass der Block von Mehrkanal-Zusatzinformationen und der Block von Fingerabdruck-Informationen eine vorbestimmte Beziehung zueinander aufweisen.

4. Vorrichtung nach Anspruch 2, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um für zeitlich folgende Blöcke des wenigstens einen Basiskanals als Fingerabdruck-Informationen eine Folge von Block-Fingerabdrücken zu berechnen,
bei der die Mehrkanal-Zusatzinformationen blockweise für zeitlich folgende Blöcke des wenigstens einen Basiskanals gegeben sind, und
bei der der Datenstrom-Erzeuger ausgebildet ist, um die Folge von Block-Fingerabdrücken in einer vorbestimmten Beziehung zu der Folge von Blöcken der Mehrkanal-Zusatzinformationen zu schreiben.

5. Vorrichtung nach Anspruch 4, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um eine Differenz zwischen zwei Fingerabdruck-Werten zweier Blöcke des wenigstens einen Basiskanals als Block-Fingerabdruck zu berechnen.

6. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um eine Quantisierung und Entropie-Codierung von Fingerabdruck-Werten durchzuführen, um die Fingerabdruck-Informationen zu erhalten.

7. Vorrichtung nach Anspruch 6, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um Fingerabdruck-Werte mit einer Skalierungsinformation zu skalieren und die Skalierungsinformation ferner in Zuordnung zu den Fingerabdruck-Informationen in den Datenstrom zu schreiben.

8. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um die Fingerabdruck-Informationen blockweise zu berechnen, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise zu schreiben, sodass ein Block des Datenstroms einen Block von Mehrkanal-Zusatzinformationen und einen Block von Fingerabdruck-Informationen, die dem Block von Mehrkanal-Zusatzinformationen und einem Block des wenigstens einen Basiskanals zugeordnet sind, aufweist.

9. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der wenigstens zwei Basiskanäle vorhanden sind, und
bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um die wenigstens zwei Basiskanäle abtastwertweise oder spektralwertweise zu addieren oder vor der Addition zu quadrieren.

10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden.

11. Vorrichtung nach Anspruch 10, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden, und
bei der der Fingerabdruck-Erzeuger (2) ferner ausgebildet ist, um eine Minimumbegrenzung der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten Energie zu liefern.

12. Vorrichtung nach Anspruch 11, bei der der wenigstens eine Basiskanal in codierter Form zu einem Multikanal-Rekonstruierer übertragbar ist,
wobei die codierte Form unter Verwendung eines verlustbehafteten Codierers erzeugt worden ist, und
bei der ferner ein Basiskanal-Decodierer vorhanden ist, um eine decodierte Form des wenigstens einen Basiskanals als Eingangssignal für den Fingerabdruck-Erzeuger (2) bereitzustellen.

13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Mehrkanal-Zusatzdaten Mehrkanal-Parameterdaten sind, die jeweils blockweise entsprechenden Blöcken des wenigstens einen Basiskanals zugeordnet sind.

14. Vorrichtung nach Anspruch 13, die ferner folgende Merkmale aufweist:

einen Mehrkanal-Analysierer (112) zum blockweisen Erzeugen sowohl einer Folge von Blöcken des wenigstens einen Basiskanals als auch einer Folge von Blöcken der Mehrkanal-Zusatzinformationen,

wobei der Fingerabdruck-Erzeuger (2) ausgebildet ist, um von jedem Block von Werten des wenigstens einen Basiskanals einen Block-Fingerabdruckwert zu berechnen.

15. Vorrichtung nach Anspruch 14, bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom in einen separaten Datenkanal zu schreiben, der zusätzlich zu einem Standard-Datenkanal vorhanden ist, über den der wenigstens eine Basiskanal zu einer Multikanal-Rekonstruktionseinrichtung übertragbar ist.

16. Vorrichtung nach Anspruch 15, bei der der Standard-Datenkanal ein standardisierter Kanal für ein digitales Stereo-Rundfunksignal oder ein standardisierter Kanal für eine Übertragung über das Internet ist.

17. Vorrichtung zum Erzeugen einer Multikanal-Darstellung (18, 20) eines ursprünglichen Multikanal-Audiosignals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Merkmalen:

einem Fingerabdruck-Erzeuger (11) zum Erzeugen von Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal;

einem Fingerabdruck-Extrahierer (9) zum Extrahieren der Fingerabdruck-Informationen aus dem Datenstrom, um Referenz-Fingerabdruckinformationen zu erhalten; und

einem Synchronisierer (13) zum zeitlichen Synchronisieren der Mehrkanal-Zusatzinformationen und des wenigstens einen Basiskanals unter Verwendung der Test-Fingerabdruckinformationen, der Referenz-Fingerabdruckinformationen und eines aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal-Informationen und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen, um eine synchronisierte Multikanal-Darstellung zu erhalten.

18. Vorrichtung nach Anspruch 17, die ferner folgendes Merkmal aufweist:

einen Multikanal-Rekonstruierer (21) zum Rekonstruieren der Multikanal-Darstellung unter Verwendung der synchronisierten Multikanal-Darstellung, um eine Rekonstruktion des ursprünglichen Multikanal-Audiosignals zu erhalten.

19. Vorrichtung nach Anspruch 17 oder 18,
bei der der Datenstrom eine Folge von Blöcken von Mehrkanal-Zusatzdaten in zeitlichem Zusammenhang mit einer Folge von Referenz-Fingerabdruckwerten als Referenz-Fingerabdruckinformationen aufweist,
bei der der Extrahierer (9) ausgebildet ist, um zu einem Block von Mehrkanal-Zusatzdaten aufgrund des zeitlichen Zusammenhangs einen zugehörigen Fingerabdruckwert zu ermitteln;
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um für eine Folge von Blöcken des wenigstens einen Basiskanals eine Folge von Test-Fingerabdruckwerten als Test-Fingerabdruckinformationen zu ermitteln;
bei der der Synchronisierer (13) ausgebildet ist, um aufgrund eines Versatzes (30) zwischen der Folge von Test-Fingerabdruckwerten und der Folge von Referenz-Fingerabdruckwerten einen Versatz zwischen den Blöcken von Mehrkanal-Zusatzdaten und den Blöcken des wenigstens einen Basiskanals zu berechnen, und um den Versatz durch Verzögern (28) der Folge von Blöcken der Mehrkanal-Zusatzinformationen unter Verwendung des berechneten Versatzes zu kompensieren.

20. Vorrichtung nach einem der Ansprüche 17 bis 19,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um eine Quantisierung von Fingerabdruck-Werten durchzuführen, um die Test-Fingerabdruck-Informationen zu erhalten.

21. Vorrichtung nach einem der Ansprüche 17 bis 20,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um Fingerabdruck-Werte mit einer Skalierungsinformation aus dem Datenstrom zu skalieren.

22. Vorrichtung nach einem der Ansprüche 17 bis 21,
bei der wenigstens zwei Basiskanäle vorhanden sind, und
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um die wenigstens zwei Basiskanäle abtastwertweise oder spektralwertweise zu addieren oder vor der Addition zu quadrieren.

23. Vorrichtung nach einem der Ansprüche 17 bis 22,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden.

24. Vorrichtung nach einem der Ansprüche 17 bis 23
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden, und
bei der der Fingerabdruck-Erzeuger (11) ferner ausgebildet ist, um eine Minimumbegrenzung der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten Energie zu liefern.

25. Vorrichtung nach einem der Ansprüche 17 bis 24, bei der der Datenstrom blockweise organisiert ist und in einem Block des Datenstroms ein Block von Mehrkanal-Zusatzinformationen und ein Block-Fingerabdruck enthalten sind,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Test-Fingerabdruck-Information eine Differenz zwischen zwei Block-Fingerabdrücken des wenigstens einen Basiskanals zu berechnen, und
bei der der Fingerabdruck-Extrahierer (9) ferner ausgebildet ist, um eine Differenz aus zwei Block-Fingerabdrücken im Datenstrom zu berechnen und als Referenz-Fingerabdruck-Informationen zu dem Synchronisierer (13) zu liefern.

26. Vorrichtung nach einem der Ansprüche 17 bis 25,
bei der der Synchronisierer (13) ausgebildet ist, um parallel zu einer Audioausgabe einen Versatz zwischen den Mehrkanal-Zusatzdaten und dem wenigstens einen Basiskanal zu berechnen und den Versatz adaptiv zu kompensieren.

27. Vorrichtung nach Anspruch 18, die ferner ausgebildet ist, um dann, wenn noch keine synchronisierten Mehrkanal-Zusatzdaten vorliegen, den wenigstens einen Basiskanal wiederzugeben und dann, wenn synchronisierte Mehrkanal-Zusatzdaten vorhanden sind, von einer Mono- oder Stereo-Wiedergabe des wenigstens einen Basiskanals in eine Multikanal-Wiedergabe umzuschalten (32).

28. Vorrichtung nach einem der Ansprüche 17 bis 27, die ausgebildet ist, um den Datenstrom und den wenigstens einen Basiskanal über voneinander separate Bitströme zu erhalten, die über zwei voneinander unterschiedliche logische Kanäle oder physische Kanäle empfangen werden, oder über denselben allerdings zu unterschiedlichen Zeiten aktiven Übertragungskanal erhalten werden.

29. Verfahren zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multikanal-Audiosignals, wobei das Multikanal-Audiosignal wenigstens zwei Kanäle hat, mit folgenden Schritten:

Erzeugen (2) von Fingerabdruck-Informationen aus wenigstens einem aus dem ursprünglichen Multikanal-Audiosignal abgeleiteten Basis-Kanal, wobei eine Anzahl von Basis-Kanälen größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Audiosignals ist, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben; und

Erzeugen (4) eines Datenstroms aus den Fingerabdruck-Informationen und von zeitlich variablen Mehrkanal-Zusatzinformationen, die zusammen mit dem wenigstens einen Basis-Kanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals ermöglichen,

wobei der Datenstrom so erzeuget wird, dass aus dem Datenstrom ein zeitlicher Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist.

30. Verfahren zum Erzeugen einer Multikanal-Darstellung (18, 20) eines ursprünglichen Multikanal-Audiosignals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Schritten:

Erzeugen (11) von Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal;

Extrahieren (9) der Fingerabdruck-Informationen aus dem Datenstrom, um Referenz-Fingerabdruckinformationen zu erhalten; und

Synchronisieren (13) der Mehrkanal-Zusatzinformationen und des wenigstens einen Basiskanals unter Verwendung der Test-Fingerabdruckinformationen, der Referenz-Fingerabdruckinformationen und eines aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal-Informationen und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen, um eine synchronisierte Multikanal-Darstellung zu erhalten.

31. Computer-Programm-Produkt mit einem Programmcode zur Ausführung des Verfahrens gemäß Patentanspruch 29 oder Patentanspruch 30, wenn der Programmcode auf einem Rechner abläuft.

32. Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf wenigstens eines aus einem ursprünglichen Multikanal-Audiosignal abgeleiteten Basis-Kanals wiedergeben, wobei eine Anzahl von Basis-Kanälen größer oder gleichen 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Audiosignals ist, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Audiosignals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist.

33. Datenstrom nach Anspruch 32, der Steuersignale aufweist, um eine synchronisierte Multikanal-Darstellung des ursprünglichen Multikanal-Audiosignals zu erzeugen, wenn der Datenstrom in die Vorrichtung nach Patentanspruch 17 eingespeist wird.

Claims

1. Device for generating a data stream for a multichannel reconstruction of an original multi-channel audio signal, wherein the multi-channel audio signal has at least two channels, comprising:

a fingerprint generator (2) for generating fingerprint information from at least one base channel derived from the original multi-channel audio signal, wherein a number of base channels is equal to or larger than 1 and less than a number of channels of the original multi-channel audio signal, wherein the fingerprint information gives a progress in time of the at least one base channel; and

a data stream generator (4) for generating a data stream from the fingerprint information and of time-variable multi-channel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multichannel audio signal, wherein the data stream generator (4) is designed to generate the data stream so that a time connection between the multi-channel additional information and the fingerprint information may be derived from the data stream.

2. Device of claim 1,
wherein the fingerprint generator (2) is designed to process the at least one base channel blockwise to obtain the fingerprint information,
wherein the multi-channel additional information is calculated blockwise so that they are to be used together with blocks of the at least one base channel for the multi-channel reconstruction, and
wherein the data stream generator (4) is designed to write the multi-channel additional information and the fingerprint information blockwise into the data stream.

3. Device of claim 2, wherein the fingerprint generator (2) is designed to generate, as fingerprint information for a block of the at least one base channel, a block fingerprint giving a progress in time of the base channel in the block,
wherein a block of the multi-channel additional information is to be used together with the block of the base channel for the multi-channel reconstruction, and
wherein the data stream generator (4) is designed to write the data stream blockwise so that the block of multi-channel additional information and the block of fingerprint information have a predetermined relationship to each other.

4. Device of claim 2, wherein the fingerprint generator (2) is designed to calculate a sequence of block fingerprints as fingerprint information for blocks of the at least one base channel that are subsequent in time,
wherein the multi-channel additional information is given blockwise for blocks of the at least one base channel that are subsequent in time, and
wherein the data stream generator is designed to write the sequence of block fingerprints in a predetermined relationship to the sequence of blocks of the multichannel additional information.

5. Device of claim 4, wherein the fingerprint generator (2) is designed to calculate a difference between two fingerprint values of two blocks of the at least one base channel as block fingerprint.

6. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed to perform a quantization and entropy coding of fingerprint values to obtain the fingerprint information.

7. Device of claim 6, wherein the fingerprint generator (2) is designed to scale fingerprint values with scaling information and to further write the scaling information into the data stream in association with the fingerprint information.

8. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed to calculate the fingerprint information blockwise, and
wherein the data stream generator (4) is designed to write the data stream blockwise so that a block of the data stream comprises a block of multi-channel additional information and a block of fingerprint information associated with the block of multi-channel additional information and a block of the at least one base channel.

9. Device of one of the preceding claims, wherein there are at least two base channels, and
wherein the fingerprint generator (2) is designed to add the at least two base channels sample-wise or spectral value-wise or to square them prior to the addition.

10. Device of one of the preceding claims, wherein the fingerprint generator (2) is designed to use data on an energy envelope of the at least one base channel as fingerprint information.

11. Device of claim 10, wherein the fingerprint generator (2) is designed to use data on an energy envelope of the at least one base channel as fingerprint information, and
wherein the fingerprint generator (2) is further designed to use a minimum limitation of the energy and to provide a logarithmic representation of a minimum-limited energy.

12. Device of claim 11, wherein the at least one base channel may be transmitted in coded form to a multichannel reconstructor,
wherein the coded form has been generated using a lossy encoder, and
wherein there is further a base channel decoder to provide a decoded form of the at least one base channel as input signal for the fingerprint generator (2).

13. Device of one of the preceding claims, wherein the multi-channel additional data are multi-channel parameter data each associated blockwise with corresponding blocks of the at least one base channel.

14. Device of claim 13, further comprising:

a multi-channel analyzer (112) for the blockwise generation of both a sequence of blocks of the at least one base channel and a sequence of blocks of the multi-channel additional information,

wherein the fingerprint generator (2) is designed to calculate a block fingerprint value from each block of values of the at least one base channel.

15. Device of claim 14, wherein the data stream generator (4) is designed to write the data stream into a separate data channel existing in addition to a standard data channel, via which the at least one base channel may be transmitted to a multi-channel reconstruction means.

16. Device of claim 15, wherein the standard data channel is a standardized channel for a digital stereo radio signal or a standardized channel for transmission via the internet.

17. Device for generating a multi-channel representation (18, 20) of an original multi-channel audio signal from at least one base channel and a data stream comprising fingerprint information giving a progress in time of the at least one base channel and multichannel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein a connection between the multi-channel additional information and the fingerprint information may be derived from the data stream, comprising:

a fingerprint generator (11) for generating test fingerprint information from the at least one base channel;

a fingerprint extractor (9) for extracting the fingerprint information from the data stream to obtain reference fingerprint information; and

a synchronizer (13) for synchronizing the multichannel additional information and the at least one base channel in time using the test fingerprint information, the reference fingerprint information and a connection of the multi-channel information and the fingerprint information contained in the data stream, which is derived from the data stream, to obtain a synchronized multi-channel representation.

18. Device of claim 17, further comprising:

a multi-channel reconstructor (21) for reconstructing the multi-channel representation using the synchronized multi-channel representation to obtain a reconstruction of the original multi-channel audio signal.

19. Device of claim 17 or 18,
wherein the data stream comprises a sequence of blocks of multi-channel additional data in time connection with a sequence of reference fingerprint values as reference fingerprint information,
wherein the extractor (9) is designed to determine an associated fingerprint value to a block of multichannel additional data based on the time connection;
wherein the fingerprint generator (11) is designed to determine a sequence of test fingerprint values as test fingerprint information for a sequence of blocks of the at least one base channel;
wherein the synchronizer (13) is designed to calculate an offset between the blocks of multi-channel additional data and the blocks of the at least one base channel based on an offset (30) between the sequence of test fingerprint values and the sequence of reference fingerprint values, and to compensate the offset by delaying (28) the sequence of blocks of the multi-channel additional information using the calculated offset.

20. Device of one of claims 17 to 19,
wherein the fingerprint generator (11) is designed to perform a quantization of fingerprint values to obtain the test fingerprint information.

21. Device of one of claims 17 to 20,
wherein the fingerprint generator (11) is designed to scale fingerprint values with scaling information from the data stream.

22. Device of one of claims 17 to 21,
wherein there are at least two base channels, and
wherein the fingerprint generator (11) is designed to add the at least two base channels sample-wise or spectral value-wise or to square them prior to the addition.

23. Device of one of claims 17 to 22,
wherein the fingerprint generator (11) is designed to use data on an energy envelope of the at least one base channel as fingerprint information.

24. Device of one of claims 17 to 23,
wherein the fingerprint generator (11) is designed to use data on an energy envelope of the at least one base channel as fingerprint information, and
wherein the fingerprint generator (11) is further designed to use a minimum limitation of the energy and to provide a logarithmic representation of a minimum-limited energy.

25. Device of one of claims 17 to 24, wherein the data stream is organized blockwise, and a block of multichannel additional information and a block fingerprint are contained in a block of the data stream,
wherein the fingerprint generator (11) is designed to calculate a difference between two block fingerprints of the at least one base channel as test fingerprint information, and
wherein the fingerprint extractor (9) is further designed to calculate a difference of two block fingerprints in the data stream and to provide it as reference fingerprint information to the synchronizer (13).

26. Device of one of claims 17 to 25,
wherein the synchronizer (13) is designed to calculate an offset between the multi-channel additional data and the at least one base channel in parallel to an audio output and to compensate the offset adaptively.

27. Device of claim 18, further designed to reproduce the at least one base channel when there are no synchronized multi-channel additional data yet, and to switch (32) from a mono or stereo reproduction of the at least one base channel to a multi-channel reproduction when there are synchronized multi-channel additional data.

28. Device of one of claims 17 to 27, designed to obtain the data stream and the at least one base channel via bit streams separate from each other, which are received via two logic channels or physical channels different from each other, or are obtained via the same transmission channel which, however, is active at different times.

29. Method for generating a data stream for a multichannel reconstruction of an original multi-channel audio signal, wherein the multi-channel audio signal has at least two channels, comprising:

generating (2) fingerprint information from at least one base channel derived from the original multichannel audio signal, wherein a number of base channels is equal to or larger than 1 and less than a number of channels of the original multi-channel audio signal, wherein the fingerprint information gives a progress in time of the at least one base channel; and

generating (4) a data stream from the fingerprint information and of time-variable multi-channel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein the data stream is generated so that a time connection between the multi-channel additional information and the fingerprint information may be derived from the data stream.

30. Method for generating a multi-channel representation (18, 20) of an original multi-channel audio signal from at least one base channel and a data stream comprising fingerprint information giving a progress in time of the at least one base channel and multichannel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein a connection between the multi-channel additional information and the fingerprint information may be derived from the data stream, comprising:

generating (11) test fingerprint information from the at least one base channel;

extracting (9) the fingerprint information from the data stream to obtain reference fingerprint information; and

synchronizing (13) the multi-channel additional information and the at least one base channel using the test fingerprint information, the reference fingerprint information and a connection of the multichannel information and the fingerprint information contained in the data stream, which is derived from the data stream, to obtain a synchronized multichannel representation.

31. Computer program product having a program code for performing the method of claim 29 or claim 30, when the program code runs on a computer.

32. Data stream comprising fingerprint information giving a progress in time of at least one base channel derived from an original multi-channel audio signal, wherein a number of base channels is equal to or larger than 1 and less than a number of channels of the original multi-channel audio signal, and multichannel additional information which, together with the at least one base channel, allow the multi-channel reconstruction of the original multi-channel audio signal, wherein a connection between the multi-channel additional information and the fingerprint information may be derived from the data stream.

33. Data stream of claim 32, comprising control signals to generate a synchronized multi-channel representation of the original multi-channel audio signal, when the data stream is fed into the device of claim 17.

Revendications

1. Dispositif pour générer un flux de données pour une reconstruction multicanal d'un signal audio multicanal original, le signal audio multicanal ayant au moins deux canaux, aux caractéristiques suivantes:

un générateur d'empreinte (2) destiné à générer des informations d'empreinte à partir d'au moins un canal de base dérivé du signal audio multicanal original, un nombre de canaux de base étant supérieur ou égal à 1 et inférieur à un nombre de canaux du signal audio multicanal original, les informations d'empreinte reproduisant une évolution dans le temps de l'au moins un canal de base; et

un générateur de flux de données (4) destiné à générer un flux de données à partir des informations d'empreinte et d'informations multicanal additionnelles variables dans le temps qui permettent, ensemble avec l'au moins un canal de base, la reconstruction multicanal du signal audio multicanal original, le générateur de flux de données (4) étant réalisé de manière à générer le flux de données de sorte que du flux de données puisse être dérivé un rapport dans le temps entre les informations multicanal additionnelles et les informations d'empreinte.

2. Dispositif selon la revendication 1,
dans lequel le générateur d'empreinte (2) est réalisé de manière à traiter par bloc l'au moins un canal de base, pour obtenir les informations d'empreinte,
dans lequel les informations multicanal additionnelles sont calculées par bloc, de sorte qu'elles soient à utiliser ensemble avec les blocs de l'au moins un canal de base pour la reconstruction multicanal, et
dans lequel le générateur de flux de données (4) est réalisé de manière à écrire les informations multicanal additionnelles et les informations d'empreinte par bloc dans le flux de données.

3. Dispositif selon la revendication 2, dans lequel le générateur d'empreinte (2) est réalisé de manière à générer comme informations d'empreinte, pour un bloc de l'au moins un canal de base, une empreinte de bloc qui reproduit une évolution dans le temps du canal de base dans le bloc,
dans lequel un bloc des informations multicanal additionnelles est à utiliser ensemble avec le bloc du canal de base pour la reconstruction multicanal, et
dans lequel le générateur de flux de données (4) est réalisé de manière à écrire le flux de données par bloc de sorte que le bloc d'informations multicanal additionnelles et le bloc d'informations d'empreinte présentent un rapport prédéterminé entre eux.

4. Dispositif selon la revendication 2, dans lequel le générateur d'empreinte (2) est réalisé de manière à calculer pour des blocs successifs dans le temps de l'au moins un canal de base, comme informations d'empreinte, une succession d'empreintes de bloc,
dans lequel les informations multicanal additionnelles sont données par bloc pour des blocs successifs dans le temps de l'au moins un canal de base, et
dans lequel le générateur de flux de données est réalisé de manière à écrire la succession d'empreintes de bloc selon un rapport prédéterminé avec la succession de blocs des informations multicanal additionnelles.

5. Dispositif selon la revendication 4, dans lequel le générateur d'empreinte (2) est réalisé de manière à calculer comme empreinte de bloc une différence entre deux valeurs d'empreinte de deux blocs de l'au moins un canal de base.

6. Dispositif selon l'une des revendications précédentes, dans lequel le générateur d'empreinte (2) est réalisé de manière à effectuer une quantification et un codage entropique de valeurs d'empreinte, pour obtenir les informations d'empreinte.

7. Dispositif selon la revendication 6, dans lequel le générateur d'empreinte (2) est réalisé de manière à moduler les valeurs d'empreinte par une information de modulation et à écrire l'information de modulation par ailleurs en association avec les informations d'empreinte dans le flux de données.

8. Dispositif selon l'une des revendications précédentes, dans lequel le générateur d'empreinte (2) est réalisé de manière à calculer les informations d'empreinte par bloc, et
dans lequel le générateur de flux de données (4) est réalisé de manière à écrire le flux de données par bloc, de sorte qu'un bloc du flux de données présente un bloc d'informations multicanal additionnelles et un bloc d'informations d'empreinte qui sont associés au bloc d'informations multicanal additionnelles et à un bloc d'au moins un canal de base.

9. Dispositif selon l'une des revendications précédentes, dans lequel sont présents au moins deux canaux de base, et
dans lequel le générateur d'empreinte (2) est réalisé de manière à additionner les au moins deux canaux de base par valeur de balayage ou par valeur spectrale ou à les élever au carré avant addition.

10. Dispositif selon l'une des revendications précédentes, dans lequel le générateur d'empreinte (2) est réalisé de manière à utiliser comme informations d'empreinte des données sur une courbe enveloppante d'énergie de l'au moins un canal de base.

11. Dispositif selon la revendication 10, dans lequel le générateur d'empreinte (2) est réalisé de manière à utiliser comme informations d'empreinte des données sur une courbe enveloppante d'énergie de l'au moins un canal de base, et
dans lequel le générateur d'empreinte (2) est par ailleurs réalisé de manière à utiliser une limitation à un minimum de l'énergie et à fournir une représentation logarithmique d'une énergie limitée à un minimum.

12. Dispositif selon la revendication 11, dans lequel l'au moins un canal de base peut être transmis de forme codée à un reconstructeur multicanal,
la forme codée ayant été générée à l'aide d'un codeur à perte, et
dans lequel est par ailleurs présent un décodeur de canal de base, pour mettre à disposition une forme décodée de l'au moins un canal de base comme signal d'entrée pour le générateur d'empreinte (2).

13. Dispositif selon l'une des revendications précédentes, dans lequel les données multicanal additionnelles sont des données de paramètre multicanal qui sont associées, chacune, par bloc à des blocs correspondants de l'au moins un canal de base.

14. Dispositif selon la revendication 13, présentant par ailleurs les caractéristiques suivantes:

un analyseur multicanal (112) destiné à générer par bloc tant une succession de blocs de l'au moins un canal de base qu'une succession de blocs des d'informations multicanal additionnelles,

dans lequel le générateur d'empreinte (2) est par ailleurs réalisé de manière à calculer, de chaque bloc de valeurs de l'au moins un canal de base, une valeur d'empreinte de bloc.

15. Dispositif selon la revendication 14, dans lequel le générateur de flux de données (4) est réalisé de manière à écrire le flux de données dans un canal de données séparé qui est présent en plus d'un canal de données standard, par lequel l'au moins un canal de base peut être transmis à un moyen de reconstruction multicanal.

16. Dispositif selon la revendication 15, dans lequel le canal de données standard est un canal standardisé pour un signal de radiodiffusion stéréo numérique ou un canal standardisé pour une transmission par Internet.

17. Dispositif pour générer une représentation multicanal (18, 20) d'un signal audio multicanal original à partir d'au moins un canal de base et d'un flux de données présentant des informations d'empreinte reproduisant une évolution dans le temps d'au moins un canal de base et des informations multicanal additionnelles permettant, ensemble avec l'au moins un canal de base, la reconstruction multicanal du signal audio multicanal original, du flux de données pouvant être dérivé un rapport entre les informations multicanal additionnelles et les informations d'empreinte, aux caractéristiques suivantes:

un générateur d'empreinte (11) destiné à générer des informations d'empreinte de test à partir de l'au moins un canal de base;

un extracteur d'empreinte (9) destiné à extraire les informations d'empreinte du flux de données, pour obtenir des informations d'empreinte de référence; et

un synchronisateur (13) destiné à synchroniser dans le temps les informations multicanal additionnelles et l'au moins un canal de base à l'aide des informations d'empreinte de test, des informations d'empreinte de référence et d'un rapport dérivé du flux de données entre les informations multicanal et les informations d'empreinte contenues dans le flux de données, pour obtenir une représentation multicanal synchronisée.

18. Dispositif selon la revendication 17, présentant par ailleurs la caractéristique suivante:

un reconstructeur multicanal (21) destiné à reconstruire la représentation multicanal à l'aide de la représentation multicanal synchronisée, pour obtenir une reconstruction du signal audio multicanal original.

19. Dispositif selon la revendication 17 ou 18,
dans lequel lé flux de données présente une succession de blocs de données multicanal additionnelles selon un rapport dans le temps avec une succession de valeurs d'empreinte de référence comme informations d'empreinte de référence,
dans lequel l'extracteur (9) est réalisé de manière à déterminer pour un bloc de données multicanal additionnelles, sur base du rapport dans le temps, une valeur d'empreinte associée;
dans lequel le générateur d'empreinte (11) est réalisé de manière à déterminer pour une succession de blocs de l'au moins un canal de base, comme informations d'empreinte de test, une succession de valeurs d'empreinte de test;
dans lequel le synchronisateur (13) est réalisé de manière à calculer, sur base d'un décalage (30) entre la succession de valeurs d'empreinte de test et la succession de valeurs d'empreinte de référence, un décalage entre les blocs d'informations multicanal additionnelles et les blocs de l'au moins un canal de base, et à compenser le décalage par temporisation (28) de la succession de blocs des données multicanal additionnelles à l'aide du décalage calculé.

20. Dispositif selon l'une des revendications 17 à 19,
dans lequel le générateur d'empreinte (11) est réalisé de manière à effectuer une quantification de valeurs d'empreinte, pour obtenir les informations d'empreinte de test.

21. Dispositif selon l'une des revendications 17 à 20,
dans lequel le générateur d'empreinte (11) est réalisé de manière à moduler les valeurs d'empreinte par une information de modulation du flux de données.

22. Dispositif selon l'une des revendications 17 à 21,
dans lequel sont présents au moins deux canaux de base, et
dans lequel le générateur d'empreinte (11) est réalisé de manière à additionner les au moins deux canaux de base par valeur de balayage ou par valeur spectrale ou à les élever au carré avant addition.

23. Dispositif selon l'une des revendications 17 à 22,
dans lequel le générateur d'empreinte (11) est réalisé de manière à utiliser comme informations d'empreinte des données sur une courbe enveloppante d'énergie de l'au moins un canal de base.

24. Dispositif selon l'une des revendications 17 à 23,
dans lequel le générateur d'empreinte (11) est réalisé de manière à utiliser comme informations d'empreinte des données sur une courbe enveloppante d'énergie de l'au moins un canal de base, et
dans lequel le générateur d'empreinte (11) est par ailleurs réalisé de manière à utiliser une limitation à un minimum de l'énergie et à fournir une représentation logarithmique d'une énergie limitée à un minimum.

25. Dispositif selon l'une des revendications 17 à 24, dans lequel le flux de données est organisé par bloc et dans un bloc du flux de données sont contenus un bloc d'informations multicanal additionnelles et une empreinte de bloc,
dans lequel le générateur d'empreinte (11) est réalisé de manière à calculer comme information d'empreinte de test une différence entre deux empreintes de bloc de l'au moins un canal de base, et
dans lequel l'extracteur d'empreinte (9) est par ailleurs réalisé de manière à calculer une différence entre deux empreintes de bloc dans le flux de données et à la fournir comme informations d'empreinte de référence au synchronisateur (13).

26. Dispositif selon l'une des revendications 17 à 25,
dans lequel le synchronisateur (13) est réalisé de manière à calculer, en parallèle avec une sortie audio, un décalage entre les données multicanal additionnelles et l'au moins un canal de base et à compenser le décalage de manière adaptative.

27. Dispositif selon la revendication 18, qui est par ailleurs réalisé de manière à reproduire, lorsqu'il n'est pas encore présent de données multicanal additionnelles synchronisées, l'au moins un canal de base et, lorsque des données multicanal additionnelles synchronisées sont présentes, à commuter d'une reproduction mono ou stéréo de l'au moins un canal de base à une reproduction multicanal (32).

28. Dispositif selon l'une des revendications 17 à 27, qui est réalisé de manière à obtenir le flux de données et l'au moins un canal de base par des trains binaires séparés l'un de l'autre qui sont reçus par deux canaux logiques ou canaux physiques différents l'un de l'autre, ou qui sont reçus par le même canal de transmission, toutefois actif à des moments différents.

29. Procédé pour générer un flux de données pour une reconstruction multicanal d'un signal audio multicanal original, le signal audio multicanal ayant au moins deux canaux, aux étapes suivantes consistant à:

générer (2) des informations d'empreinte à partir d'au moins un canal de base dérivé du signal audio multicanal original, un nombre de canaux de base étant supérieur ou égal à 1 et inférieur à un nombre de canaux du signal audio multicanal original, les informations d'empreinte reproduisant une évolution dans le temps de l'au moins un canal de base; et

générer (4) un flux de données à partir des informations d'empreinte et d'informations multicanal additionnelles variables dans le temps qui permettent, ensemble avec l'au moins un canal de base, la reconstruction multicanal du signal audio multicanal original, le flux de données étant généré de sorte que du flux de données puisse être dérivé un rapport dans le temps entre les informations multicanal additionnelles et les informations d'empreinte.

30. Procédé pour générer une représentation multicanal (18, 20) d'un signal audio multicanal original à partir d'au moins un canal de base et d'un flux de données présentant des informations d'empreinte reproduisant une évolution dans le temps de l'au moins un canal de base et des informations multicanal additionnelles permettant, ensemble avec l'au moins un canal de base, la reconstruction multicanal du signal audio multicanal original, du flux de données pouvant être dérivé un rapport entre les informations multicanal additionnelles et les informations d'empreinte, aux étapes suivantes consistant à:

générer (11) des informations d'empreinte de test à partir de l'au moins un canal de base;

extraire (9) les informations d'empreinte du flux de données, pour obtenir des informations d'empreinte de référence; et

synchroniser (13) les informations multicanal additionnelles et l'au moins un canal de base à l'aide des informations d'empreinte de test, des informations d'empreinte de référence et d'un rapport dérivé du flux de données entre les informations multicanal et les informations d'empreinte contenues dans le flux de données, pour obtenir une représentation multicanal synchronisée.

31. Programme d'ordinateur avec un code de programme pour réaliser le procédé selon la revendication 29 ou la revendication 30 lorsque le code de programme est exécuté sur un ordinateur.

32. Flux de données présentant des informations d'empreinte reproduisant une évolution dans le temps d'au moins un canal de base dérivé d'un signal audio multicanal original, un nombre de canaux de base étant supérieur ou égal à 1 et inférieur à un nombre de canaux du signal audio multicanal original, et des informations multicanal additionnelles permettant, ensemble avec l'au moins un canal de base, la reconstruction multicanal du signal audio multicanal original, du flux de données pouvant être dérivé un rapport entre les informations multicanal additionnelles et les informations d'empreinte.

33. Flux de données selon la revendication 32, présentant des signaux de commande pour générer une représentation multicanal synchronisée du signal audio multicanal original lorsque le flux de données est alimenté vers le dispositif selon la revendication 17.

Zeichnung

Angeführte Verweise

IN DER BESCHREIBUNG AUFGEFÜHRTE DOKUMENTE

Diese Liste der vom Anmelder aufgeführten Dokumente wurde ausschließlich zur Information des Lesers aufgenommen und ist nicht Bestandteil des europäischen Patentdokumentes. Sie wurde mit größter Sorgfalt zusammengestellt; das EPA übernimmt jedoch keinerlei Haftung für etwaige Fehler oder Auslassungen.

In der Beschreibung aufgeführte Patentdokumente

In der Beschreibung aufgeführte Nicht-Patentliteratur

J. HerreC. FallerS. DischC. ErtelJ. HilbertA. HoelzerK. LinzmeierC. SprengerP. KroonSpatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi-Channel Audio117th. AES Convention, San Francisco, 2004, [0002]
J. HerreK.H. BrandenburgD. LedererIntensity Stereo Coding, [0006]
T. FallerF. BaumgarteBinaural Cue Coding applied to stereo and multichannel audio compression, 2002, [0008]
T. FallerF. BaumgarteBinaural Cue Coding. Part II: Schemes and ApplicationsIEEE Trans. On Audio and Speech Proc., 2003, vol. 11, 6 [0013]