| (19) |
 |
|
(11) |
EP 1 318 502 B1 |
| (12) |
EUROPÄISCHE PATENTSCHRIFT |
| (45) |
Hinweis auf die Patenterteilung: |
|
09.06.2010 Patentblatt 2010/23 |
| (22) |
Anmeldetag: 05.11.2002 |
|
| (51) |
Internationale Patentklassifikation (IPC):
|
|
| (54) |
Verfahren zur Audiocodierung
Method for coding audio
Méthode pour le codage de signal audio
|
| (84) |
Benannte Vertragsstaaten: |
|
AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LI LU MC NL PT SE SK TR |
| (30) |
Priorität: |
08.11.2001 DE 10154932
|
| (43) |
Veröffentlichungstag der Anmeldung: |
|
11.06.2003 Patentblatt 2003/24 |
| (73) |
Patentinhaber: Grundig Multimedia B.V. |
|
1077 ZX Amsterdam (NL) |
|
| (72) |
Erfinder: |
|
- Schulz, Donald, Dr.
65843 Sulzbach (DE)
|
| (74) |
Vertreter: LOUIS, PÖHLAU, LOHRENTZ |
|
Postfach 3055 90014 Nürnberg 90014 Nürnberg (DE) |
| (56) |
Entgegenhaltungen: :
EP-A- 1 098 298 WO-A-98/57436
|
EP-A- 1 107 232
|
|
| |
|
|
|
|
| |
|
| Anmerkung: Innerhalb von neun Monaten nach der Bekanntmachung des Hinweises auf die
Erteilung des europäischen Patents kann jedermann beim Europäischen Patentamt gegen
das erteilte europäischen Patent Einspruch einlegen. Der Einspruch ist schriftlich
einzureichen und zu begründen. Er gilt erst als eingelegt, wenn die Einspruchsgebühr
entrichtet worden ist. (Art. 99(1) Europäisches Patentübereinkommen). |
[0001] Die Erfindung betrifft ein Verfahren zur Audiocodierung gemäss den Merkmalen des
Oberbegriffes der Ansprüche 1 und 14.
[0002] Bei der Wiedergabe von Filmton und Musiksignalen wird versucht, die Abbildung des
Klanges mit der Position der Entstehung in Einklang zu bringen. Bei reinen Musiksignalen
wird schon eine gute Approximation durch Verwendung von Stereolautsprechern erreicht.
Will man allerdings bei Musikstücken einen anderen Raumeindruck erzielen, beispielsweise
den eines Jazz-Clubs, so reichen diese zwei Lautsprecher kaum aus. Insbesondere bei
Filmmaterial sind mehr Kanäle wünschenswert, da auch akustische Effekte, die von hinten
kommen, wiedergegeben werden sollen.
[0003] Eines der bekanntesten Verfahren hierfür ist das sogenannte "Dolby Pro Logic" Verfahren,
welches bei Filmmaterial im wesentlichen dazu eingesetzt wird, die Lokalisation des
Klanges beeinflussen zu können. So werden Sprecher üblicherweise auf den Center-Kanal
abgebildet und Geräusche können ausschließlich aus den hinteren Lautsprechern kommen.
Weiterhin gibt es eine ganze Klasse von Verfahren, die zur Nachbildung von Raumakustiken
verwendet werden. Häufig anzutreffende Bezeichnungen derartiger Verfahren lauten "Hall",
"Stadium", "Jazz", "Club" etc.. Bei diesen auf Musiksignale optimierten Verfahren
ist es nicht erwünscht, Sprachsignale (Gesang) nur aus dem Center-Lautsprecher zu
vernehmen oder ein Musiksignal nur aus den hinteren Lautsprechern auszugeben, welches
unter Verwendung des "Dolby Pro Logic" Verfahrens möglich ist.
Bei dem Nachfolgeverfahren von Dolby Pro Logic, welches Dolby Pro Logic II genannt
wurde, ist abgesehen von dem Filmmodus ein Modus für Musik vorgesehen, der diese Unterschiede
berücksichtigt.
[0004] Aus
EP 0 481 374 B1 ist ein Verfahren zum Kodieren von Sprache bekannt. Hierbei wird eine diskrete Umformung
eines Sprachfensters vorgenommen, um ein diskretes Spektrum von Koeffizienten zu erhalten.
Eine angenäherte Einhüllenden des diskreten Spektrums wird in jedem einer Vielzahl
von Unterbändern errechnet und zum digitalen Kodieren der definierten Einhüllenden
eines jeden Unterbands verwendet. Innerhalb von Subbändern wird jeder skalierte Koeffizient
in eine Anzahl von Bits mit mindestens einem von einer Vielzahl von Quantisierern
unterschiedlicher Bitlängen umgerechnet. Der für jedes Unterband benutzte Ouantisierer
wird für jedes Sprachfenster durch Berechnen der Zuweisung von Bits als eine Anzahl
von Bits größer als oder gleich Null bestimmt, in Abhängigkeit einer Leistungsdichteabschätzung
für das Unterband und einer Verzerrungsfehlerabschätzung für das Sprachfenster.
[0005] Aus
EP 0 587 733 B1 ist ein Signalanalysesystem zur Filterung von einem ein oder mehrere Signale repräsentierenden
Eingangsabtastwert bekannt. Es sind Eingangspuffermittel zum Gruppieren der Eingangsabtastwerte
in Zeitbereichs-Signalabtastwertblöcke vorgesehen. Die Eingangsabtastwerte sind analysefenster-gewichtete
Abtastwerte. Außerdem sind Analysemittel zur Erzeugung von Spektralinformation als
Antwort auf die Zeitbereichs-Signalabtastwertblöcke vorhanden; wobei die Spektralinformation
Spektralkoeffizienten umfaßt, die im wesentlichen einer geradzahlig gestapelten Zeitbereichs-Aliasingaufhebungs-Transformation
angewendet auf die Zeitbereichs-Signal-Abtastwertblöcke entspricht. Bei den Spektralkoeffizienten
handelt es sich im wesentlichen um Koeffizienten einer modifizierten diskreten Cosinus-Transformation
bzw. Koeffizienten einer modifizierten diskreten SinusTransformation. Die Analysemittel
umfassen Vorwärts-Vor-Transformationsmittel zur Erzeugung modifizierter Abtastwertblöcke
und Vorwärts-Transformationsmittel zur Erzeugung von Frequenzbereichs-Transformationskoeffizienten.
[0006] Aus
EP 0 664 943 B1 ist eine Kodiervorrichtung zur adaptiven Verarbeitung von Audiosignalen für das Kodieren,
Übertragen oder Speichern und Wiedergewinnen bekannt, wobei der Rauschpegel mit dem
Signalamplitudenpegel schwankt. Es ist eine Verarbeitungseinrichtung vorhanden, welche
auf Eingangssignale derart anspricht, daß sie entweder ein erstes und ein zweites
Signal oder die Summe und Differenz des ersten und zweiten Signals ausgibt. Das erste
und zweite Signal entsprechen den beiden matrixkodierten Audiosignalen einer vier
zu zwei Audiosignalmatrix, wobei die Verarbeitungseinrichtung auch ein Steuersignal
erzeugt, welches anzeigt, ob das erste und zweite Signal oder die Summe und Differenz
des ersten und zweiten Signals ausgegeben wird.
[0007] Aus
EP 0 519 055 B1 ist ein Decoder, bestehend aus einem Empfangsmittel zum Empfang einer Mehrzahl von
Lieferkanälen formatierter Information, Deformatierungsmitteln zur Erzeugung ansprechend
auf die Empfangsmittel, einer deformatierten Darstellung abhängig von jedem Lieferkanal,
und Synthesemittel zur Erzeugung von Ausgangssignalen abhängig von den deformatierten
Darstellungen, bekannt. Zwischen den Deformatierungsmitteln und den Synthesemitteln
sind Verteilermittel angeordnet, welche auf die Deformatierungsmittel ansprechen und
einen oder mehrere Zwischensignale erzeugen, wobei wenigstens ein Zwischensignal durch
Kombination der Information von zwei oder mehr der deformatierten Darstellungen erzeugt
wird. Die Synthesemittel erzeugen ein jeweiliges Ausgangssignal als Antwort auf jedes
der Zwischensignale.
[0008] Aus
EP 0 520 068 B1 ist ein Kodierer zum Kodieren von zwei oder mehr Audiokanälen bekannt. Der Kodierer
weist eine Teilbandeinrichtung zum Erzeugen von Teilbandsignalen, eine Mischeinrichtung
zum Schaffen eines oder mehrerer zusammengesetzter Signale, und Mittel zum Erzeugen
von Steuerinformation für ein entsprechendes zusammengesetztes Signal auf. Außerdem
weist der Kodierer eine Kodiereinrichtung zum Erzeugen kodierter Information durch
Zuteilen von Bits zu dem einen oder mehreren zusammengesetzten Signalen auf. Es ist
weiterhin eine Formatiereinrichtung zum Zusammensetzen der kodierten Information und
der Steuerinformation zu einem Ausgabesignal vorhanden.
[0009] Aus
EP 0 208 712 B1 ist ein Sprachkodierer bekannt. Dieser Sprachkodierer enthält eine Fourier-Transformationseinrichtung
zur Ausführung einer diskreten Fourier-Transformation eines ankommenden Sprachsignals
zur Erzeugung eines diskreten Transformationsspektrums von Koeffizienten, eine Normierungseinrichtung
zum Modifizieren des Transformationsspektrums zur Erzeugung eines normierten, flacheren
Spektrums und zum Codieren einer Funktion, durch die das diskrete Spektrum modifiziert
wird. Außerdem ist eine Einrichtung zum Codieren wenigstens eines Teils des Spektrums
vorhanden. Die Normierungseinrichtung weist eine Einrichtung (44) zum Definieren der
approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern
von Koeffizienten und zum Codieren der definierten Einhüllenden eines jedes Unterbandes
von Koeffizienten und Einrichtungen zum Skalieren jedes Spektrumkoeffizienten relativ
zur definierten Einhüllenden des betreffenden Unterbandes von Koeffizienten auf.
[0010] Aus Dokument
EP1107232 ist ein Verfahren zur Codierung von Audiosignalen bekannt, wobei mehrere Audiosignale
mit einem an und für sich bekannten Kompressionsverfahren komprimiert werden, wobei
die Kompressionsfaktoren so gewählt werden, dass die maximal zulassige Datenrate nicht
überschritten wird, sowie Informationen über die Art der Quelle sowie Positionsinformation,
die angibt, wo sich das Objekt in Bezug auf den Betrachter befindet, beigefügt werden.
[0011] Als weitere allgemein bekannte Verfahren zur Verbesserung dieses Problems wurden
dann die Verfahren Dolby Digital (auch bekannt unter dem Namen AC3) und DTS eingeführt,
welche die Wiedergabe von 6 unterschiedlichen Kanälen gestatten. Trotzdem damit ein
rechter und ein linker hinterer separater Kanal möglich sind, war dies für eine perfekte
Wiedergabe immer noch nicht genug, daher wurden diese Verfahren durch Matrizierung
wieder so erweitert, dass ein zusätzlicher hinterer Centerkanal möglich ist. Mit DTS-ES
DISCRETE wurde dann auf die Matrizierung verzichtet und ein echter siebter Audiokanal
übertragen. THX-EX erzeugt mittlerweile 8 Kanäle und bei AAC sind sogar über 100 separate
Audiokanäle möglich.
[0012] Aus ISO/IEC JTC 1/SC 29/WG11 (MPEG 4 Structured Audio) ist ein Verfahren bekannt,
welches für die synthetische Erzeugung von Musiksignalen die Möglichkeit bietet, den
künstlich erzeugten Musikinstrumenten eine Positionsinformation sowie einen oder mehrere
Effekte zuzuweisen. Es ist auch möglich, Samples derart zu integrieren.
[0013] Nachteilig bei MPEG 4 Structured Audio ist, dass es für die Echtzeitübertragung über
einen Kanal mit begrenzter Datenrate nicht geeignet ist, da keine obere Begrenzung
für die Datenrate und die Rechenleistung vorgesehen ist. Auch die Beschränkung auf
Samples, welche normalerweise nur kurzen Klangstücken entsprechen und die auch schon
dem Wiedergabegerät zu dem Zeitpunkt komplett bekannt sein müssen, wenn deren abspielen
beginnt stellt ein Problem dar. Weiterhin ist eine Synchronisation schwierig, soll
mit dem Abspielen an einer bestimmten Stelle begonnen werden so ist es eventuell nötig,
die Datei komplett von Anfang an zu berechnen. Einer Anwendung bei Filmmaterial wiederspricht
auch das Fehlen einer Kompression der Samples, welche dadurch unnötig viel Datenspeicher
benötigen. Die Angabe der Winkel der Schallquellen alleine reicht auch nicht aus,
um immer eine gute Zuordnung der Schallquellen zum Bildmaterial zu erreichen, da das
Bildmaterial durch verschiedene Projektionstechniken unterschiedliche Größen und Entfernungen
zum Beobachter aufweisen kann. Ist am linken Bildrand ein Sprecher zu sehen, so sollte
dessen Sprache in einem Kino auch aus den linken Lautsprechern wiedergegeben werden,
bei einer Darstellung über einen 5 Meter entfernten Fernseher mit 72 cm Bildschirmdiagonale
macht es aber mehr Sinn, die Sprache auch auf dem mittleren Lautsprecher auszugeben,
da dann auch dort der Sprecher zu sein scheint.
[0014] Nachteilig bei allen bekannten Erfindungen bezüglich der Audiodatenkompression ist,
dass aufgrund der Fixierung der Positionen der Klangquellen eine hohe Anzahl an Audikanälen
zur Nachbildung des gewünschten Klangfeldes benötigt wird. Dies verursacht eine hohe
Datenmenge, die sowohl bei Speichermedien als auch bei der Übertragung unerwünscht
ist. Weiterhin ist die Möglichkeit der Nachbildung von Raumakustiken durch die Fixierung
der Lautsprecherpositionen eingeschränkt.
[0015] Beispielsweise ist bei Dolby Digital und DTS kein Deckenlautsprecher vorgesehen,
der von oben kommende Klänge nachbilden könnte.
[0016] Aufgabe der Erfindung ist es, ein Verfahren anzugeben, welches eine effiziente Codierung
von mehreren Audiosignalen unter Berücksichtigung des zugehörigen Klangfeldes ermöglicht.
[0017] Die vorliegende Erfindung löst diese Aufgabe durch die Merkmale der Ansprüche 1 und
14. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen
Ansprüchen, der zugehörigen Beschreibung nebst Figur 1 angegeben.
[0018] Die vorliegende Erfindung löst die Aufgabe dadurch, dass die zu einem Klangfeld gehörenden
Klangquellen zuerst einzeln mit einem herkömmlichen Kompressionsverfahren, beispielsweise
AC3, MP3, AAC, WMA, usw. komprimiert werden. Bei einer Überschreitung einer maximal
erlaubten Datenrate wird eine Zusammenfassung von Klangquellen oder eine stärkere
Kompression zur Verringerung der Datenrate durchgeführt. Jeder dieser Klangquellen
werden Informationen über deren Art sowie eine Positionsinformation hinzugefügt, die
angibt, wo sich das Objekt in Bezug auf den Betrachter befindet. Informationen über
die Eigenschaften des nachzubildenden Raumes sowie über die aktuellen horizontalen
und vertikalen Sichtwinkel werden übertragen. Basierend auf den Positionsinformationen
und Informationen über die Quellen, den Informationen über die Eigenschaften des nachzubildenden
Raumes, den aktuellen horizontalen und vertikalen Sichtwinkeln sowie über der Größe
und Position des Bildes des Wiedergabegerätes werden dann Nachbearbeitungen und Abbildungen
der einzelnen Quellen auf die vorhandenen Lautsprecher oder ein Kopfhörersignal durchgeführt.
[0019] Betrachtet man natürliche Klangfelder, so stellt man fest, dass das menschliche Gehör
diese derart analysiert, dass eine Aufteilung in verschiedene Klangquellen sowie deren
Charakteristiken stattfindet und zudem die Eigenschaft des Raumes, in welchem die
akustische Wiedergabe erfolgt, ausgewertet wird. Die Aufteilung der Klangquellen erfolgt
in erster Linie durch Auswertung der spektralen Zusammensetzung und der Position der
Schallquelle. Laufzeitunterschiede und die richtungsabhängige Frequenzempfindlichkeitskurve
des Gehörs haben nur einen geringen Einfluss auf die Aufteilung. Eine gute Approximation
vieler Klangfelder kann schon erreicht werden, wenn zwei Sprachkanäle sowie zwei Effektkanäle
zur Verfügung stehen. Damit kann die Kommunikation zweier Personen sowie diverse Umgebungsgeräusche
(beispielsweise vorbeifahrende Autos) erfasst und nachgebildet werden.
[0020] Erfindungsgemäß werden die von verschiedenen Klangquellen erzeugten Audiodaten in
der Art und Weise codiert, dass Klangquellen zusammengefasst werden, die für das Gehör
gleiche Eigenschaften besitzen und diese dann mit einer Positionsinformation, einer
Information über die Art des Kanales (Gesang, Hintergrundgeräusch, Sprache...) sowie
einer Information über eventuell mögliche Effekte (Hall, Dynamikkompressor) versehen
werden. Diese Informationen werden kontinuierlich übertragen. Bei der Wiedergabe kann
über die Art des Kanales eine Nachbearbeitung erfolgen, in der dann z.B. für Hintergrundgeräusche
dieses Signal mehrfach dekorreliert und auf die Lautsprecher ausgegeben wird. Es wird
jeder Signalart ein individueller Nachverarbeitungsalgorithmus zugeordnet. Eine vorteilhafte
Implementierung ergibt sich, wenn zusätzlich noch zu jeder Klangquelle eine Information
über deren Abstrahlcharakteristik, wie kugelförmig, nierenförmig etc., übertragen
wird. Eine weitere vorteilhafte Implementierung ergibt sich, wenn zusätzlich noch
Informationen über die gewünschte Raumcharakteristik (z.B. Badezimmer, Kathedrale,
usw.), Parameter (z.B. Hallzeit) bzw. direkt algorithmische Beschreibungen zur Erzielung
dieser Klangeindrücke sowie Eigenschaften der einzelnen Schallquellen (wie z.B. Sprache
oder Musik oder Effekt) mitübertragen werden. Als Parameter zur Beschreibung der Raumcharakteristik
sind z.B. die Raumgeometrie und die Raumabsorptionseigenschaften zu übertragen. Ein
Wohnzimmer mit Gardinen und Teppichböden schluckt nämlich den Schall viel stärker
als ein Badezimmer oder eine Kirche.
Ist ein Wiedergabegerät nicht leistungsfähig genug, diese Daten auszuwerten, so ignoriert
es eben diese Zusatzdaten bei der Wiedergabe.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich, wenn zusätzlich
noch Eigenschaften über den Sichtwinkel übertragen werden, d.h. dass man aus den Winkeln
der Klangquelle und diesen Sichtwinkeln direkt schließen kann, ob das dazugehörige
Objekt im Bild sichtbar ist. Dies ist dann der Fall, wenn der horizontale Winkel des
Objektes innerhalb des horizontalen Sichtwinkelbereiches und der vertikale Winkel
des Objektes innerhalb des vertikalen Sichtwinkelbereiches liegt. Der Sichtwinkel
ist dabei wie auch die Position der Objekte auf den Betrachter der Orginalszene bezogen.
Der Sichtwinkel kann sich laufend ändern, daher wird dieser vorteilhafterweise zu
jedem einzelnen Bild übertragen. Basierend auf dem Winkel des Objektes, des Sichtwinkels
sowie der Position und Größe des projezierten Bildes wird dann ein virtueller Winkel
bezogen auf die Abhörposition ermittelt. Damit beim Verlassen von Objekten aus dem
Sichtwinkelbereich kein abrupter Sprung stattfindet, wird dort vorteilhafterweise
eine nichtlineare Abbildung verwendet. So kann z.B. der bei kleinen Bildschirmen geschrumpfte
Winkelbereich durch eine Streckung des restlichen Winkelbereiches ausgeglichen werden.
Eine vorteilhafte Ausgestaltungung ergibt sich, wenn die Stärke der Stauchung/Streckung
durch den Anwender einstellbar ist.
[0021] Durch die Erfindung wird
- eine wesentlich realistischere Audiodarbietung erreicht;
- die Ausnutzung der vorhandenen Kanäle wesentlich verbessert, somit wird bei DVDs Kapazität
und bei Broadcast-Verfahren Bandbreite gespart;
- bei Hinzufügung der Klangeffekte im Endgerät bei der Codierung der unverfälschten
Originalsignale eine wesentlich geringere Datenrate benötigt, dies gibt eine zusätzliche
Datenratenersparnis;
- die Kanalabbildung wesentlich verbessert, ein überfliegender Hubschrauber kann mit
nur einem Kanal perfekt nachgebildet werden;
- das System abwärtskompatibel gehalten, die Wiedergabe anderer Standards kann durch
Annahme der Positionen der Klangquellen auf die dabei üblichen Aufstellungspositionen
der Lautsprecher erfolgen; es muss die vom Kunden gewählte Lautsprecherkonstellation
nicht modifiziert werden;
- die Aufstellungspositionen der Lautsprecher nicht vorgegeben und kann beliebig sein,
die Lautsprecher müssen dem System nur bekannt gemacht werden; das System berechnet
dann, auf welchen Lautsprechern es bestimmte Kanäle am geeignetesten ausgibt; so ist
es möglich, die räumlichen Gegebenheiten perfekt auszunutzen;
- eine bessere Anpassung an verschiedene Bildformate bei der Wiedergabe erreicht, Klangquellen
zu im Bildbereich gehörenden Objekten können klanglich auch dorthin fokussiert werden.
Außerdem ist die Anzahl an aufgestellten Lautsprechern theoretisch unbegrenzt, sie
ist nur begrenzt durch die Anzahl an Verstärkerkanälen und durch die Rechenleistung
des Systems. Ein Nutzer kann nachträglich ohne großen Aufwand und Probleme zwei seitliche
Lautsprecher nachrüsten oder einen Deckenlautsprecher entfernen.
Schließlich ist die zur Übertragung der Zusatzinformationen benötigte Datenmenge gegenüber
der Datenmenge zur Codierung der einzelnen Audiokanäle vernachlässigbar gering.
[0022] Im Weiteren wird die Erfindung anhand eines konkreten Ausführungsbeispieles FIG 1
beschrieben.
Das Ausführungsbeispiel zeigt eine erfindungsgemäße Vorrichtung. Die erfindungsgemäße
Vorrichtung weist die Audiosignaleingänge A1 bis An auf. Über die Eingänge I1 bis
In werden zu den n Audiosignalen Informationen zu der Position und die Eigenschaften
des entsprechenden Audiosignales übertragen. Über den Eingang SF werden die horizontalen
und vertikalen Sichtwinkel sowie die Eigenschaft des nachzubildenden Raumes eingespeist.
Die eingehenden Audiosignale werden in den Vorrichtungen K1 bis Kn in der Datenrate
zu den Signalen C1 bis Cn komprimiert. Die Datenströme C, I und SF werden dann in
der Vorrichtung MX zu einem einzelnen Datenstrom US zusammengemischt. Der Datenstrom
US kann dann entweder im Broadcasting-Format übertragen werden oder auch auf einem
Speichermedium zwischengespeichert werden. Zur Ausgabe wird dieser Datenstrom dann
auf eine Vorrichtung DX gegeben, die daraus wieder die Datenströme C1 bis Cn regeneriert
sowie ISF1 bis ISFn erzeugt. ISFi entspricht dabei dem Datenstrom li, dem noch SF
hinzugefügt ist. Die komprimierten Datenströme C1 bis Cn werden in den Vorrichtungen
D1 bis Dn dekomprimiert. Die einzelnen dekomprimierten Datenströme werden dann jeweils
zusammen mit ihrem zugehörigen Datenstrom ISFi sowie dem Signal BP auf die Vorrichtungen
R1 bis Rn gegeben. Das Signal BP entspricht dabei einer Information über das Bildformat,
der Position des Wiedergabegerätes sowie den vom Kunden gewählten Parametern zur Wiedergabe.
In den Vorrichtungen Ri erfolgt dann eine Abbildung der dekodierten Audiosignale auf
die Summensignale S1 bis Sk unter Berücksichtigung der in BP und ISFi vorhandenen
Parameter. Die Anzahl der Summensignale k entspricht dabei der vom Kunden installierten
Anzahl an Lautsprechern. Die von den einzelnen Vorrichtungen Ri erzeugten Summensignale
S werden summiert und dann auf die Lautsprecher L1 bis Lk ausgegeben.
Bezugszeichenliste
[0023]
- A
- Audiosignaleingang
- BP
- Information über Bildformat, Position der Klangquelle und Kundenparameter
- C
- Komprimierte Audiosignale
- D
- Vorrichtung zur Dekompression einzelner Audiosignale
- DX
- Vorrichtung zur Aufspaltung des Datenstromes
- I
- Eingang für Informationen zu einem Audiosignal
- ISF
- Information zu einem Audiosignal sowie Informationen über die Sichtwinkel der Klangquelle
- K
- Vorrichtung zur Kompression einzelner Audiosignale
- L
- Lautsprecherausgangssignal
- MX
- Vorrichtung zur Zusammenmischung einzelner Datenströme
- R
- Vorrichtung zur Abbildung eines Audiosignales auf die Lautsprechersignale
- S
- Summenkanäle für die Lautsprecher
- SF
- Informationen über die Sichtwinkel der Klangquellen
- US
- Übertragungsstrecke
1. Verfahren zur Codierung von Audiosignalen, wobei mehrere Audiosignale (A(1)-A(n))
mit einem an und für sich bekannten Kompressionsverfahren (K) komprimiert werden,
dadurch gekennzeichnet, dass
ähnliche zu einem Klangfeld gehörende Klangquellen so zusammengefasst
und die Kompressionsfaktoren so gewählt werden, dass die maximal zulässige Datenrate
nicht überschritten wird,
zu jeder dieser zusammengefassten Klangquellen Informationen über die Art der Quelle
sowie Positionsinformation, die angibt, wo sich das Objekt in Bezug auf den Betrachter
befindet, beigefügt werden.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, dass
Informationen über die Eigenschaften des nachzubildenden Raumes sowie Informationen
über die aktuellen horizontalen und vertikalen Sichtwinkel in den erzeugten Datenstrom
eingefügt werden.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, dass
im Wiedergabegerät die Größe und Position der Bildprojektion ausgewertet und basierend
darauf auf den Eigenschaften des nachzubildenden Raumes, auf den Informationen über
die aktuellen horizontalen und vertikalen Sichtwinkeln sowie den Positionsinformationen
und Informationen über die Arten und Abstrakteigenschaften der Quellen eine Abbildung
der Klangquellen auf die vorhandenen Lautsprecher durchgeführt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet, dass
zur Codierung das AC3-Verfahren, das DTS - Verfahren oder das MP3-Verfahren, oder
das AAC-Verfahren, das WMA-Verfahren oder ein ähnliches Verfahren angewendet wird.
5. Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet, dass
die Informationen über die Art der Quelle in Form von Algorithmen oder Parametern
zu vorgegebenen Algorithmen angegeben wird.
6. Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet, dass
die Informationen über die Eigenschaften des nachzubildenden Raumes in Form von Algorithmen
oder Parametern zu vorgegebenen Algorithmen angegeben wird.
7. Verfahren nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet, dass
eine Wiedergabe über Kopfhörer oder über Lautsprecher erfolgt.
8. Verfahren nach einem der Ansprüche 1 bis 7,
dadurch gekennzeichnet, dass
jeder Klangquelle eine Information über deren Abstrahleigenschaften zugewiesen werden
kann
9. Verfahren nach Anspruch 8,
dadurch gekennzeichnet, dass
die Abstrahleigenschaften kugelförmig, kegelförmig, flächenförmig oder nierenförmig
sind.
10. Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet, dass
im Wiedergabegerät die Eigenschaften des Abhörraumes, d.h. des Raumes in dem die Lautsprecher
aufgestellt werden, einstellbar sind und/oder durch Messungen bestimmt werden können
und diese bei der Wiedergabe berücksichtigt werden.
11. Verfahren nach Anspruch 10,
dadurch gekennzeichnet, dass
die Eigenschaften des Abhörraumes durch die Geometrie des Raumes und Beschaffenheit
der Wände und des Bodens vorgegeben werden.
12. Verfahren nach einem der Ansprüche 1 bis 11,
dadurch gekennzeichnet, dass
eine beliebige Anzahl an Lautsprechern zur Wiedergabe verwendbar ist.
13. Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet, dass
die Lautsprecherpositionen dem Wiedergabegerät bekannt gemacht werden, so dass die
bestmögliche Abbildung der einzelnen Kanäle auf die Lautsprecher vorgenommen wird.
14. Vorrichtung zur Durchführung des Verfahren nach einem oder mehreren der vorangehenden
Ansprüche.
1. Method for coding audio signals, wherein a plurality of audio signals (A(1)-A(n))
are compressed using an inherently and singularly known compression method (K),
characterized in that
similar sound sources associated with a sound field are combined such and the compression
factors chosen such that the maximum permissible data rate is not exceeded,
to each of these combined sound sources is added information about the type of the
source and also position information which indicates where the object is situated
in relation to the observer.
2. Method according to Claim 1,
characterized in that
information about the properties of the room to be recreated and also information
about the current horizontal and vertical viewing angles is inserted into the generated
data stream.
3. Method according to Claim 1 or 2,
characterized in that
the reproduction appliance evaluates the size and position of the image projection
and takes these, the properties of the room to be recreated, the information about
the current horizontal and vertical viewing angles and also the position information
and information about the types and abstract properties of the sources as a basis
for mapping the sound sources onto the available loudspeakers.
4. Method according to one of Claims 1 to 3,
characterized in that
the coding is performed using the AC3 method, the DTS method or the MP3 method, or
the AAC method, the WMA method or a similar method.
5. Method according to one of Claims 1 to 4
characterized in that
the information about the type of the source is indicated in the form of algorithms,
or parameters for prescribed algorithms.
6. Method according to one of Claims 1 to 4,
characterized in that
the information about the properties of the room to be recreated is indicated in the
form of algorithms or parameters for prescribed algorithms.
7. Method according to one of Claims 1 to 6,
characterized in that
reproduction is via headphones or via loudspeakers.
8. Method according to one of Claims 1 to 7,
characterized in that
each sound source can be assigned a piece of information about the radiation properties
thereof.
9. Method according to Claim 8,
characterized in that
the radiation properties are spherical, conical, planar or reniform.
10. Method according to one of Claims 1 to 9,
characterized in that
the properties of the listening room, i.e. the room in which the loudspeakers are
set up, can be adjusted and/or determined by measurements in the reproduction appliance
and are taken into account for the reproduction.
11. Method according to Claim 10,
characterized in that
the properties of the listening room are prescribed by the geometry of the room and
the nature of the walls and of the floor.
12. Method according to one of Claims 1 to 11,
characterized in that
an arbitrary number of loudspeakers can be used for the reproduction.
13. Method according to one of Claims 1 to 9,
characterized in that
the loudspeaker positions are made known to the reproduction appliance, so that the
individual channels are mapped onto the loudspeakers in the best possible manner.
14. Apparatus for performing the method according to one or more of the preceding claims.
1. Procédé de codage de signaux audio, dans lequel plusieurs signaux audio (A(1) à A(n))
sont comprimés par un procédé de compression connu en soi,
caractérisé en ce que
des sources sonores similaires, appartenant à un champ sonore, sont regroupées de
telle sorte et les taux de compression sont sélectionnés de telle sorte que le débit
de données admissible maximum ne soit pas dépassé,
à chacune de ces sources sonores regroupées, des informations concernant le type de
la source ainsi qu'une information de position indiquant où se trouve l'objet par
rapport à l'observateur sont ajoutées.
2. Procédé selon la revendication 1, caractérisé en ce que des informations concernant les caractéristiques de la pièce à émuler ainsi que des
informations concernant les angles de vision horizontaux et verticaux actuels sont
ajoutées dans le flux de données généré.
3. Procédé selon la revendication 1 ou 2, caractérisé en ce que dans l'appareil de reproduction, la dimension et la position de la projection d'image
sont évaluées, et sur cette base, sur les caractéristiques de la pièce à émuler, sur
les informations concernant les angles de vision horizontaux et verticaux actuels
ainsi que les informations de position et des informations concernant les types et
caractéristiques abstraites des sources, une représentation des sources sonores est
effectuée sur les haut-parleurs existants.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que pour le codage, le procédé AC3, le procédé DTS ou le procédé MP3 ou le procédé AAC,
le procédé WMA ou un procédé similaire est appliqué.
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que les informations concernant le type de la source sont indiquées sous la forme d'algorithmes
ou de paramètres pour des algorithmes spécifiés.
6. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que les informations concernant les caractéristiques de la pièce à émuler sont indiquées
sous la forme d'algorithmes ou de paramètres pour des algorithmes spécifiés.
7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'une reproduction est effectuée par l'intermédiaire d'un casque d'écoute ou de haut-parleurs.
8. Procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce que chaque source sonore peut se voir affecter une information concernant ses caractéristiques
de diffusion.
9. Procédé selon la revendication 8, caractérisé en ce que les caractéristiques de diffusion se présentent sous forme sphérique, conique, plane
ou de haricot.
10. Procédé selon l'une quelconque des revendications 1 à 9, caractérisé en ce que sur l'appareil de reproduction, les caractéristiques de la pièce d'écoute, c'est-à-dire
de la pièce dans laquelle sont placés les haut-parleurs, sont réglables et/ou peuvent
être déterminées par des mesures et que celles-ci sont prises en compte au moment
de la reproduction.
11. Procédé selon la revendication 10, caractérisé en ce que les caractéristiques de la pièce d'écoute sont spécifiées par la géométrie de la
pièce et la nature des murs et du sol.
12. Procédé selon l'une quelconque des revendications 1 à 11, caractérisé en ce qu'un nombre quelconque de haut-parleurs peut être utilisé pour la reproduction.
13. Procédé selon l'une quelconque des revendications 1 à 9, caractérisé en ce que les positions des haut-parleurs sont portées à la connaissance de l'appareil de reproduction
de sorte que la meilleure émulation possible des canaux individuels sur les haut-parleurs
soit effectuée.
14. Dispositif pour exécuter le procédé selon une ou plusieurs des revendications précédentes.

IN DER BESCHREIBUNG AUFGEFÜHRTE DOKUMENTE
Diese Liste der vom Anmelder aufgeführten Dokumente wurde ausschließlich zur Information
des Lesers aufgenommen und ist nicht Bestandteil des europäischen Patentdokumentes.
Sie wurde mit größter Sorgfalt zusammengestellt; das EPA übernimmt jedoch keinerlei
Haftung für etwaige Fehler oder Auslassungen.
In der Beschreibung aufgeführte Patentdokumente