[0001] Die vorliegende Erfindung bezieht sich auf die Codierung von Stereosignalen und insbesondere
auf die Anwendung skalierbarer Codierverfahren.
[0002] Skalierbare Codierverfahren zur Datenkompression von Audiosignalen haben den Vorteil,
dass die Übertragungsrate dynamisch an die Eigenschaften der Netzwerke und Endgeräte
angepasst werden kann. Eine Abstufung der Bitrate durch das Codierverfahren in kleinen
Schritten ist dabei besonders vorteilhaft.
[0003] Ein Stereosignal umfasst mindestens zwei Kanäle, einen linken Kanal und einen rechten
Kanal. Für eine datenreduzierende Codierung wird die Ähnlichkeit zwischen den beiden
Kanälen ausgenutzt. Ein bekanntes Verfahren zur Übertragung von Stereosignalen ist
das Mitte/Seite-Verfahren [
Michael Dickreiter, Handbuch der Tonstudiotechnik, Saur Verlag, 1997]. Dabei werden der linke und der rechte Kanal mit einander kombiniert, um einen Mitte-Kanal
und einen Seite-Kanal zu erzeugen. Der Mitte-Kanal wird aus der Summe des rechten
und linken Kanals gebildet, während der Seite-Kanal aus der Differenz des linken und
rechten Kanals entsteht. Als Gleichung dargestellt bedeutet das:
[0004] Der Faktor 0,5 ist eine in der Praxis übliche Größe und kann auch anders gewählt
werden. Die Rückgewinnung des rechten und des linken Kanals erfolgt dann aus der Beziehung
[0005] Wenn der linke Kanal und der rechte Kanal relativ ähnlich zueinander sind, so bringt
eine Mitte/Seite-Verarbeitung eine deutliche Einsparung der zum Codieren benötigten
Bitmenge, da der Seite-Kanal dann relativ weniger Energie als der linke oder rechte
Kanal aufweist und zur Codierung des Seite-Kanals wesentlich weniger Bits benötigt
werden. Im Grenzfall, bei dem der linke Kanal und der rechte Kanal identisch sind,
wird der Mitte-Kanal gleich dem linken Kanal oder gleich dem rechten Kanal sein, während
der Seite-Kanal 0 wäre. Je ähnlicher sich der linke und der rechte Kanal sind, desto
energieärmer wird der Seite-Kanal sein, und umso weniger Bits werden zur Codierung
des Seite-Kanals benötigt. Sind der rechte und der linke Kanal weniger ähnlich, geht
die Biteffizienz bei einer Mitte/Seite-Codierung entsprechend zurück.
[0006] Nach dem Stand der Technik erfolgt die Codierung der Stereosignale in der Regel mit
Verfahren, die die Audiosignale im Spektralbereich bearbeiten. Zunächst werden der
linke und rechte Kanal des Audiosignals, die in der Regel in Form von PCM-Abtastwerten
(Puls Code Modulation) vorliegen, aus dem Zeitbereich in den Frequenzbereich umgesetzt.
Für diese Transformation verwenden moderne Codierverfahren beispielsweise die sogenannte
Modifizierte Diskrete Cosinus-Transformation (MDCT), um eine blockweise Frequenzdarstellung
eines Audiosignals zu erhalten. Der Strom von zeitdiskreten Audio-Abtastwerten wird
gefenstert, um einen gefensterten Block von Audio-Abtastwerten zu erhalten, die dann
mittels einer Transformation in eine spektrale Darstellung umgesetzt werden. Für jedes
Zeitfenster erhält man eine entsprechende Anzahl von Spektralkoeffizienten. Durch
die Transformation wird das Frequenzspektrum in eine bestimmte Anzahl von Frequenzbändern
(Subbändern) gleicher Breite unterteilt. Die Anzahl der Transformationspunkte und
die Abtastrate bestimmen die Bandbreite der Subbänder. Diese Subbänder werden in Anlehnung
an Gehöreigenschaften in Gruppen zusammengefasst. Bei tiefen Frequenzen fallen wenige
Subbänder in eine Gruppe, bei hohen Frequenzen viele. Für jede Gruppe wird ein Skalierungsfaktor
bestimmt. Die Quantisierung der Spektralkoeffizienten erfolgt dann relativ zu diesen
Skalierungsfaktoren. Während der Codierung werden entsprechend der Zielbitrate den
Skalierungsfaktoren und den Transformationskoeffizienten Bits zugewiesen. Die Bit-Allokierung
erfolgt dabei derart, dass der entstehende Fehler möglichst wenig wahrgenommen werden
kann. Die Skalierungsfaktoren werden mit übertragen und sind erforderlich, damit es
dem Decodierer möglich ist, aus den übertragenen Bits das Original-Signal wieder rekonstruieren
zu können.
[0007] Bei einer Mitte/Seite-Codierung erfolgt für die Signale des linken und rechten Kanals
nach der Transformation in den Frequenzbereich mittels MDCT eine Matrizierung zur
Summen- und Differenzbildung. Die so gebildeten Mitte- und Seite-Signale werden anschließend
quantisiert. Die Quantisierung ist eine verlustbehaftete Codierung, da verfahrensbedingt
Quantisierungsfehler auftreten. Die Quantisierungsfehler führen dazu, dass die Signale
nach der Übertragung nicht mehr genau rekonstruiert werden können und ein unnatürliches
Stereoabbild entsteht.
[0008] Die Mitte/Seite-Codierung hat, neben der Daten-reduzierenden Wirkung auch den Effekt,
dass, wenn sich der linke und der rechte Kanal sehr ähnlich sind, der Quantisierungsfehler
sowohl im linken Kanal als auch im rechten Kanal mit dem Quantisierungsfehler des
jeweils anderen Kanals korreliert wird, so dass auch der Quantisierungsfehler in der
Mitte stattfindet und dort von dem Nutzsignal ein wenig bzw. wesentlich besser als
im unkorrelierten Fall verdeckt wird. Sobald aber der linke und rechte Kanal relativ
unähnlich sind, so wird aufgrund des Stereoeffekts das Nutzsignal entweder links oder
rechts sein, während der Quantisierungsfehler korreliert ist und eher in der Mitte
liegt.
[0009] Um bei der Codierung eine weitere Datenmengenreduktion zu erhalten, werden die quantisierten
Mitte/Seite-Signale anschließend im Sinne einer verlustfreien Codierung beispielsweise
mittels einer Huffinan-Codierung Entropie-codiert. Durch Hinzufügen weiterer Informationen,
wie beispielsweise Skalierungsfaktoren wird aus den quantisierten und Entropie-codierten
Mitte/Seite-Signalen mittels eines Bitstrom-Multiplexers ein Bitstrom gebildet, der
übertragen werden kann.
[0010] Skalierbare Codierverfahren sind für Stereosignale besonders vorteilhaft [
J. Li; Embedded Audio Coding (EAC) With Implicit Auditory Masking; ACM Multimedia
2002]. Skalierbare Codierverfahren sind so ausgebildet, dass der ausgangsseitige Bitstrom
zumindest eine erste und eine zweite Skalierungsschicht aufweist. Die erste Skalierungsschicht
kann sich von der zweiten Skalierungsschicht bzw. von einer beliebigen Anzahl weiterer
Skalierungsschichten im Audiocodierverfahren selbst, in der Audiobandbreite, in der
Audioqualität bezüglich Mono/Stereo oder in einer Kombination der genannten Qualitätskriterien
unterscheiden.
[0011] Skalierbare Audiocodierer für eine mehrkanalige Stereoübertragung sind häufig so
ausgelegt, dass für die erste Skalierungsschicht das Mono-Signal, d.h. das Mitte-Signal
verwendet wird, während in den weiteren Skalierungsschichten der Seite-Kanal eingebettet
wird. Ein Decodierer, der nur einfach ausgelegt ist, wird aus dem skalierten Bitstrom
lediglich die erste Skalierungsschicht entnehmen und ein Monosignal liefern. Ein Decodierer
für die Stereo-Wiedergabe verwendet neben der Mitte-Schicht auch die Seite-Schicht,
um ein Stereosignal mit voller Bandbreite zu liefern.
[0012] Ein skalierbarer Codierer für Stereosignale, der als erste Skalierungsschicht das
Mitte-Signal und in den weiteren Skalierungsschichten das Seite-Signal verwendet,
hat seine beste Gesamteffizienz dann, wenn eine hohe Ähnlichkeit des linken Kanals
mit dem rechten Kanal besteht. Bei Stereokanälen, die nicht miteinander korrelieren,
oder plötzlichen Änderungen der Eigenschaften der beiden Kanäle zueinander geht die
Effizienz einer Mitte/Seite-Codierung zurück.
[0013] Der Prozess der Decodierung einer Mitte/Seite-Übertragung stellt sich so dar, dass
der empfangene Bitstrom mittels eines Demultiplexers in codierte quantisierte Mitte/Seite-Signale
und zusätzliche Informationen aufgeteilt wird. Die Entropie-codierten quantisierten
Mitte/Seite-Signale werden zunächst Entropie-decodiert, um die quantisierten Mitte/Seite-Signale
zu erhalten, die dann invers quantisiert werden. Die decodierten Mitte/Seite-Signale
weisen Quantisierungsfehler auf, die bei der Codierung eingebracht wurden und dazu
führen, dass die nach der Dematrizierung und mittels einer Synthese-Filterbank in
die zeitliche Darstellung umgesetzten Signale für den linken und rechten Kanal nicht
in den ursprünglichen Verhältnissen rekonstruiert werden können
[0014] Die vorliegende Erfindung stellt sich die Aufgabe, für die Anwendung der skalierbaren
Codierung nach dem Mitte/Seite -Verfahren zu erreichen, dass bei der raumbezogenen
Wiedergabe Quantisierungsfehler besser verdeckt und Stereoabbildungsfehler minimiert
werden.
[0015] Die Aufgabe wird dadurch gelöst, dass im Prozess der Codierung der linke Kanal und
auch rechte Kanal für sich transformiert und quantisiert werden und die Mitte/Seite-Verarbeitung
erst nach der Quantisierung erfolgt. Die Summen- und Differenzbildung wird also mit
den bereits quantisierten Signalen des linken und rechten Kanals ausgeführt.
[0016] Der Erfindung liegt die Erkenntnis zugrunde, dass sich der Effekt des Quantisierungsfehlers
bei der Mitte/Seite-Matrizierung reduzieren lässt, wenn die Matrizierung nach der
Quantisierung vorgenommen wird. Dies lässt sich anhand der Übertragungsgleichungen
zeigen.
[0017] Das Mittesignal wird durch die Addition des linken und rechten Kanals gebildet, das
Seitesignal entsteht durch die Differenz.
[0018] Die Rückgewinnung des rechten und linken Kanal erfolgt mit den Operationen:
[0019] Der Quantisierungsvorgang wird durch die Quantisierungsfunktion
[0020] Für die herkömmliche Codierung unter Anwendung der Quantisierung für die Mitte/Seite-Signale
(M/S-Quantisierung) ergeben sich die Übertragungsgleichungen:
[0021] Wird nur das Monosignal zur Decodierung herangezogen ergibt sich:
[0022] Die erfindungsgemäße Optimierung der Mitte/Seite-Stereofonie unter Anwendung der
Quantisierung für die Signale des rechten und des linken Kanals (R/L-Quantisierung)
stellt sich wie folgt dar. Summen- und Differenzsignal werden aus den quantisierten
R/L-Signalen gebildet:
[0023] Die Einsetzung in Gleichung (2) ergibt dann:
[0024] Daraus resultiert für die Optimierung:
[0025] Wird nur das Monosignal zur Decodierung herangezogen ergibt sich:
[0026] Zur Bewertung des Einflusses der entstehenden Quantisierungsfehler wird eine Ansteuerung
des Systems mit Stereosignalen folgender Form betrachtet:
[0027] Für
a=0 wird nur der linke Kanal ausgesteuert, für
a=0,5 werden der linke und der rechte Kanal gleichermaßen ausgesteuert und für
a =1 wird nur der rechte Kanal ausgesteuert.
[0028] Für die herkömmliche Übertragung unter Anwendung der M/S-Quantisierung ergeben sich
nach Gleichung (4) für die Eingangssignale folgende Ausgangssignale:
[0029] Für die erfindungsgemäße Optimierung unter Anwendung der R/L-Quantisierung erhält
man demgemäß folgende Ausgangssignale:
[0030] Bei einem Wert von
a =0,5 sind die Ergebnisse für die Ausgangssignale in beiden Darstellungen identisch.
Der Regelfall in der Praxis ist aber, dass
a einen beliebigen Wert zwischen 0 und 1 annimmt. Kritische Situationen treten auf,
wenn sich
a den Grenzen 0 oder 1 nähert. Der eine Kanal ist dann durch das Quellsignal stark
ausgesteuert, der andere Kanal ist schwach ausgesteuert.
[0031] Zur Darstellung des Quantisierungsfehlers wird ein Quantisierer mit einem Quantisiserungsintervall
der Größe
D angenommen. Der Quantisierungsfehler wird mit
d bezeichnet und kann die Werte
-D/
2 < d <
D/
2 annehmen.
[0032] Für die herkömmliche Anwendung der M/S-Quantisierung ergeben sich nach Gleichung
(7):
[0033] Der Quantisierungsfehler des Mitte-Signals ist
dm, der des Seite-Signals
ds. Zwischen
dm und
ds besteht eine Zufallsbeziehung. Der Quantisierungsfehler bei der M/S-Quantisierung
kann in der Summe Werte zwischen -
D und +
D annehmen.
[0034] Für die Ausgangssignale ergeben sich bei einer Ansteuerung mit beispielsweise
und für
[0035] Bei
a=0 ist im rechten Kanal ein Quantisierungsfehler hörbar, obwohl nur der linke Kanal
das Signal aufweist. Bei
a=0,5 ist erkennbar, dass der Quantisierungsfehler mit gleichphasiger und gegenphasiger
Komponente auftritt. Das führt dazu, dass der Quantisierungsfehler mit einer großen
Stereowirkung hörbar wird.
[0036] Für die erfindungsgemäße Optimierung unter Anwendung der R/L-Quantisierung ergeben
sich nach Gleichung (8) folgende Beziehungen:
[0037] dr ist der Quantisierungsfehler für den rechten Kanal,
dl der Quantisierungsfehler für den linken Kanal. Für einen Quantisierungsintervall
der Größe
D kann der Quantisierungsfehler
d wie schon dargestellt die Werte -
D/2 <
d <
D/
2 annehmen. Bei der R/L-Quantisierung summieren sich die Quantisierungsfehler nicht.
Somit bleibt der Fehler im Bereich
-D/
2 < d < D/
2.
[0038] Für die Ausgangssignale ergeben sich für
und für
Im Vergleich zur herkömmlichen M/S-Quantisierung ist bei der R/L-Quantisierung nur
ein Quantisierungsfehler möglich, der maximal halb so groß ist und keine gegenphasigen
Komponenten aufweist, so dass das Nutzsignal den Quantisierungsfehler wesentlich besser
verdeckt.
Ausführungsbeispiel
[0039] In Fig. 1 sind Encoder und Decoder als Beispiel für die Anwendung des erfinderischen
Prinzips einer Mitte/Seite-Bildung nach der Quantisierung der Signale des linken und
rechten Kanals dargestellt. Die Beschreibung beschränkt sich auf eine zweikanalige
Übertragung und Codierung. Die gleichen Prinzipien können aber auch für eine mehrkanalige
Übertragung und Codierung angewendet werden.
[0040] Der linke (10) und rechte Kanal (20) eines Audiosignals werden zunächst aus dem Zeitbereich
in den Frequenzbereich transformiert. Hierfür wird das bekannte Prinzip der gleitenden
modifizierten Cosinus-Transformation (200) für beide Audiokanäle verwendet. Die Spektralwerte
des linken (11) und rechten (12) Kanals werden im nächsten Schritt quantisiert. Der
Quantisierer (300) wird durch eine Quantisierungssteuerung (500) gesteuert. Die Quantisierung
kann, wie aus anderen Verfahren bekannt ist, durch eine Einteilung in Frequenzbänder
unterstützt werden. Diese Einteilung hat den Vorteil, dass der Quantisierungsfehler
an die spektralen Eigenschaften des Nutzsignals angepasst wird und dadurch für unser
Gehör nicht so schnell hörbar wird. Die Quantisierung wird dabei an die Aussteuerung
in dem jeweiligen Frequenzband angepasst, indem für jedes Band ein Skalierungsfaktor
bestimmt wird. Die Quantisierungssteuerung nutzt für die Bestimmung der Skalierungsfaktoren
den linken (10) und rechten (20) Eingangskanal. Eine Besonderheit der Quantisierungssteuerung
in dem neuen Codierverfahren ist, dass für den linken und rechten Kanal der gleiche
Skalierungsfaktor verwenden werden muss, um die Summen- und Differenzbildung in einem
linearen Zahlenraum zu ermöglichen. Abgesehen von dieser Nebenbedingung können verschiedene
bekannte Methoden zur Bestimmung der optimalen Skalierungsfaktoren eingesetzt werden
[
Marina Bosi and Karlheinz Brandenburg; Introduction to Digital Audio Coding and Standards;
Springer Verlag 2002]. Die Quantisierung erfüllt die Funktion einer verlustbehafteten Reduktion der für
die Codierung benötigten Bits.
[0041] Der spektral zerlegte und quantisierte linke (12) und rechte (22) Kanal werden nun
einer Mitte/Seite-Transformationsstufe (100) zur Umwandlung der Links/Rechts-Signale
in Mitte/Seite-Signale zugeführt. Eine weitere Datenreduktion erfolgte in einer weiteren
Stufe zur verlustlosen Codierung (400). Dieser Stufe, die beispielsweise wie in anderen
Codierverfahren üblich mit einer Huffman-Codierung realisiert werden kann, werden
die Mitte- (40) und Seite-Signale(50) sowie die Skalierungsfaktoren (60) zugeführt.
Das Ergebnis ist das codierte Signal (80).
[0042] Die Decodierung des codierten Signals (80) erfolgt durch Ausführung der Schritte
in umgekehrter Reihenfolge. Die verlustlose Decodierung rekonstruiert die Mitte- (41)
und Seite-Signale (51) sowie die Skalierungsfaktoren (61). In der nächsten Stufe (101)
werden die Mitte- und Seite-Signale in linke (13) und rechte (23) quantisierte Signale
zurücktransformiert. Danach erfolgt mit Hilfe der Skalierungsfaktoren (61) die inverse
Quantisierung (301) zur Herstellung der ursprünglichen Werte der Spektralkoeffizienten.
Die spektral zerlegten linken (14) und rechten (15) Signale werden mit der inversen
modifizierten diskreten Cosinus-Transformation (201) in die rekonstruierten Signale
für den linken (15) und rechten (25) Kanal zurückgesetzt.
[0043] Die vorliegende Erfindung zur Minimierung der Quantisierungsfehler ermöglicht in
der Praxis auch, die Generierung des Bitstromes flexibler zu gestalten. Das codierte
Signal (80) kann in seiner Größe (Bitrate) skaliert werden. Der Bitstrom enthält die
Skalierungsfaktoren, das Mittesignal und das Seitesignal. Die Bitrate kann nun auf
verschiedene Weisen reduziert werden. Zunächst können hochfrequente Anteile des Seitesignals
weglassen werden. Dann können zum Beispiel die hohen Frequenzanteile des Mittensignals
wegelassen werden. Die ungenutzten Skalierungsfaktoren brauchen dann auch nicht übertragen
zu werden. Im nächsten Schritt könnten dann die niederfrequenten Anteile des Seitensignals
reduziert werden, bis zum Beispiel das Seitesignal gar nicht mehr in dem Bitstrom
vorkommt. Die Qualität der Stereoübertragung kann so Schritt für Schritt in eine Monoübertragung
mit abnehmender spektraler Bandbreite übergehen.
1. Verfahren zur skalierbaren Codierung von Stereo-Signalen, bei dem die Mitte/Seite-Codierung
angewendet wird und die Signale des linken und rechten Kanals vor der Mitte/Seite-Verarbeitung
aus dem Zeitbereich in den Frequenzbereich transformiert werden und für die Komprimierung
der Daten die Signale nach der Matrizierung zur Summen- und Differenzbildung quantisiert
werden,
dadurch gekennzeichnet,
dass die Signale des linken und rechten Kanals (10 und 20) nach der Transformation in
den Frequenzbereich (200) separat quantisiert werden (300),
dass die Matrizierung zur Bildung der Mitte- und Seite-Signale (100) mit den bereits quantisierten
Signalen des linken und rechten Kanals (12 und 22) erfolgt, und
dass die aus den quantisierten Signalen des linken und rechten Kanals gebildeten Mitte-und
Seite-Signale (40 und 50) in einer weiteren Stufe der verlustlosen Codierung (400)
für die Übertragung in einem codierten Signal (80) verwendet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Quantisierung der in den Frequenzbereich transformierten Signale des linken und
rechten Kanals durch eine Einteilung in Frequenzbänder unterstützt wird, dass für
jedes Frequenzband ein Skalierungsfaktor bestimmt wird, dass die Skalierungsfaktoren
(60) durch die Quantisierungssteuerung (500) aus den Signalen des linken (10) und
rechten (20) Eingangskanals abgeleitet werden, dass die Skalierungsfaktoren für den
linken und rechten Kanal identisch sein müssen, und dass die Skalierungsfaktoren zusammen
mit den Mitte-und Seite-Signalen im codierten Signal übertragen werden.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, dass der Bitstrom des codierten Signals flexibel gestaltet werden kann, so dass eine schrittweise
Anpassung der Bitrate an die Übertragungsbedingungen in vorteilhafter Weise möglich
ist.