[0001] Die Erfindung betrifft ein Verfahren zum unbemerkten Übertragen und/oder Speichern
von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals entsprechend
dem Oberbegriff des Anspruchs 1. Ferner betrifft die Erfindung die Anwendung dieses
Verfahrens beim kaskadierten Codieren und Decodieren von Signalen, insbesondere Audiosignalen.
Begriffe
[0002] Die Begrifflichkeiten innerhalb der Beschreibung der Erfindung legen sich wie folgt
fest.
Digitale Audiosignale sind eine Repräsentation akustischer Signale als Folge diskreter zeitlicher Abtastwerte.
Eine solche Repräsentation findet z.B. auf CDs, DAT-Geräten oder Digitalrechnern Anwendung.
Charakteristisch ist eine bestimmte Abtastrate, z.B. 32000, 44100 oder 48000 Hz, sowie
eine bestimmte Quantisierungsgenauigkeit, z.B. 12 oder 16 Bit. Hierbei gibt die
Abtastrate die Anzahl diskreter Werte pro Sekunde und die
Quantisierungsgenauigkeit die Anzahl verwendeter Bits pro Abtastwert an. Der Oberbegriff des Anspruch 1 umfasst
die Verwendung der Komponenten eines Audiocodierverfahrens. Ein typisches solches
Audiocodierverfahren ist durch den Standard ISO 11172-3 gegeben. Aufgabe von Verfahren
nach ISO 11172-3 ist die Darstellung eines digitalen Audiosignals in einer codierten,
datenreduzierten Form sowie die Rückgewinnung des digitalen Audiosignals hieraus.
Die datenreduzierte Form besteht aus digitalen
Codewörtern zur Darstellung des eigentlichen Signalinhalts, sowie aus
Steuerinformationen zur decoderseitigen Bestimmung der Art der Datenreduktion und Ermöglichung der Rekonstruktion
eines digitalen Audiosignals.
[0003] Charakteristisch für solche Audiocodierverfahren ist die Überführung oder Transformation
digitaler Audiosignale in eine
Teilband- oder Spektralkomponentenrepräsentation bzw. eine entsprechende Rücküberführung oder Rücktransformation aus dieser heraus.
Die Werte der Teilband- oder Spektralkomponenten werden als im digitalen Audiosignal
enthaltene Frequenzen oder Frequenzbänder interpretiert. Die Begriffe
Teilband- und Spektralkomponenten finden im folgenden an allen Stellen eine synonyme Anwendung, an denen nur von Teilbandkomponenten
gesprochen wird. Die Datenreduktion wird auf den Teilbandsignalen, üblicherweise durch
den Vorgang der
Quantisierung, durchgeführt. Dabei werden die Teilbandwerte durch Codewörter dargestellt, die charakteristischerweise
mit weniger Bits als die Teilbandwerte repräsentiert werden. Die Datenreduktion kann
weitere Schritte umfassen. Dazu gehört z.B. die Bildung von
Skalenfaktoren, die durch Ausnutzung ähnlicher Amplitudenwerte innerhalb des Teilbandsignals eine
kompakte Darstellung bestehend aus einem die Größenordnung der Amplituden beschreibenden
Codewort, sowie mehreren den Inhalt der Teilbandwerte beschreibenden Codewörtern,
erlaubt. Die übrigen verwendeten Begrifflichkeiten ergeben sich aus dem Standard ISO
11172-3.
Stand der Technik
[0004] Verfahren zur unbemerkten Übertragung von Zusatzinformation innerhalb anderer Datensätze
sind auch als Steganographieverfahren bekannt. Diese finden besonders in der Bildverarbeitung
Anwendung. Zahlreiche Grundverfahren des Standes der Technik ersetzen im wesentlichen
die niederwertigsten Bits eines Datensatzes durch Bits der einzubettenden Zusatzinformation.
Verfahren, die das Ziel verfolgen, die Zusatzinformation innerhalb eines datenreduzierten
Signals abzulegen, betten die Zusatzinformation häufig nach psychovisuellen oder psychoakustischen
Gesichtspunkten in den Code der datenreduzierten Werte ein.
[0005] Ein Verfahren zum unbemerkten Übertragen und/oder Speichern von Zusatzinformation
innerhalb eines codierten datenreduzierten Audiosignals unter Ausnutzung psychoakustischer
Gesichtspunkte ist aus DE 44 30 864 A1 bekannt. Entsprechende Verfahren speichern
die Zusatzinformation in den niederwertigen Bits der datenreduzierten Codewörter an
den Stellen, an denen den reduzierten Codewörtern mehr Bits zur Verfügung stehen als
für eine Codierung, die frei von subjektiven Beeinträchtigungen ist, laut psychoakustischem
Modell nötig ist. Als Variante kann sowohl durch die Entwendung zusätzlicher niederwertiger
Bits, mit einer möglichen subjektiven Verschlechterung der Tonqualität, als auch,
durch eine Erhöhung der Bitrate des Codes, bei Beibehaltung der durch den Coder produzierten
Teile der datenreduzierten Codeworte, eine Erhöhung der Datenrate für die Zusatzinformation
erreicht werden. In einem Ausführungsbeispiel für den letzteren Fall wird die Länge
der binären Codeworte durch Anfügen der zusätzlich eingefügten Bits an den Stellen,
die vom Decoder als niederwertigste Bits aufgefasst werden, erhöht. Ein Decoder der
keine Kenntnis von der Zusatzinformation hat, decodiert das verlängerte Codewort.
Erweitert man dieses Verfahren um die Decodierung eines gegebenen Datenstroms zu einem
zeitlichen Audiosignal, erhält man ein Verfahren zum Übertragen von Zusatzinformationen
innerhalb von Audiosignalen.
[0006] Verfahren aus der Bildverarbeitung, deren Aufgabe die Einbettung eines digitalen
Wasserzeichens in ein gegebenes Bild ist, sind von der Aufgabenstellung her verwandt,
unterscheiden sich aufgrund der stark unterschiedlichen Eigenschaften zwischen Bild-
und Audiosignalen jedoch erheblich vom erfindungsgemäßen Verfahren und werden daher
hier nicht weiter berücksichtigt.
Nachteile des Standes der Technik
[0007] Die bekannten Verfahren, die mittels direkter Manipulation niederwertiger Bits zeitlicher
Signale arbeiten, bringen schon bei sehr kleinen Anzahlen veränderter Bits pro Codewort
bzw. bei einer sehr kleinen Einbettungsbitbreite erhebliche Qualitätsverluste mit
sich. Somit ist die Einbettung bei Kenntnis des Originalsignals perzeptuell erkennbar.
Weiterhin sind die auf diese Weise eingebetteten Zusatzinformationen leicht und ohne
weitere Hilfsmittel aus dem Audiosignal ablesbar. Verfahren, die Signale in Teilbänder
transformieren, dort die niederwertigen Bits der Teilbandwerte ohne deren gezielte
Auswahl manipulieren und danach ein zeitliches Signal rekonstruieren, schaffen zwar
Abhilfe gegen die leichte Ablesbarkeit der eingebetteten Zusatzinformation, liefern
aber schon bei geringen verwendeten Bitbreiten unerwünschte Qualitätseinbußen beim
zeitlichen Audiosignal.
[0008] Das Verfahren nach DE 44 30 864 A1 bettet die Zusatzinformationen in den datenreduzierten
Code ein, allerdings erlaubt eine Erweiterung durch einen nachgeschalteten Decoder
wie oben beschrieben, eben diese Zusatzinformationen in das zeitliche Audiosignal
einzubetten. Besonders bei geringen erlaubten Bitraten des datenreduzierten Codes
ist jedoch zu erwarten, dass die Menge der übertragbaren Zusatzinformationen pro Datenblock
nur klein sein wird. Weiterhin liefert die in den Ausführungsbeispielen zu DE 44 30
864 A1 angewandte Technik der Erweiterung der Codewörter um niederwertige Bits bei
zahlreichen Quantisierungs- bzw. Dequantisierungsarten einen Rekonstruktionsfehler,
der im allgemeinen über dem Rekonstruktionsfehler, der bei Verwendung der nicht erweiterten
Codewörter auftritt, entsteht, liegt. Daher kann bei diesem Verfahren das induzierte
Rauschen die Maskierungsschwelle übersteigen und somit Qualitätseinbußen des zeitlichen
Audiosignals verursachen.
Aufgaben der Erfindung
[0009] Die Aufgabe des erfindungsgemäßen Verfahrens besteht darin, die Einbettung der Zusatzinformationen
in die decodierten und rückquantisierten Subbandsignale derart vorzunehmen, dass sie
bei einer Wiedergabe des zeitlichen Audiosignals nicht mehr wahrnehmbar ist.
[0010] Eine Variante des Verfahrens hat die Aufgabe, die Zusatzinformationen so in die Teilbandsignale
einzubetten, dass der durch die Quantisierung induzierte Rekonstruktionsfehler durch
die Einbettung nicht vergrößert wird.
[0011] Eine weitere Aufgabe der Erfindung ist die möglichst optimale Ausnutzung der nach
psychoakustischen Gesichtspunkten zur Verfügung stehenden Kapazität für die einzubettenden
Zusatzinformationen.
[0012] Eine weitere Aufgabe betrifft die Codierung und Einbettung der Zusatzinformation
derart, dass ein entsprechender. Coder bzw. Decoder diese wieder rekonstruieren kann.
Dies ermöglicht die Übermittlung der Zusatzinformation an einen Empfänger.
[0013] Eine weitere Aufgabe des erfindungsgemäßen Verfahrens besteht in der Robustheit des
verwendeten Codes gegenüber arithmetischen Fehlern des Transformations-Rücktransformationspaares,
wie sie z.B. bei der im Standard ISO 11172-3 verwendeten Teilbandtransformation auftreten.
Lösung der Aufgabe
[0014] Die Aufgabe wird durch die kennzeichnenden Merkmale eines Verfahrens nach Anspruch
1 gelöst. Vorteilhafte Weiterbildungen und Ausgestaltungen und Verwendungen des erfindungsgemäßen
Verfahrens ergeben sich aus den Unteransprüchen.
Beschreibung des Verfahrens
[0015] Die Erfindung macht sich Eigenschaften von Verfahren nach dem Oberbegriff des Anspruchs
1 zu Nutze. Audiosignale werden in aufeinanderfolgenden oder sich untereinander überlappenden
Blöcken zeitlich zusammenhängender Signalwerte, z.B. unter Verwendung von gefensterten
Fouriertransformationen, Cosinustransformationen und/oder Filterbänken, in Teilbandsignale
zerlegt. Mit Hilfe psychoakustischer Modelle werden die Parameter zur Datenreduktion
so festgelegt, dass, oft unter der Bedingung der Einhaltung der maximal für einen
Datenblock verfügbaren Bitrate, das durch die Datenreduktion verursachte Rauschen
die Maskierungsschwelle, die festlegt, ob gewisse Spektralkomponenten hörbar sind,
nicht überschreitet. Zu den Parametern der Datenreduktion gehören bei den meisten
Verfahren die Art der Quantisierung, der dafür pro Block zur Verfügung gestellte Platz
in Form der Bitbreite eines Codewortes pro Teilblock, sowie Skalenfaktoren. Bei der
Quantisierung werden Signalwerte eines zusammenhängenden Amplitudenbereichs auf ein
Codewort abgebildet. Der Decoder bildet bei der Rückquantisierung dieses Codewort
auf einen Repräsentanten innerhalb des initialen Amplitudenbereichs ab. Zur Reduzierung
des maximalen Rekonstruktionsfehlers auf die Hälfte der Intervallgröße wird für solch
einen Repräsentanten ein Wert in der Mitte des Intervalls gewählt. Da bei der Rückquantisierung
kein Codewort auf die anderen Werte innerhalb des Amplitudenbereichs abgebildet wird,
können diese zum Transport der Zusatzinformationen verwendet werden. Die Aufgabe der
Einbettung der Zusatzinformationen wird durch gezielte Abbildung auf bestimmte Repräsentanten
innerhalb des Amplitudenbereichs gelöst. Dabei gibt das Codewort den Rückquantisierungsrepräsentanten
und die einzubettende Zusatzinformation die Position innerhalb des Amplitudenbereichs
des Repräsentanten an.
[0016] In einer ersten Ausprägung des Verfahrens wird diese Repräsentantenauswahl durch
direktes Ersetzen der niederwertigen Bits durch Teile des einzubellenden Codes durchgeführt.
Diese Methode führt bei vielen Quantisierungs- bzw. Rückquantisierungsarten im allgemeinen
zu einem höheren als dem maximal durch diese Quantisierung normalerweise verursachten
Quantisierungsfehler. Bei manchen Anwendungen ist dieser Fehler jedoch akzeptabel.
[0017] In einer Variante des Verfahrens wird encoderseitig zu jedem für das Verfahren relevanten
Teilbandwert ein Tendenzbit in den Code integriert, das angibt, ob dieser Teilbandwert
größergleich dem zur Rekonstruktion verwendeten Repräsentanten ist, oder kleiner.
Die für die Einbettung des Codes zur Verfügung stehenden Werte des Amplitudenbereichs
werden in solche größergleich dem zur Rekonstruktion verwendeten Repräsentanten und
solche kleiner diesem Repräsentanten eingeteilt. Zeigt das übertragene Tendenzbit,
dass der ursprüngliche Teilbandwert größergleich dem zur Rekonstruktion verwendeten
Repräsentanten war, wird einer der Amplitudenwerte größergleich diesem Repräsentanten
als Codierung der Zusatzinformationen verwendet, ansonsten einer der Amplitudenwerte
kleiner dem des Repräsentanten. Dies kann durch Addition bzw. Subtraktion der Binärdarstellung
des Codes und des Repräsentanten realisiert werden. Auf diese Art und Weise wird der
ursprüngliche Rekonstruktionsfehler durch die Einbettung nicht vergrößert.
[0018] Der Einbettung der Zusatzinformationen schließt sich die Rücktransformation des bearbeiteten
Blockes, mit Zusammensetzung der resultierenden zeitlichen Datenblöcke zu einem zeitlichen
Audiosignal, an.
[0019] Die Rückgewinnung der eingebetteten Zusatzinformationen kann blockweise nach Durchführung
der, zur obigen Rücktransformation gehörigen, Umkehrtransformation durchgeführt werden.
Unter der Annahme der Invertierbarkeit oder Umkehrbarkeit der Transformation, kann
ein entsprechender Decoder aus den resultierenden Teilbandsignalen die vom Einbettungsmechanismus
ausgewählten Amplitudenwerte ablesen und unter Verwendung der bekannten zur Rekonstruktion
verwendeten Repräsentanten die Zusatzinformation extrahieren.
[0020] Es werden vorteilhafte Varianten und Erweiterungen des beschriebenen Verfahrens angegeben.
Da in Decoderstufen meist nicht die Parameter des psychoakustischen Modells, sondern
nur die zur Decodierung benötigten Parameter zur Verfügung stehen, ist es vorteilhaft,
den für die Einbettung zur Verfügung stehenden Platz für die verschiedenen Gebiete
der Teilbänder oder Frequenzregionen aus den Decodierparametern zu berechnen. Dabei
kann die Quantisierungsauflösung in Verbindung mit der Quantisierungsart zur Errechnung
der maximal einbettbaren Codegröße der Zusatzinformation verwendet werden. Bei Benutzung
von Skalenfaktoren ist die obige maximal einbettbare Codegröße um den durch die Skalierungsfaktoren
bei der Rekonstruktion erzielten Genauigkeitsgewinn zu reduzieren.
[0021] In der Praxis vorkommende Transformations- und Rücktransformationsverfahren liefern
in der Regel Arithmetik- oder Rekonstruktionsfehler innerhalb des bearbeiteten Datenstroms.
Zur Vermeidung einer Beeinträchtigung des eingebetteten Codes ist es zweckmäßig, obiges
Tendenzbit-Verfahren unter Verwendung von Redundanz durchzuführen. Weiterhin ist es
zweckmäßig, bei Verfahren, die die oben beschriebene direkte Biteinbettung verwenden,
die Codewörter der Zusatzinformationen jeweils mittels eines Codes gegen Arithmetik-
oder Transformationsfehler zu sichern.
[0022] Zwecks Decodierbarkeit der eingebetteten Zusatzinformationen seitens eines dafür
vorgesehenen Coders, ist es von Vorteil, den eingebetteten Code mit charakteristischen
Merkmalen oder Marken zu versehen, die auf die zur Einbettung verwendeten Teilbandwerte
verweisen, sowie Bitbreite und Position des Codes innerhalb dieser Teilbandwerte enthalten.
Da beliebige Signale Eingabe eines solchen Coders sein können und somit Fehldecodierungen
möglich sind, sollte eine eingebettete Marke von einer Qualität sein, die eine Entscheidung
über einen vorhandenen Code mit einer hohen Erfolgswahrscheinlichkeit erlaubt.
[0023] Möglich ist weiterhin eine Kaskadierung der Schritte
- Einbettung der Zusatzinformation,
- Umkehrtransformation.
[0024] Dies kann z.B. bei Verfahren wie ISO 11172-3, Layer III, von Vorteil sein, die eine
Kaskade zweier verschiedener Transformationen zur Spektralkomponentenzerlegung verwenden.
Zur Rückgewinnung der eingebetteten Zusatzinformation ist hier die entsprechend umgekehrte
Reihenfolge der Transformations-Decodierstufen zu verwenden.
Vorteile der Erfindung
[0025] Die Vorteile des Verfahrens liegen einerseits in der großen Kapazität an übertragbarer
Zusatzinformation, wie sie aus der Ausnutzung der vergröberten Darstellung der rückquantisierten
Teilbandwerte resultiert. Wird weiterhin beim verwendeten Audiocodec die geforderte
Bitrate erniedrigt, sinkt z.B. bei Verfahren nach DE 44 03 864 A1 im allgemeinen die
Bitkapazität, wohingegen beim erfindungsgemäßen Verfahren, unter der realistischen
Annahme einer induzierten gröberen Quantisierung, die Bitkapazität ansteigt. Vorteilhaft
ist weiterhin, dass Verfahren nach Unteransprüchen 2 und 6 gewährleisten, dass der
ursprüngliche, durch die Datenreduktion und Rekonstruktion entstandene Rekonstruktionsfehler
nicht überschritten wird. Somit wird die durch das gewählte psychoakustische Modell
gewährleistete Qualität des rekonstruierten Audiosignals im Gegensatz zu Verfahren
nach dem Stand der Technik nicht verschlechtert, sondern in der durch die Datenreduktion
induzierten Qualität belassen.
[0026] Das Verfahren verändert weiterhin bei Audiocodecs mit den Merkmalen nach dem Oberbegriff
des Anspruchs 1 nicht den encoderseitig erzeugten datenreduzierten Code und benötigt
lediglich die Kenntnis über die Art der Datenreduktion (Quantisierungsart, Skalenfaktoren
u.ä.) und die dabei verwendeten Einstellungen. Daher ist das Verfahren einfach auf
eine Vielzahl verschiedener solcher Codecs anzupassen. Bei dem Standard ISO 11172-3
liefern beispielsweise die dem Decoder zur Rückgewinnung des zeitlichen Audiosignals
übermittelten Steuerinformationen bereits alle zur Einbettung der Zusatzinformation
benötigten Parameter. Daraus folgt weiterhin, dass bei dem Verfahren der Einbettung
sowohl zeitliche Audiosignale als auch datenreduzierter Code als Eingabe dienen können.
Dies gilt jedoch bei Verfahren nach den Unteransprüchen 2 und 6 nur, wenn in den datenreduzierten
Code als Zusatzinformation die benötigten Tendenzinformationen eingefügt wurden.
[0027] Vorteilhaft ist außerdem, dass sowohl eine Wiedergabe und Verwendung auf herkömmlichen
digitalen Medien als auch die Decodierung der eingebetteten Zusatzinformationen durch
einen entsprechenden Coder bzw. Decoder möglich ist.
Anwendungsgebiete
[0028] Das erfindungsgemäße Verfahren findet als universelle Methode zur versteckten Übermittlung
von Zusatzinformationen in herkömmlichen digitalen Audiosignalen zahlreiche Anwendungen,
insbesondere als speziell auf Audiosignale ausgerichtetes Steganographieverfahren.
Als Anwendungsbeispiel ist die Verschlüsselung von Texten, Noten, Instrumentierung
oder anderen inhaltsbasierten Merkmalen innerhalb des Audiodatenstroms denkbar. Diese
Informationen können z.B. auf, mit dem erfindungsgemäßen Verfahren konformen Decodern
ausgestatteten, CD-Spielern verwendet werden. Dies kann etwa zur simultanen Ausgabe
von akustischen und textuellen Informationen zu Musikstücken, die Gesangsstimmen enthalten,
genutzt werden. Bei nicht mit einem solchen Zusatzdecoder ausgestatteten Wiedergabemedien
entstehen in diesem Falle keine Beeinträchtigungen der Tonqualität.
[0029] Weiterhin liegt die Anwendung auf Systemen, die naturgemäß psychoakustische Transformations-
oder Teilbandcoder verwenden, nahe. Dies können z.B. Audiodatenbanken sein, die heutzutage
häufig datenreduzierte Archivierungsformen für Audiomaterial verwenden. Wird beispielsweise
ein Musikstück aus der Datenbank eines Audio-on-Demand Anbieters extrahiert, decodiert
und auf CD an einen Kunden geschickt, so können Zusatzinformationen wie Versandtag,
Vertreiber, Käufer oder sogar Copyrightrechte unbemerkt eingebettet werden.
[0030] Die Verwendung eines geheimgehaltenen Transformationsverfahrens in Verbindung mit
einem gegen leichte Signalveränderungen robusten Codec für die eingebettete Information
erlaubt hier einen recht effektiven Schutz gegen Decodierung und/oder Entfernung der
Copyrightinformation durch Unbefugte.
Ausführungsbeispiele
[0031] Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen:
- Abb. 1
- Blockschaltbild eines konventionellen Codecs,
- Abb. 2
- Blockschaltbild eines Codecs zur Einbettung mit dem Bitersetzungsverfahren,
- Abb. 3
- Blockschaltbild eines Codecs zur Einbettung mit dem Tendenzbitverfahren,
- Abb. 4
- Illustration des Bitersetzungsverfahrens,
- Abb. 5
- Illustration des Tendenzbitverfahrens,
- Abb. 6
- Blockschaltbild eines Decoders zur Rückgewinnung der eingebetteten Zusatzinformationen,
- Abb. 7
- eine Codecstufe gemäß einem ersten Ausführungsbeispiel einer Anwendung der Erfindung
und
- Abb. 8
- eine Codecstufe gemäß einem zweiten Ausführungsbeispiel einer Anwendung der Erfindung.
[0032] Eigenheiten der in der Zeichnung dargestellten Codecs und Teilbänder sind:
- Die verwendete Transformation ist eine Teilbandtransformation (keine Spektraltransformation).
- Das Eingangssignal ist monophon.
- Die Datenreduktion findet nur in Form einer Quantisierung statt.
- Die Anzahl der Teilbänder ist größer als drei.
- Die Anzahl Bits pro Teilbandwert beträgt zwölf.
- Die Anzahl Teilbandwerte pro Teilband und Signalblock beträgt acht.
- Die dargestellte Quantisierung in Abbildung 4 bildet einen zwölf Bit Teilbandwert
auf ein vier Bit Codewort ab.
- Die Teilbandwerte sind binär codiert, und das niederwertigste Bit ist in der Abbildung
rechts dargestellt.
- Die funktionalen Einheiten 4, 6, 13 und 16 werden einzeln betrachtet (Diese können
je nach Anwendungsbeispiel innerhalb einer einzigen funktionalen Einheit realisiert
werden. Insbesondere können, falls der erzeugte datenreduzierte Code 12 nicht separat
verwendet werden soll, die Einheiten 6, 12 und 13 wegfallen. Somit werden die Daten
5 und 14, sowie 11 und 15, sowie 22 und 23 identifiziert.)
[0033] Eigenheiten des in Abbildung 5 dargestellten Tendenzbitverfahrens sind:
- Der Amplitudenbereich des betrachteten Teilbandwerts ist 0,1,2,...,9.
- Die Anzahl der gewählten Codeworte ist zwei.
- Die Unterteilung des Amplitudenbereichs ist linear.
- Die Rückquantisierung erfolgt auf den Mittelpunkt des dem jeweiligen Codewort zugeordneten
Intervalls.
[0034] Abb. 1 zeigt einen konventionellen Audiocodec. Das zeitliche Audiosignal 1 wird blockweise
von der Filterbank 2 in Teilbänder 3 zerlegt und dem Quantisierer 4 zugeführt. Das
zeitliche Audiosignal 1 wird weiterhin blocksynchron einer psychoakustischen Analyse
7 unterzogen. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination
mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung
errechnen sich Quantisierungsparameter 10 unter deren Verwendung die Teilbandwerte
3 vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 überführt werden. Diese Codewörter
5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern
11 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung
codiert, und überträgt 12. Decoderseitig decodiert ein Demultiplexer 13 die Codewörter
14 und die zur Rückquantisierung benötigten Quantisierungsparameter 15 und führt diese
der Rückquantisierungsstufe 16 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte
17 der Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals
19 transformiert.
[0035] Abb. 2 zeigt einen Audiocodec zur Einbettung von Zusatzinformationen mit dem Bitersetzungsverfahren.
Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt
und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron
einer psychoakustischen Analyse 7 unterzogen. Die durch diese Analyse errechneten
Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate
die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10
unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte
5 überführt werden. Diese Codewörter 5 werden zusammen mit den zur Rückquantisierung
benötigten Quantisierungsparametern 11 einem Multiplexer 6 zugeführt, der diese wie
auch immer zur weiteren Übertragung codiert und überträgt 12. Decoderseitig decodiert
ein Demultiplexer 13 die Codewörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter
15. Der Demultiplexer 13 führt die Codewörter 14 dem Rückquantisierer 16 sowie die
Quantisierungsparameter 15 dem Rückquantisierer 16 und dem Einbettungsmodul 20 zu.
Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 dem Einbettungsmodul
20 zugeführt. Mit Hilfe der Quantisierungsparameter 15 bestimmt das Einbettungsmodul
20 Parameter für die Einbettung nach der Bitersetzungsmethode und führt die Einbettung
der Zusatzinformationen 25 durch. Die resultierenden Teilbandsignale 21 werden der
Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals
19 transformiert.
[0036] Abb. 3 zeigt einen Audiocodec zur Einbettung von Zusatzinformationen mit dem Tendenzbitverfahren.
Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt
und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron
einer psychoakustischen Analyse 7 unterzogen. Die durch diese Analyse errechneten
Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate
die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10
unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte
5 überführt werden. Zusätzlich errechnet der Quantisierer 4 bei der Datenreduktion
die Tendenzbit-Information der relevanten Teilbandwerte. Zur Bestimmung relevanter
Teilbandwerte errechnet der Quantisierer 4 die Anzahl der zur Einbettung der Zusatzinformation
25 benötigten Teilbandwerte and wählt anschließend Teilbandwerte aus. Die Codewörter
5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern
11 sowie der Tendenzbitinformation 22 einem Multiplexer 6 zugeführt, der diese wie
auch immer zur weiteren Übertragung codiert und überträgt 12. Decoderseitig decodiert
ein Demultiplexer 13 die Codewörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter
15. Der Demultiplexer führt die Codewörter 14 dem Rückquantisierer 16, die Tendenzbitinformation
23 dem Einbettungsmodul 20, sowie die Quantisierungsparameter 15 dem Rückquantisierer
16 und dem Einbettungsmodul 20 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte
17 dem Einbettungsmodul zugeführt. Mit Hilfe der Quantisierungsparameter 15 und der
Tendenzbitinformation 23 bestimmt das Einbettungsmodul 20 Parameter für die Einbettung
nach der Tendenzbitmethode und führt die Einbettung der Zusatzinformationen 25 durch.
Die resultierenden Teilbandsignale werden der Rekonstruktionsfilterbank 18 zugeführt
und in einen Block des zeitlichen Ausgabesignals 19 transformiert.
[0037] Abb. 4 zeigt ein Beispiel für das Bitersetzungsverfahren. Aus dem ersten Teilband
T1 der abgebildeten Teilbänder 1 eines Blocks wird der sechste Teilbandwert betrachtet.
Die Quantisierung bildet den zwölf-Bit Teilbandwert 2 auf ein vier-Bit Codewort 3
ab. Die Rückquantisierung 4 bildet den Code 3 auf einen zwölf-Bit Teilbandwert ab.
Die Einbettung nach dem Bitersetzungsverfahren ersetzt die acht niederwertigen Bits
von 4 durch Bits der Zusatzinformationen (a1,...,a8). Der Teilbandwert mit eingebettetem
Code 5 wird an die entsprechende Stelle der rückzutransformierenden Teilbänder 6 eingefügt.
[0038] Abb. 5 zeigt ein Beispiel für das Tendenzbitverfahren für einen Teilbandwert. Die
zu übertragende Zusatzinformation Z sei durch einen der Werte 0, 1, oder 2 gegeben.
Die zugrunde liegende Quantisierung ist in den Schritten A bis E gegeben. Das exemplarische
Amplitudenintervall A von 0 bis 9 ist in die Intervalle A1 von 0 bis 4 und A2 von
5 bis 9 eingeteilt. Werte aus dem Intervall A1 werden auf das Codewort C1 und Werte
aus dem Intervall A2 auf das Codewort C2 abgebildet (B und C). Die Rekonstruktion
D bildet das Codewort C1 auf den Wert 2 und das Codewort C2 auf den Wert 7 ab. Ein
Quantisierer entsprechend 4 aus Abbildung 3 bildet das Tendenzbit T für einen, nach
der Vorschrift (A-C) in das Codewort Ci quantisierten, Teilbandwert gemäß Tabelle
1. Die Rückquantisierungsstufe bestimmt aus dem Codewort, der Zusatzinformation Z
und dem Tendenzbit T einen rückquantisierten Wert unter Einhaltung der dazu möglichen
Werte aus Tabelle 2. Eine dazu anwendbare Vorschrift ist die Addition der Zusatzinformation
Z zu dem nach C-E rückquantisierten Wert von Ci, falls T = 1, sowie die Subtraktion
der Zusatzinformation Z von dem nach C-E rückquantisierten Wert von Ci, falls T =
0. Die möglichen Rekonstruktionsstufen nach Tabelle 2 folgen aus der Forderung, dass
der maximale Quantisierungsfehler wie er durch A-E entsteht, auch unter Verwendung
des Tendenzbitverfahrens vom Betrag kleiner als zwei sein soll.
[0039] Abb. 6 zeigt ein Blockschaltbild eines Decoders zur Rückgewinnung der eingebetteten
Zusatzinformationen. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank
2 in Teilbänder 3 transformiert. Ein Detektor 4 prüft unter Einbeziehung der verwendeten
Einbettungsart und Kenntnis aller möglichen Bit- oder Codebreiten, ob eine Markierung
eines eingebetteten Codes vorliegt.
[0040] Falls dies der Fall ist, werden Teilbandsignale 5 und Position der Zusatzinformation
an eine Extraktionsstufe 6 übergeben, die die Teilbandwerte 7 rekonstruiert und die
Zusatzinformationen 8 extrahiert. Ist die verwendete Filterbank nicht translationsinvariant,
so kann der Detektor 4 gegebenenfalls eine Translation des zeitlichen Audiosignals
1 steuern 9, und eine Wiederholung der Schritte betreffend der Komponenten 2, 3, 4
und 9 herbeiführen.
[0041] Aufgrund der im Rahmen des erfindungsgemäßen Verfahrens verfügbaren beträchtlichen
Kapazität an einbettbarer Information, ist seine Verwendung im Zusammenhang mit einem
Verfahren zum kaskadierten Codieren und Dekodieren von Signalen, hier insbesondere
Audiosignalen, besonders vorteilhaft. Dies wird nachfolgend anhand von zwei Anwendungsbeispielen
ausgeführt.
Anwendungsbeispiel: Kaskadierte Codierung und Decodierung von Signalen
Einleitung
[0042] Wer kennt sie nicht, die Audiocassettenaufnahme der Tonbandkopie der Langspielplatte,
die zwar schon einige deutliche Qualitätseinbußen gegenüber dem Original aufzuweisen
hat, aber dennoch ein recht zufriedenstellendes Hörerlebnis liefert - zumindest bis
die Cassettenrecorderanlage im Pkw mit der Zeit physikalische Abnutzungen bemerkbar
macht oder sogar selbst produziert. Spätestens seit dem Beginn des digitalen Zeitalters
sollten solche "analogen" Probleme eigentlich der Vergangenheit angehören. Jedoch
treten ähnlich Generationseffekte auch im Zusammenhang mit digitalen audiovisuellen
Aufnahmen auf Bei Mobilkommunikation mit geringer Bandbreite kann zum Beispiel die
Hintereinanderschaltung (Tandeming) mehrerer verschiedener Codier-Decodier-Stufen
(Codecs) zu einer signifikanten Verschlechterung der Qualität des zu übertragenden
Audiosignals führen. Die Notwendigkeit solcher Codecs erwächst aus der Forderung an
eine deutliche Reduzierung der Datenrate (Kompression), Gewährleistung einer Fehlerkorrektur
gegenüber Übertragungsfehlern sowie einer möglichen Datenformatwandlung zwischen verschiedenen
Netzen.
[0043] Ein weiteres Szenario, welches fortschreitend an Bedeutung gewinnt, liefert die Archivierung
großer Datenmengen in digitalen (Musik-) Bibliotheken. Das als Anwendungsbeispiel
vorgestellte Verfahren ist daher insbesondere für die Anwendung auf Audiodaten gedacht,
funktioniert aber selbstverständlich auch bei anderen Daten, z.B. Videodaten. Aufgrund
des massiven Datenaufkommens, wie z.B. bei der digitalen Archivierung von Radioproduktionen,
liegt es nahe, die anfallenden Daten in ein platzsparendes Format umzuwandeln. Diese
Anforderung leisten die im nächsten Abschnitt beschriebenen psychoakustischen Kompressionsverfahren
mit Datenreduktionsraten von bis zu 1:12 bei HiFi-Aufnahmen und perzeptuell transparenter
Qualität (keine hörbaren Qualitätsunterschiede). Da die Originaldaten bei solch hohen
Kompressionsraten nicht mehr aus dem Code reproduzierbar sind - die dekomprimierten
Daten stimmen nur noch perzeptuell mit dem Original überein - handelt es sich hier
um verlustbehaftete Verfahren. Eine wiederholte Anwendung des Kompressionsverfahrens
auf die dekomprimierten Daten (Daten der ersten Generation) arbeitet somit auf den
verfälschten Originaldaten. Versuche zeigen, dass bei hohen Kompressionsraten schon
nach sehr wenigen Wiederholungen der Komprimierung und Dekomprimierung die erzeugten
Audiodaten der n-ten Generation eine im Vergleich zum Original perzeptuell unzumutbare
Qualität ausweisen.
[0044] Aufgaben einer Musikbibliothek, z.B. in Verbindung mit Audioeditier- und Schnittsystemen,
bestehen in Retrieval und Weitergabe sowie in Verarbeitung (z.B. Abmischen mehrerer
Audiostücke) und wiederholter Speicherung der Audiodaten. Geschieht die Weitergabe
unkomprimiert (z.B. via CD oder DAT), erhält der Empfänger Daten erster Generation,
die mit den oben beschriebenen Problemen behaftet sind. Werden mehrere dekomprimierte
Datensätze zusammengemischt oder auch nur editiert, so wird zur erneuten Speicherung
in der Musikbibliothek wiederum nur auf Daten der ersten Generation gearbeitet. Zur
sinnvollen Verwendbarkeit einer solchen digitalen Musikbibliothek ist somit ein Verfahren
zur Vermeidung solcher Generationseffekte notwendig.
Psychoakustische Verfahren mit hohen Kompressionsraten
[0045] Die höchsten Kompressionsraten bei Erhalt perzeptueller Transparenz erreichen momentan
Codierer, die Eigenschaften der menschlichen auditiven Wahrnehmung ausnutzen. Dabei
werden wesentliche Resultate der Psychoakustik verwendet, wobei sogenannte Maskierungseffekte
einen Schwerpunkt bilden. Grob geht es hierbei um das Phänomen der Verdeckung bestimmter
Signalkomponenten durch andere. Hierbei unterscheidet man Zeit- und Frequenzverdeckung.
Zeitverdeckung bedeutet, dass in der zeitlichen Abfolge zweier Signale eines der Signale
das andere als unhörbar erscheinen lassen kann. Hierbei tritt der Effekt der Vorwärtsverdeckung
(ein Signal verdeckt das Nachfolgende) auf einem größeren Zeitintervall auf als der
Effekt der Rückwärtsverdeckung (ein Signal verdeckt das Vorhergehende). Frequenzverdeckung
lässt sich auf der Spektral- oder Fourieranalyse eines Signals auf einem (relativ
kurzen) Zeitintervall beschreiben. Hierbei werden alle Ereignisse als gleichzeitig
auftretend interpretiert. Durch Experimente ist zu belegen, dass das Frequenzspektrum
in Teilbänder zerlegt werden kann, so dass innerhalb dieser Teilbänder starke Signalanteile
schwächere übertönen. Ein psychoakustischer Coder führt zur Ausnutzung der Maskierungseffekte
eine Kurzzeitfourieranalyse des Signals durch und berechnet hieraus die Maskierungsparameter
eines psychoakustischen Modells. Das Signal wird außerdem, häufig durch eine Subbandtransformation,
in Subbandsignale, die den oben erwähnten Teilbändern entsprechen, zerlegt. Im wesentlichen
bestimmen nun die Maskierungsparameter, wie groß die Reduktion der Datenrate pro Subband
sein darf, ohne dass wahrnehmbare Störgeräusche entstehen.
[0046] Die Datenreduktion wird im wesentlichen durch eine veränderte, vergröbernde Quantisierung
der digitalen Subbandsignale geleistet. Insoweit besteht bei dieser Art von Audiokompression
eine Verwandtschaft zu Verfahren gemäß dem Oberbegriff des Anspruchs 1. Die bei der
vergröbernden Quantisierung verlorengegangenen Daten sind bei der Dekomprimierung
nicht mehr rekonstruierbar. Somit wird das Signal erster Generation gegenüber dem
Original verändert und eine erneute Berechnung des psychoakustischen Modells auf dem
veränderten Signal liefert i.a. einen unterschiedlichen Parametersatz. Diese Parameterveränderung
stellt bei Codecs dieser Art einen wesentlichen Grund für die Generationseffekte dar.
Was leistet das erfindungsgemäße Verfahren in seiner Anwendung auf das kaskadierte
Codieren und Decodieren
[0047] Das hier vorgestellte Verfahren stellt einen Lösungsvorschlag dar, der für psychoakustische
Kompressionsverfahren eine beliebige Wiederholung von Kompression und Dekompression
zulässt, somit beliebig viele Generationen erlaubt, und dabei die perzeptuelle Qualität
der ersten Generation erhält. Genauer geschieht die Erstellung von Kopien weiterer
Generationen bei der Wahl geeigneter Coderparameter theoretisch verlustfrei, praktisch
sind etwaige, entstehende Qualitätsverluste von der Genauigkeit der verwendeten Rechnerarithmetik
abhängig. Das Verfahren arbeitet bezüglich der benötigten Zusatzinformationen in situ,
d.h., es werden keine zusätzlichen Datenformate benötigt. Die vom Decoder erzeugten
(PCM) Audiodaten können auf jedem herkömmlichen digitalen Medium gespeichert und davon
sowohl mit Standardmedien wiedergegeben werden, als auch mit einem dem vorgeschlagenen
Verfahren konformen Encoder im obigen Sinne verlustfrei komprimiert werden.
Zwei grundlegende Ideen
[0048] Das Verfahren basiert im wesentlichen auf zwei Grundideen, aus denen sich zwei fundamentale
Teilalgorithmen ableiten. Am Anfang steht die Erkenntnis, dass die oben beschriebenen
Subbandcodierer zwei Arten von Daten erzeugen, die grobquantisierten Subbandsignale
(den eigentlichen Code) und die entsprechenden Seiteninformationen. Die Seiteninformation
besteht z.B. aus Information über Quantisierungsstufen, -art oder verwendete Subbänder.
Durch die Seiteninformation (im folgenden auch als Steuerinformation oder Codierparameter
bezeichnet) kann sowohl der Decodierer aus dem Code ein entsprechendes Ausgabesignal
rekonstruieren, als auch der Codierer aus den subbandtransformierten Signalen den
Code. Letzteres zusammen mit der Annahme einer invertierbaren ("verlustfreien") Subbandtransformation
führt zur Einsicht, dass es im Prinzip ausreichend ist, nur einmalig die Seiteninformation
mit Hilfe des psychoakustischen Modells zu berechnen und bei allen folgenden Generationen
die originale Seiteninformation zu verwenden. Bei einer verlustfreien Transformation
gewährleistet dies bei allen nachfolgenden Generationen die Rekonstruktion des Signals
erster Generation.
[0049] Probleme erwachsen aus der Aufgabe, die Seiteninformation zusätzlich zu den dekomprimierten
Signaldaten zu verwalten. Dies führt ad hoc zu
- ≥ 2 Dateien für eine Audiodatei (eigentliche PCM-Daten und Seiteninformation),
- einem neuen Datenformat zur Speicherung der Seiteninformation,
- dem Problem, dass die Seiteninformation nicht ohne weiteres über Standardmedien (z.B.
CD oder DAT) transportiert werden kann,
- einem erhöhten Datenaufkommen.
[0050] Die erste Grundidee liefert ein Verfahren, das PCM-Daten und Seiteninformation in
eine gemeinsame Datei codiert (Hybridcode). Diese Datei ist sowohl als Audiodatei
verwendbar und auf Standardmedien ohne wahrnehmbaren Qualitätsverlust wiederzugeben,
als auch von einem entsprechenden Codierer so entschlüsselbar, dass die gesamte Seiteninformation
rekonstruiert werden kann. Das wichtigste Prinzip hierbei ist die Verwendung der psychoakustischen
Parameter in einer Weise, die die Kombination von PCM-Code und Seiteninformation ohne
Qualitätsverlust erlaubt. Grob beschreiben die Maskierungsparameter, in welche Subbänder
die Seiteninformationen codiert werden können. Das hier entwickelte Prinzip kann durch
Verfahren mit den Merkmalen des Anspruchs 1 realisiert werden. Genauer gesagt werden
die Seiteninformationen im Transformationsbereich in die Teilbandsignale entsprechend
der vom psychoakustischen Modell induzierten Quantisierungsvergröberung eingebettet.
Somit löst die Anwendung des erfindungsgemäßen Verfahrens die oben aufgezählten Probleme.
[0051] Die Codierung in die Subbandsignale, die als "gezielte Dequantisierung" beschrieben
werden kann und die in der Signalverarbeitung einer Art Aufmodulierung auf ein Trägersignal
entspricht, verwendet die zweite Grundidee. Diese Idee führt zu einem Algorithmus,
der unter Verwendung einer geringen Mehrinformation die gezielte Dequantisierung so
erlaubt, dass die Anforderungen des psychoakustischen Models eingehalten werden. Dies
garantiert, dass der Hybridcode perzeptuell mindestens die Qualität einer entsprechenden
Audiodatei erster Generation, die ohne Anwendung des Verfahrens erstellt wurde, besitzt.
Der Preis hierfür ist die geringfügig größere Seiteninformation, die eine leicht vergrößerte
komprimierte Datei liefert. Dieses zweite Prinzip kann vorteilhaft durch ein Verfahren
mit den Merkmalen des Anspruchs 2 realisiert werden. Die in diesem Anspruch genannte
Tendenzinformation entspricht der oben genannten Mehrinformation.
[0052] Sollen die letztgenannten Verfahren im Zusammenhang mit heterogenen Codec-Kaskaden
(dies sind Codec-Kaskaden bestehend aus Codierern mit verschiedenen Codiervorschriften)
verwendet werden, so ist eine Adaptierung der Seiteninformation an die neuen Codiervorschriften
nötig.
[0053] Zwei Anwendungsbeispiele werden nachfolgend unter Bezugnahme auf die Abbildungen
7 und 8 im Detail beschrieben.
Funktionsweise des Codec gemäß Ausführungsbeispiel 1
[0054] Das Schema des vorgeschlagenen Codecs ist in Abb. 7 dargestellt. Zur Beschreibung
der Funktionsweise betrachten wir zunächst den Decoderteil. Die Seiteninformation
5 und die Codewörter Q der Subbandsamples werden zunächst aus dem Übertragungskanal
gewonnen. Die Seiteninformation dient der Dequantisierung der Codewörter in Subbandsamples
Q'. Das Modul zur robusten Codierung R verwendet nun das oben genannte Verfahren zur
Aufmodulierung der Seiteninformation in geeignete Subbandsamples. Zur späteren Erkennung
der Aufmodulierung durch den Encoder werden die Subbandsamples mit einer Bit-Signatur
versehen. Abschließend erzeugt die inverse Subbandtransformation den Hybrid-PCM-Code
y'.
[0055] Der Encoder kann zwei Typen von Inputsignalen verarbeiten, Originaldaten (PCM-Daten)
und Hybrid-PCM-Code. Auf Originaldaten arbeitet der Coder genauso wie ein herkömmlicher
Subbandcoder. Die Entscheidung zwischen Original- und Hybridcode fällt der Detektor
D, der nach Subbandtransformation des Inputs versucht, die Bit-Signatur zu erkennen.
Wurde die Bit-Signatur erkannt, wird die gesamte Seiteninformation aus den Subbandsamples
extrahiert. Falls nicht, wird auf herkömmliche Weise mit Hilfe des psychoakustischen
Modells die Seiteninformation bestimmt. Anschließend bestimmt der Encoder durch Quantisierung
die Codewörter Q (in Abb. 7 mit Code Q bezeichnet).
Funktionsweise des Codec gemäß Ausführungsbeispiel 2
[0056] Abb. 8 zeigt eine Codecstufe des erfindungsgemäßen Verfahrens. Das zeitliche Audiosignal
1 wird blockweise von der Filterbank 2 in Teilbänder 30 zerlegt und dem Detektor 31
zugeführt. Der Detektor 31 versucht, von vorherigen Codecstufen eingebettete Informationen
zu erkennen und deren Integrität zu prüfen. Ist dies erfolgreich, initiiert er den
Decoderprozess 33 unter Übergabe der Teilbandwerte 32. Dieser extrahiert die zur Quantisierung
benötigten Parameter 36 und führt diese dem Quantisierer 4 und dem Multiplexer 6 zu.
Ebenfalls führt der Decoder 33 die bearbeiteten Teilbandwerte 34 dem Quantisierer
4 zu. Ist die Detektion oder Integritätsprüfung des Detektors 31 nicht erfolgreich,
initiiert 35 der Detektor eine blocksynchrone psychoakustische Analyse 7 des zeitlichen
Audiosignals 1. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination
mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung
errechnen sich Quantisierungsparameter 10 unter deren Verwendung die, in diesem Fall
von der Filterbank 2 zum Quantisierer 4 durchgeschleiften, Teilbandwerte (identifizierte
30 und 34) vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 überführt werden.
Diese Codewörter 5 werden zusammen mit den zur Quantisierung bzw. Rückquantisierung
benötigten Parametern 11 einem Multiplexer 6 zugeführt, der diese wie auch immer zur
weiteren Übertragung codiert, und überträgt 12. Decoderseitig decodiert ein Demultiplexer
13 die Codewörter 14 und die zur Quantisierung bzw. Rückquantisierung benötigten Quantisierungsparameter
15 und führt diese der Rückquantisierungsstufe 16 sowie der Einbettungsstufe 20 zu.
Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 der Einbettungsstufe
20 zugeführt, die die Einbettung der Quantisierungsinformationen 15 in die rückquantisierten
Teilbandsignale durchführt.
1. Verfahren zum Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines
Signals, insbesondere Audiosignals, bei dem für mindestens einen Block des Signals
- die Parameter einer Berechnungsvorschrift zur Verfügung stehen,
- eine Teilband- oder Spektraltransformation des Signals zur Erzeugung eines transformierten
Signals mit einer Auflösung durchgeführt wird,
- aufgrund der Parameter eine Datenreduktion durch Quantisierung durchgeführt wird,
- eine Umkehrung der Datenreduktion durch Rückquantisierung durchgeführt wird,
- und eine Rücktransformation durchgeführt wird,
dadurch gekennzeichnet,
- dass in mindestens einem Teilband, einer Untermenge eines Teilbands oder einer Untermenge
von Spektralkomponenten der rückquantisierten Daten die Zusatzinformation an Stellen
eingebettet wird, die infolge der vorherigen Quantisierungsschritte in einer Auflösung
repräsentiert sind, die gröber ist als die Auflösung des transformierten Signals.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mit Hilfe einer aus dem Originalsignal
gewonnenen Tendenzinformation die Einbettung der Zusatzinformation in die Signalwerte
durch Addition oder Subtraktion so durchgeführt wird, dass der ursprüngliche Quantisierungsfehler
nicht überschritten wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Zusatzinformation durch
Ersetzen der niederwertigen Bits entsprechend der Quantisierungsvergröberung eingebettet
wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die eingebettete Zusatzinformation
mit einem fehlerkorrigierenden Code versehen wird.
5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die eingebettete
Zusatzinformation mit einem arithmetischen Code versehen wird.
6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Zusatzinformation redundant
oder mit einem fehlerkorrigierenden Code versehen eingebettet wird.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass Kaskaden
von zwei oder mehreren Einbettungs- und Rücktransformationsschritten vorgesehen sind.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Position,
die Größe oder die Bitbreite der eingebetteten Zusatzinformation durch Codierung individueller
Blöcke der Zusatzinformation markiert wird.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Position,
die Größe oder die Bitbreite der eingebetteten Zusatzinformation separat in Form eines
Inhaltsverzeichnisses in bestimmte Teilbänder oder Untermengen von Spektralkomponenten
eingebettet wird.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass zwischen
Quantisierung und Dequantisierung eine Speicherung und/oder weitere Verarbeitungs-,
Codierungs- und/oder Übertragungsschritte des quellencodierten und datenreduzierten
Datenstroms durchgeführt wird/werden.
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass die Schritte
der Quantisierung und Dequantisierung innerhalb einer Funktionseinheit ausgeführt
werden.
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass zusätzlich
zur Quantisierung Skalenfaktoren zur Datenreduktion verwendet werden.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass die Berechnungsvorschrift
ein psychoakustisches Modell ist.
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass die Zusatzinformation
aus den Parametern der Berechnungsvorschrift oder aus Teilen der Parameter der Berechnungsvorschrift
besteht.
15. Verwendung des Verfahren nach einem der Ansprüche 1 bis 14 zum kaskadierten Codieren
und Decodieren von Signalen, bei dem die Berechnungsvorschrift eine Codiervorschrift
ist und bei dem der Schritt der Codierung unter Verwendung der Parameter der Codiervorschrift
durchgeführt wird.
16. Verwendung nach Anspruch 15, dadurch gekennzeichnet, daß die Parameter der Codiervorschrift
vor dem Schritt der Einbettung zur Anpassung an eine andere Vorschrift modifiziert
werden.