(19)
(11) EP 1 030 290 A2

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
23.08.2000  Patentblatt  2000/34

(21) Anmeldenummer: 00103108.7

(22) Anmeldetag:  16.02.2000
(51) Internationale Patentklassifikation (IPC)7G10L 19/02
(84) Benannte Vertragsstaaten:
AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE
Benannte Erstreckungsstaaten:
AL LT LV MK RO SI

(30) Priorität: 17.02.1999 DE 19906513
17.02.1999 DE 19906512

(71) Anmelder:
  • Kurth, Frank
    53604 Bad Honnef (DE)
  • Clausen, Michael
    54321 Meckenheim (DE)

(72) Erfinder:
  • Kurth, Frank
    53604 Bad Honnef (DE)
  • Clausen, Michael
    54321 Meckenheim (DE)

(74) Vertreter: Hilleringmann, Jochen, Dipl.-Ing. et al
Patentanwälte von Kreisler-Selting-Werner, Bahnhofsvorplatz 1 (Deichmannhaus)
50667 Köln
50667 Köln (DE)

   


(54) Verfahren zum unbemerkten übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals


(57) Um bei der Übertragung und/oder Speicherung digitalisierter Signale, insbesondere Audiosignale Zusatzinformationen übertragen und/oder speichern zu können, wird
  • das Signal blockweise in Teilbänder oder Spektralkomponenten transformiert,
  • mit Hilfe einer Berechnungsvorschrift, insbesondere eines psychoakustischen Modells für jeden der Blöcke eine Menge von Parametern zur Datenreduktion bestimmt,
  • das Signal aufgrund dieser Parameter durch Quantisierung der in einer bestimmten Auflösung gegebenen Teilband- oder Spektralwerte datenreduziert und codiert,
  • der Code decodiert und rückquantisiert,
  • in mindestens ein Teilband oder eine Menge von Spektralkomponenten die Zusatzinformation an Stellen eingefügt, die durch die Datenreduktion in eine gröbere Darstellung übergegangen sind, und
  • aus den Teilbändern oder Spektralkomponenten durch Rücktransformation ein zeitliches Signal wiedergewonnen.

Dabei wird das ursprüngliche Datenformat beibehalten. Das Verfahren arbeitet auf Audiosignalen, die auf herkömmlichen digitalen Medien (CD, DAT, Rechner) anfallen. Die unter Berücksichtigung psychoakustischer Merkmale eingebetteten Zusatzinformationen sind im Audiosignal verborgen und können unter Verwendung eines entsprechenden Coders bzw. Decoders wiedergewonnen werden.




Beschreibung


[0001] Die Erfindung betrifft ein Verfahren zum unbemerkten Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals entsprechend dem Oberbegriff des Anspruchs 1. Ferner betrifft die Erfindung die Anwendung dieses Verfahrens beim kaskadierten Codieren und Decodieren von Signalen, insbesondere Audiosignalen.

Begriffe



[0002] Die Begrifflichkeiten innerhalb der Beschreibung der Erfindung legen sich wie folgt fest. Digitale Audiosignale sind eine Repräsentation akustischer Signale als Folge diskreter zeitlicher Abtastwerte. Eine solche Repräsentation findet z.B. auf CDs, DAT-Geräten oder Digitalrechnern Anwendung. Charakteristisch ist eine bestimmte Abtastrate, z.B. 32000, 44100 oder 48000 Hz, sowie eine bestimmte Quantisierungsgenauigkeit, z.B. 12 oder 16 Bit. Hierbei gibt die Abtastrate die Anzahl diskreter Werte pro Sekunde und die Quantisierungsgenauigkeit die Anzahl verwendeter Bits pro Abtastwert an. Der Oberbegriff des Anspruch 1 umfasst die Verwendung der Komponenten eines Audiocodierverfahrens. Ein typisches solches Audiocodierverfahren ist durch den Standard ISO 11172-3 gegeben. Aufgabe von Verfahren nach ISO 11172-3 ist die Darstellung eines digitalen Audiosignals in einer codierten, datenreduzierten Form sowie die Rückgewinnung des digitalen Audiosignals hieraus. Die datenreduzierte Form besteht aus digitalen Codewörtern zur Darstellung des eigentlichen Signalinhalts, sowie aus Steuerinformationen zur decoderseitigen Bestimmung der Art der Datenreduktion und Ermöglichung der Rekonstruktion eines digitalen Audiosignals.

[0003] Charakteristisch für solche Audiocodierverfahren ist die Überführung oder Transformation digitaler Audiosignale in eine Teilband- oder Spektralkomponentenrepräsentation bzw. eine entsprechende Rücküberführung oder Rücktransformation aus dieser heraus. Die Werte der Teilband- oder Spektralkomponenten werden als im digitalen Audiosignal enthaltene Frequenzen oder Frequenzbänder interpretiert. Die Begriffe Teilband- und Spektralkomponenten finden im folgenden an allen Stellen eine synonyme Anwendung, an denen nur von Teilbandkomponenten gesprochen wird. Die Datenreduktion wird auf den Teilbandsignalen, üblicherweise durch den Vorgang der Quantisierung, durchgeführt. Dabei werden die Teilbandwerte durch Codewörter dargestellt, die charakteristischerweise mit weniger Bits als die Teilbandwerte repräsentiert werden. Die Datenreduktion kann weitere Schritte umfassen. Dazu gehört z.B. die Bildung von Skalenfaktoren, die durch Ausnutzung ähnlicher Amplitudenwerte innerhalb des Teilbandsignals eine kompakte Darstellung bestehend aus einem die Größenordnung der Amplituden beschreibenden Codewort, sowie mehreren den Inhalt der Teilbandwerte beschreibenden Codewörtern, erlaubt. Die übrigen verwendeten Begrifflichkeiten ergeben sich aus dem Standard ISO 11172-3.

Stand der Technik



[0004] Verfahren zur unbemerkten Übertragung von Zusatzinformation innerhalb anderer Datensätze sind auch als Steganographieverfahren bekannt. Diese finden besonders in der Bildverarbeitung Anwendung. Zahlreiche Grundverfahren des Standes der Technik ersetzen im wesentlichen die niederwertigsten Bits eines Datensatzes durch Bits der einzubettenden Zusatzinformation. Verfahren, die das Ziel verfolgen, die Zusatzinformation innerhalb eines datenreduzierten Signals abzulegen, betten die Zusatzinformation häufig nach psychovisuellen oder psychoakustischen Gesichtspunkten in den Code der datenreduzierten Werte ein.

[0005] Ein Verfahren zum unbemerkten Übertragen und/oder Speichern von Zusatzinformation innerhalb eines codierten datenreduzierten Audiosignals unter Ausnutzung psychoakustischer Gesichtspunkte ist aus DE 44 30 864 A1 bekannt. Entsprechende Verfahren speichern die Zusatzinformation in den niederwertigen Bits der datenreduzierten Codewörter an den Stellen, an denen den reduzierten Codewörtern mehr Bits zur Verfügung stehen als für eine Codierung, die frei von subjektiven Beeinträchtigungen ist, laut psychoakustischem Modell nötig ist. Als Variante kann sowohl durch die Entwendung zusätzlicher niederwertiger Bits, mit einer möglichen subjektiven Verschlechterung der Tonqualität, als auch, durch eine Erhöhung der Bitrate des Codes, bei Beibehaltung der durch den Coder produzierten Teile der datenreduzierten Codeworte, eine Erhöhung der Datenrate für die Zusatzinformation erreicht werden. In einem Ausführungsbeispiel für den letzteren Fall wird die Länge der binären Codeworte durch Anfügen der zusätzlich eingefügten Bits an den Stellen, die vom Decoder als niederwertigste Bits aufgefasst werden, erhöht. Ein Decoder der keine Kenntnis von der Zusatzinformation hat, decodiert das verlängerte Codewort. Erweitert man dieses Verfahren um die Decodierung eines gegebenen Datenstroms zu einem zeitlichen Audiosignal, erhält man ein Verfahren zum Übertragen von Zusatzinformationen innerhalb von Audiosignalen.

[0006] Verfahren aus der Bildverarbeitung, deren Aufgabe die Einbettung eines digitalen Wasserzeichens in ein gegebenes Bild ist, sind von der Aufgabenstellung her verwandt, unterscheiden sich aufgrund der stark unterschiedlichen Eigenschaften zwischen Bild- und Audiosignalen jedoch erheblich vom erfindungsgemäßen Verfahren und werden daher hier nicht weiter berücksichtigt.

Nachteile des Standes der Technik



[0007] Die bekannten Verfahren, die mittels direkter Manipulation niederwertiger Bits zeitlicher Signale arbeiten, bringen schon bei sehr kleinen Anzahlen veränderter Bits pro Codewort bzw. bei einer sehr kleinen Einbettungsbitbreite erhebliche Qualitätsverluste mit sich. Somit ist die Einbettung bei Kenntnis des Originalsignals perzeptuell erkennbar. Weiterhin sind die auf diese Weise eingebetteten Zusatzinformationen leicht und ohne weitere Hilfsmittel aus dem Audiosignal ablesbar. Verfahren, die Signale in Teilbänder transformieren, dort die niederwertigen Bits der Teilbandwerte ohne deren gezielte Auswahl manipulieren und danach ein zeitliches Signal rekonstruieren, schaffen zwar Abhilfe gegen die leichte Ablesbarkeit der eingebetteten Zusatzinformation, liefern aber schon bei geringen verwendeten Bitbreiten unerwünschte Qualitätseinbußen beim zeitlichen Audiosignal.

[0008] Das Verfahren nach DE 44 30 864 A1 bettet die Zusatzinformationen in den datenreduzierten Code ein, allerdings erlaubt eine Erweiterung durch einen nachgeschalteten Decoder wie oben beschrieben, eben diese Zusatzinformationen in das zeitliche Audiosignal einzubetten. Besonders bei geringen erlaubten Bitraten des datenreduzierten Codes ist jedoch zu erwarten, dass die Menge der übertragbaren Zusatzinformationen pro Datenblock nur klein sein wird. Weiterhin liefert die in den Ausführungsbeispielen zu DE 44 30 864 A1 angewandte Technik der Erweiterung der Codewörter um niederwertige Bits bei zahlreichen Quantisierungs- bzw. Dequantisierungsarten einen Rekonstruktionsfehler, der im allgemeinen über dem Rekonstruktionsfehler, der bei Verwendung der nicht erweiterten Codewörter auftritt, entsteht, liegt. Daher kann bei diesem Verfahren das induzierte Rauschen die Maskierungsschwelle übersteigen und somit Qualitätseinbußen des zeitlichen Audiosignals verursachen.

Aufgaben der Erfindung



[0009] Die Aufgabe des erfindungsgemäßen Verfahrens besteht darin, die Einbettung der Zusatzinformationen in die decodierten und rückquantisierten Subbandsignale derart vorzunehmen, dass sie bei einer Wiedergabe des zeitlichen Audiosignals nicht mehr wahrnehmbar ist.

[0010] Eine Variante des Verfahrens hat die Aufgabe, die Zusatzinformationen so in die Teilbandsignale einzubetten, dass der durch die Quantisierung induzierte Rekonstruktionsfehler durch die Einbettung nicht vergrößert wird.

[0011] Eine weitere Aufgabe der Erfindung ist die möglichst optimale Ausnutzung der nach psychoakustischen Gesichtspunkten zur Verfügung stehenden Kapazität für die einzubettenden Zusatzinformationen.

[0012] Eine weitere Aufgabe betrifft die Codierung und Einbettung der Zusatzinformation derart, dass ein entsprechender. Coder bzw. Decoder diese wieder rekonstruieren kann. Dies ermöglicht die Übermittlung der Zusatzinformation an einen Empfänger.

[0013] Eine weitere Aufgabe des erfindungsgemäßen Verfahrens besteht in der Robustheit des verwendeten Codes gegenüber arithmetischen Fehlern des Transformations-Rücktransformationspaares, wie sie z.B. bei der im Standard ISO 11172-3 verwendeten Teilbandtransformation auftreten.

Lösung der Aufgabe



[0014] Die Aufgabe wird durch die kennzeichnenden Merkmale eines Verfahrens nach Anspruch 1 gelöst. Vorteilhafte Weiterbildungen und Ausgestaltungen und Verwendungen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.

Beschreibung des Verfahrens



[0015] Die Erfindung macht sich Eigenschaften von Verfahren nach dem Oberbegriff des Anspruchs 1 zu Nutze. Audiosignale werden in aufeinanderfolgenden oder sich untereinander überlappenden Blöcken zeitlich zusammenhängender Signalwerte, z.B. unter Verwendung von gefensterten Fouriertransformationen, Cosinustransformationen und/oder Filterbänken, in Teilbandsignale zerlegt. Mit Hilfe psychoakustischer Modelle werden die Parameter zur Datenreduktion so festgelegt, dass, oft unter der Bedingung der Einhaltung der maximal für einen Datenblock verfügbaren Bitrate, das durch die Datenreduktion verursachte Rauschen die Maskierungsschwelle, die festlegt, ob gewisse Spektralkomponenten hörbar sind, nicht überschreitet. Zu den Parametern der Datenreduktion gehören bei den meisten Verfahren die Art der Quantisierung, der dafür pro Block zur Verfügung gestellte Platz in Form der Bitbreite eines Codewortes pro Teilblock, sowie Skalenfaktoren. Bei der Quantisierung werden Signalwerte eines zusammenhängenden Amplitudenbereichs auf ein Codewort abgebildet. Der Decoder bildet bei der Rückquantisierung dieses Codewort auf einen Repräsentanten innerhalb des initialen Amplitudenbereichs ab. Zur Reduzierung des maximalen Rekonstruktionsfehlers auf die Hälfte der Intervallgröße wird für solch einen Repräsentanten ein Wert in der Mitte des Intervalls gewählt. Da bei der Rückquantisierung kein Codewort auf die anderen Werte innerhalb des Amplitudenbereichs abgebildet wird, können diese zum Transport der Zusatzinformationen verwendet werden. Die Aufgabe der Einbettung der Zusatzinformationen wird durch gezielte Abbildung auf bestimmte Repräsentanten innerhalb des Amplitudenbereichs gelöst. Dabei gibt das Codewort den Rückquantisierungsrepräsentanten und die einzubettende Zusatzinformation die Position innerhalb des Amplitudenbereichs des Repräsentanten an.

[0016] In einer ersten Ausprägung des Verfahrens wird diese Repräsentantenauswahl durch direktes Ersetzen der niederwertigen Bits durch Teile des einzubellenden Codes durchgeführt. Diese Methode führt bei vielen Quantisierungs- bzw. Rückquantisierungsarten im allgemeinen zu einem höheren als dem maximal durch diese Quantisierung normalerweise verursachten Quantisierungsfehler. Bei manchen Anwendungen ist dieser Fehler jedoch akzeptabel.

[0017] In einer Variante des Verfahrens wird encoderseitig zu jedem für das Verfahren relevanten Teilbandwert ein Tendenzbit in den Code integriert, das angibt, ob dieser Teilbandwert größergleich dem zur Rekonstruktion verwendeten Repräsentanten ist, oder kleiner. Die für die Einbettung des Codes zur Verfügung stehenden Werte des Amplitudenbereichs werden in solche größergleich dem zur Rekonstruktion verwendeten Repräsentanten und solche kleiner diesem Repräsentanten eingeteilt. Zeigt das übertragene Tendenzbit, dass der ursprüngliche Teilbandwert größergleich dem zur Rekonstruktion verwendeten Repräsentanten war, wird einer der Amplitudenwerte größergleich diesem Repräsentanten als Codierung der Zusatzinformationen verwendet, ansonsten einer der Amplitudenwerte kleiner dem des Repräsentanten. Dies kann durch Addition bzw. Subtraktion der Binärdarstellung des Codes und des Repräsentanten realisiert werden. Auf diese Art und Weise wird der ursprüngliche Rekonstruktionsfehler durch die Einbettung nicht vergrößert.

[0018] Der Einbettung der Zusatzinformationen schließt sich die Rücktransformation des bearbeiteten Blockes, mit Zusammensetzung der resultierenden zeitlichen Datenblöcke zu einem zeitlichen Audiosignal, an.

[0019] Die Rückgewinnung der eingebetteten Zusatzinformationen kann blockweise nach Durchführung der, zur obigen Rücktransformation gehörigen, Umkehrtransformation durchgeführt werden. Unter der Annahme der Invertierbarkeit oder Umkehrbarkeit der Transformation, kann ein entsprechender Decoder aus den resultierenden Teilbandsignalen die vom Einbettungsmechanismus ausgewählten Amplitudenwerte ablesen und unter Verwendung der bekannten zur Rekonstruktion verwendeten Repräsentanten die Zusatzinformation extrahieren.

[0020] Es werden vorteilhafte Varianten und Erweiterungen des beschriebenen Verfahrens angegeben. Da in Decoderstufen meist nicht die Parameter des psychoakustischen Modells, sondern nur die zur Decodierung benötigten Parameter zur Verfügung stehen, ist es vorteilhaft, den für die Einbettung zur Verfügung stehenden Platz für die verschiedenen Gebiete der Teilbänder oder Frequenzregionen aus den Decodierparametern zu berechnen. Dabei kann die Quantisierungsauflösung in Verbindung mit der Quantisierungsart zur Errechnung der maximal einbettbaren Codegröße der Zusatzinformation verwendet werden. Bei Benutzung von Skalenfaktoren ist die obige maximal einbettbare Codegröße um den durch die Skalierungsfaktoren bei der Rekonstruktion erzielten Genauigkeitsgewinn zu reduzieren.

[0021] In der Praxis vorkommende Transformations- und Rücktransformationsverfahren liefern in der Regel Arithmetik- oder Rekonstruktionsfehler innerhalb des bearbeiteten Datenstroms. Zur Vermeidung einer Beeinträchtigung des eingebetteten Codes ist es zweckmäßig, obiges Tendenzbit-Verfahren unter Verwendung von Redundanz durchzuführen. Weiterhin ist es zweckmäßig, bei Verfahren, die die oben beschriebene direkte Biteinbettung verwenden, die Codewörter der Zusatzinformationen jeweils mittels eines Codes gegen Arithmetik- oder Transformationsfehler zu sichern.

[0022] Zwecks Decodierbarkeit der eingebetteten Zusatzinformationen seitens eines dafür vorgesehenen Coders, ist es von Vorteil, den eingebetteten Code mit charakteristischen Merkmalen oder Marken zu versehen, die auf die zur Einbettung verwendeten Teilbandwerte verweisen, sowie Bitbreite und Position des Codes innerhalb dieser Teilbandwerte enthalten. Da beliebige Signale Eingabe eines solchen Coders sein können und somit Fehldecodierungen möglich sind, sollte eine eingebettete Marke von einer Qualität sein, die eine Entscheidung über einen vorhandenen Code mit einer hohen Erfolgswahrscheinlichkeit erlaubt.

[0023] Möglich ist weiterhin eine Kaskadierung der Schritte
  • Einbettung der Zusatzinformation,
  • Umkehrtransformation.


[0024] Dies kann z.B. bei Verfahren wie ISO 11172-3, Layer III, von Vorteil sein, die eine Kaskade zweier verschiedener Transformationen zur Spektralkomponentenzerlegung verwenden. Zur Rückgewinnung der eingebetteten Zusatzinformation ist hier die entsprechend umgekehrte Reihenfolge der Transformations-Decodierstufen zu verwenden.

Vorteile der Erfindung



[0025] Die Vorteile des Verfahrens liegen einerseits in der großen Kapazität an übertragbarer Zusatzinformation, wie sie aus der Ausnutzung der vergröberten Darstellung der rückquantisierten Teilbandwerte resultiert. Wird weiterhin beim verwendeten Audiocodec die geforderte Bitrate erniedrigt, sinkt z.B. bei Verfahren nach DE 44 03 864 A1 im allgemeinen die Bitkapazität, wohingegen beim erfindungsgemäßen Verfahren, unter der realistischen Annahme einer induzierten gröberen Quantisierung, die Bitkapazität ansteigt. Vorteilhaft ist weiterhin, dass Verfahren nach Unteransprüchen 2 und 6 gewährleisten, dass der ursprüngliche, durch die Datenreduktion und Rekonstruktion entstandene Rekonstruktionsfehler nicht überschritten wird. Somit wird die durch das gewählte psychoakustische Modell gewährleistete Qualität des rekonstruierten Audiosignals im Gegensatz zu Verfahren nach dem Stand der Technik nicht verschlechtert, sondern in der durch die Datenreduktion induzierten Qualität belassen.

[0026] Das Verfahren verändert weiterhin bei Audiocodecs mit den Merkmalen nach dem Oberbegriff des Anspruchs 1 nicht den encoderseitig erzeugten datenreduzierten Code und benötigt lediglich die Kenntnis über die Art der Datenreduktion (Quantisierungsart, Skalenfaktoren u.ä.) und die dabei verwendeten Einstellungen. Daher ist das Verfahren einfach auf eine Vielzahl verschiedener solcher Codecs anzupassen. Bei dem Standard ISO 11172-3 liefern beispielsweise die dem Decoder zur Rückgewinnung des zeitlichen Audiosignals übermittelten Steuerinformationen bereits alle zur Einbettung der Zusatzinformation benötigten Parameter. Daraus folgt weiterhin, dass bei dem Verfahren der Einbettung sowohl zeitliche Audiosignale als auch datenreduzierter Code als Eingabe dienen können. Dies gilt jedoch bei Verfahren nach den Unteransprüchen 2 und 6 nur, wenn in den datenreduzierten Code als Zusatzinformation die benötigten Tendenzinformationen eingefügt wurden.

[0027] Vorteilhaft ist außerdem, dass sowohl eine Wiedergabe und Verwendung auf herkömmlichen digitalen Medien als auch die Decodierung der eingebetteten Zusatzinformationen durch einen entsprechenden Coder bzw. Decoder möglich ist.

Anwendungsgebiete



[0028] Das erfindungsgemäße Verfahren findet als universelle Methode zur versteckten Übermittlung von Zusatzinformationen in herkömmlichen digitalen Audiosignalen zahlreiche Anwendungen, insbesondere als speziell auf Audiosignale ausgerichtetes Steganographieverfahren. Als Anwendungsbeispiel ist die Verschlüsselung von Texten, Noten, Instrumentierung oder anderen inhaltsbasierten Merkmalen innerhalb des Audiodatenstroms denkbar. Diese Informationen können z.B. auf, mit dem erfindungsgemäßen Verfahren konformen Decodern ausgestatteten, CD-Spielern verwendet werden. Dies kann etwa zur simultanen Ausgabe von akustischen und textuellen Informationen zu Musikstücken, die Gesangsstimmen enthalten, genutzt werden. Bei nicht mit einem solchen Zusatzdecoder ausgestatteten Wiedergabemedien entstehen in diesem Falle keine Beeinträchtigungen der Tonqualität.

[0029] Weiterhin liegt die Anwendung auf Systemen, die naturgemäß psychoakustische Transformations- oder Teilbandcoder verwenden, nahe. Dies können z.B. Audiodatenbanken sein, die heutzutage häufig datenreduzierte Archivierungsformen für Audiomaterial verwenden. Wird beispielsweise ein Musikstück aus der Datenbank eines Audio-on-Demand Anbieters extrahiert, decodiert und auf CD an einen Kunden geschickt, so können Zusatzinformationen wie Versandtag, Vertreiber, Käufer oder sogar Copyrightrechte unbemerkt eingebettet werden.

[0030] Die Verwendung eines geheimgehaltenen Transformationsverfahrens in Verbindung mit einem gegen leichte Signalveränderungen robusten Codec für die eingebettete Information erlaubt hier einen recht effektiven Schutz gegen Decodierung und/oder Entfernung der Copyrightinformation durch Unbefugte.

Ausführungsbeispiele



[0031] Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen:
Abb. 1
Blockschaltbild eines konventionellen Codecs,
Abb. 2
Blockschaltbild eines Codecs zur Einbettung mit dem Bitersetzungsverfahren,
Abb. 3
Blockschaltbild eines Codecs zur Einbettung mit dem Tendenzbitverfahren,
Abb. 4
Illustration des Bitersetzungsverfahrens,
Abb. 5
Illustration des Tendenzbitverfahrens,
Abb. 6
Blockschaltbild eines Decoders zur Rückgewinnung der eingebetteten Zusatzinformationen,
Abb. 7
eine Codecstufe gemäß einem ersten Ausführungsbeispiel einer Anwendung der Erfindung und
Abb. 8
eine Codecstufe gemäß einem zweiten Ausführungsbeispiel einer Anwendung der Erfindung.


[0032] Eigenheiten der in der Zeichnung dargestellten Codecs und Teilbänder sind:
  • Die verwendete Transformation ist eine Teilbandtransformation (keine Spektraltransformation).
  • Das Eingangssignal ist monophon.
  • Die Datenreduktion findet nur in Form einer Quantisierung statt.
  • Die Anzahl der Teilbänder ist größer als drei.
  • Die Anzahl Bits pro Teilbandwert beträgt zwölf.
  • Die Anzahl Teilbandwerte pro Teilband und Signalblock beträgt acht.
  • Die dargestellte Quantisierung in Abbildung 4 bildet einen zwölf Bit Teilbandwert auf ein vier Bit Codewort ab.
  • Die Teilbandwerte sind binär codiert, und das niederwertigste Bit ist in der Abbildung rechts dargestellt.
  • Die funktionalen Einheiten 4, 6, 13 und 16 werden einzeln betrachtet (Diese können je nach Anwendungsbeispiel innerhalb einer einzigen funktionalen Einheit realisiert werden. Insbesondere können, falls der erzeugte datenreduzierte Code 12 nicht separat verwendet werden soll, die Einheiten 6, 12 und 13 wegfallen. Somit werden die Daten 5 und 14, sowie 11 und 15, sowie 22 und 23 identifiziert.)


[0033] Eigenheiten des in Abbildung 5 dargestellten Tendenzbitverfahrens sind:
  • Der Amplitudenbereich des betrachteten Teilbandwerts ist 0,1,2,...,9.
  • Die Anzahl der gewählten Codeworte ist zwei.
  • Die Unterteilung des Amplitudenbereichs ist linear.
  • Die Rückquantisierung erfolgt auf den Mittelpunkt des dem jeweiligen Codewort zugeordneten Intervalls.


[0034] Abb. 1 zeigt einen konventionellen Audiocodec. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron einer psychoakustischen Analyse 7 unterzogen. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10 unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 überführt werden. Diese Codewörter 5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern 11 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung codiert, und überträgt 12. Decoderseitig decodiert ein Demultiplexer 13 die Codewörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter 15 und führt diese der Rückquantisierungsstufe 16 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 der Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals 19 transformiert.

[0035] Abb. 2 zeigt einen Audiocodec zur Einbettung von Zusatzinformationen mit dem Bitersetzungsverfahren. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron einer psychoakustischen Analyse 7 unterzogen. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10 unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 überführt werden. Diese Codewörter 5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern 11 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung codiert und überträgt 12. Decoderseitig decodiert ein Demultiplexer 13 die Codewörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter 15. Der Demultiplexer 13 führt die Codewörter 14 dem Rückquantisierer 16 sowie die Quantisierungsparameter 15 dem Rückquantisierer 16 und dem Einbettungsmodul 20 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 dem Einbettungsmodul 20 zugeführt. Mit Hilfe der Quantisierungsparameter 15 bestimmt das Einbettungsmodul 20 Parameter für die Einbettung nach der Bitersetzungsmethode und führt die Einbettung der Zusatzinformationen 25 durch. Die resultierenden Teilbandsignale 21 werden der Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals 19 transformiert.

[0036] Abb. 3 zeigt einen Audiocodec zur Einbettung von Zusatzinformationen mit dem Tendenzbitverfahren. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron einer psychoakustischen Analyse 7 unterzogen. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10 unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 überführt werden. Zusätzlich errechnet der Quantisierer 4 bei der Datenreduktion die Tendenzbit-Information der relevanten Teilbandwerte. Zur Bestimmung relevanter Teilbandwerte errechnet der Quantisierer 4 die Anzahl der zur Einbettung der Zusatzinformation 25 benötigten Teilbandwerte and wählt anschließend Teilbandwerte aus. Die Codewörter 5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern 11 sowie der Tendenzbitinformation 22 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung codiert und überträgt 12. Decoderseitig decodiert ein Demultiplexer 13 die Codewörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter 15. Der Demultiplexer führt die Codewörter 14 dem Rückquantisierer 16, die Tendenzbitinformation 23 dem Einbettungsmodul 20, sowie die Quantisierungsparameter 15 dem Rückquantisierer 16 und dem Einbettungsmodul 20 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 dem Einbettungsmodul zugeführt. Mit Hilfe der Quantisierungsparameter 15 und der Tendenzbitinformation 23 bestimmt das Einbettungsmodul 20 Parameter für die Einbettung nach der Tendenzbitmethode und führt die Einbettung der Zusatzinformationen 25 durch. Die resultierenden Teilbandsignale werden der Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals 19 transformiert.

[0037] Abb. 4 zeigt ein Beispiel für das Bitersetzungsverfahren. Aus dem ersten Teilband T1 der abgebildeten Teilbänder 1 eines Blocks wird der sechste Teilbandwert betrachtet. Die Quantisierung bildet den zwölf-Bit Teilbandwert 2 auf ein vier-Bit Codewort 3 ab. Die Rückquantisierung 4 bildet den Code 3 auf einen zwölf-Bit Teilbandwert ab. Die Einbettung nach dem Bitersetzungsverfahren ersetzt die acht niederwertigen Bits von 4 durch Bits der Zusatzinformationen (a1,...,a8). Der Teilbandwert mit eingebettetem Code 5 wird an die entsprechende Stelle der rückzutransformierenden Teilbänder 6 eingefügt.

[0038] Abb. 5 zeigt ein Beispiel für das Tendenzbitverfahren für einen Teilbandwert. Die zu übertragende Zusatzinformation Z sei durch einen der Werte 0, 1, oder 2 gegeben. Die zugrunde liegende Quantisierung ist in den Schritten A bis E gegeben. Das exemplarische Amplitudenintervall A von 0 bis 9 ist in die Intervalle A1 von 0 bis 4 und A2 von 5 bis 9 eingeteilt. Werte aus dem Intervall A1 werden auf das Codewort C1 und Werte aus dem Intervall A2 auf das Codewort C2 abgebildet (B und C). Die Rekonstruktion D bildet das Codewort C1 auf den Wert 2 und das Codewort C2 auf den Wert 7 ab. Ein Quantisierer entsprechend 4 aus Abbildung 3 bildet das Tendenzbit T für einen, nach der Vorschrift (A-C) in das Codewort Ci quantisierten, Teilbandwert gemäß Tabelle 1. Die Rückquantisierungsstufe bestimmt aus dem Codewort, der Zusatzinformation Z und dem Tendenzbit T einen rückquantisierten Wert unter Einhaltung der dazu möglichen Werte aus Tabelle 2. Eine dazu anwendbare Vorschrift ist die Addition der Zusatzinformation Z zu dem nach C-E rückquantisierten Wert von Ci, falls T = 1, sowie die Subtraktion der Zusatzinformation Z von dem nach C-E rückquantisierten Wert von Ci, falls T = 0. Die möglichen Rekonstruktionsstufen nach Tabelle 2 folgen aus der Forderung, dass der maximale Quantisierungsfehler wie er durch A-E entsteht, auch unter Verwendung des Tendenzbitverfahrens vom Betrag kleiner als zwei sein soll.

[0039] Abb. 6 zeigt ein Blockschaltbild eines Decoders zur Rückgewinnung der eingebetteten Zusatzinformationen. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 transformiert. Ein Detektor 4 prüft unter Einbeziehung der verwendeten Einbettungsart und Kenntnis aller möglichen Bit- oder Codebreiten, ob eine Markierung eines eingebetteten Codes vorliegt.

[0040] Falls dies der Fall ist, werden Teilbandsignale 5 und Position der Zusatzinformation an eine Extraktionsstufe 6 übergeben, die die Teilbandwerte 7 rekonstruiert und die Zusatzinformationen 8 extrahiert. Ist die verwendete Filterbank nicht translationsinvariant, so kann der Detektor 4 gegebenenfalls eine Translation des zeitlichen Audiosignals 1 steuern 9, und eine Wiederholung der Schritte betreffend der Komponenten 2, 3, 4 und 9 herbeiführen.

[0041] Aufgrund der im Rahmen des erfindungsgemäßen Verfahrens verfügbaren beträchtlichen Kapazität an einbettbarer Information, ist seine Verwendung im Zusammenhang mit einem Verfahren zum kaskadierten Codieren und Dekodieren von Signalen, hier insbesondere Audiosignalen, besonders vorteilhaft. Dies wird nachfolgend anhand von zwei Anwendungsbeispielen ausgeführt.

Anwendungsbeispiel: Kaskadierte Codierung und Decodierung von Signalen


Einleitung



[0042] Wer kennt sie nicht, die Audiocassettenaufnahme der Tonbandkopie der Langspielplatte, die zwar schon einige deutliche Qualitätseinbußen gegenüber dem Original aufzuweisen hat, aber dennoch ein recht zufriedenstellendes Hörerlebnis liefert - zumindest bis die Cassettenrecorderanlage im Pkw mit der Zeit physikalische Abnutzungen bemerkbar macht oder sogar selbst produziert. Spätestens seit dem Beginn des digitalen Zeitalters sollten solche "analogen" Probleme eigentlich der Vergangenheit angehören. Jedoch treten ähnlich Generationseffekte auch im Zusammenhang mit digitalen audiovisuellen Aufnahmen auf Bei Mobilkommunikation mit geringer Bandbreite kann zum Beispiel die Hintereinanderschaltung (Tandeming) mehrerer verschiedener Codier-Decodier-Stufen (Codecs) zu einer signifikanten Verschlechterung der Qualität des zu übertragenden Audiosignals führen. Die Notwendigkeit solcher Codecs erwächst aus der Forderung an eine deutliche Reduzierung der Datenrate (Kompression), Gewährleistung einer Fehlerkorrektur gegenüber Übertragungsfehlern sowie einer möglichen Datenformatwandlung zwischen verschiedenen Netzen.

[0043] Ein weiteres Szenario, welches fortschreitend an Bedeutung gewinnt, liefert die Archivierung großer Datenmengen in digitalen (Musik-) Bibliotheken. Das als Anwendungsbeispiel vorgestellte Verfahren ist daher insbesondere für die Anwendung auf Audiodaten gedacht, funktioniert aber selbstverständlich auch bei anderen Daten, z.B. Videodaten. Aufgrund des massiven Datenaufkommens, wie z.B. bei der digitalen Archivierung von Radioproduktionen, liegt es nahe, die anfallenden Daten in ein platzsparendes Format umzuwandeln. Diese Anforderung leisten die im nächsten Abschnitt beschriebenen psychoakustischen Kompressionsverfahren mit Datenreduktionsraten von bis zu 1:12 bei HiFi-Aufnahmen und perzeptuell transparenter Qualität (keine hörbaren Qualitätsunterschiede). Da die Originaldaten bei solch hohen Kompressionsraten nicht mehr aus dem Code reproduzierbar sind - die dekomprimierten Daten stimmen nur noch perzeptuell mit dem Original überein - handelt es sich hier um verlustbehaftete Verfahren. Eine wiederholte Anwendung des Kompressionsverfahrens auf die dekomprimierten Daten (Daten der ersten Generation) arbeitet somit auf den verfälschten Originaldaten. Versuche zeigen, dass bei hohen Kompressionsraten schon nach sehr wenigen Wiederholungen der Komprimierung und Dekomprimierung die erzeugten Audiodaten der n-ten Generation eine im Vergleich zum Original perzeptuell unzumutbare Qualität ausweisen.

[0044] Aufgaben einer Musikbibliothek, z.B. in Verbindung mit Audioeditier- und Schnittsystemen, bestehen in Retrieval und Weitergabe sowie in Verarbeitung (z.B. Abmischen mehrerer Audiostücke) und wiederholter Speicherung der Audiodaten. Geschieht die Weitergabe unkomprimiert (z.B. via CD oder DAT), erhält der Empfänger Daten erster Generation, die mit den oben beschriebenen Problemen behaftet sind. Werden mehrere dekomprimierte Datensätze zusammengemischt oder auch nur editiert, so wird zur erneuten Speicherung in der Musikbibliothek wiederum nur auf Daten der ersten Generation gearbeitet. Zur sinnvollen Verwendbarkeit einer solchen digitalen Musikbibliothek ist somit ein Verfahren zur Vermeidung solcher Generationseffekte notwendig.

Psychoakustische Verfahren mit hohen Kompressionsraten



[0045] Die höchsten Kompressionsraten bei Erhalt perzeptueller Transparenz erreichen momentan Codierer, die Eigenschaften der menschlichen auditiven Wahrnehmung ausnutzen. Dabei werden wesentliche Resultate der Psychoakustik verwendet, wobei sogenannte Maskierungseffekte einen Schwerpunkt bilden. Grob geht es hierbei um das Phänomen der Verdeckung bestimmter Signalkomponenten durch andere. Hierbei unterscheidet man Zeit- und Frequenzverdeckung. Zeitverdeckung bedeutet, dass in der zeitlichen Abfolge zweier Signale eines der Signale das andere als unhörbar erscheinen lassen kann. Hierbei tritt der Effekt der Vorwärtsverdeckung (ein Signal verdeckt das Nachfolgende) auf einem größeren Zeitintervall auf als der Effekt der Rückwärtsverdeckung (ein Signal verdeckt das Vorhergehende). Frequenzverdeckung lässt sich auf der Spektral- oder Fourieranalyse eines Signals auf einem (relativ kurzen) Zeitintervall beschreiben. Hierbei werden alle Ereignisse als gleichzeitig auftretend interpretiert. Durch Experimente ist zu belegen, dass das Frequenzspektrum in Teilbänder zerlegt werden kann, so dass innerhalb dieser Teilbänder starke Signalanteile schwächere übertönen. Ein psychoakustischer Coder führt zur Ausnutzung der Maskierungseffekte eine Kurzzeitfourieranalyse des Signals durch und berechnet hieraus die Maskierungsparameter eines psychoakustischen Modells. Das Signal wird außerdem, häufig durch eine Subbandtransformation, in Subbandsignale, die den oben erwähnten Teilbändern entsprechen, zerlegt. Im wesentlichen bestimmen nun die Maskierungsparameter, wie groß die Reduktion der Datenrate pro Subband sein darf, ohne dass wahrnehmbare Störgeräusche entstehen.

[0046] Die Datenreduktion wird im wesentlichen durch eine veränderte, vergröbernde Quantisierung der digitalen Subbandsignale geleistet. Insoweit besteht bei dieser Art von Audiokompression eine Verwandtschaft zu Verfahren gemäß dem Oberbegriff des Anspruchs 1. Die bei der vergröbernden Quantisierung verlorengegangenen Daten sind bei der Dekomprimierung nicht mehr rekonstruierbar. Somit wird das Signal erster Generation gegenüber dem Original verändert und eine erneute Berechnung des psychoakustischen Modells auf dem veränderten Signal liefert i.a. einen unterschiedlichen Parametersatz. Diese Parameterveränderung stellt bei Codecs dieser Art einen wesentlichen Grund für die Generationseffekte dar.

Was leistet das erfindungsgemäße Verfahren in seiner Anwendung auf das kaskadierte Codieren und Decodieren



[0047] Das hier vorgestellte Verfahren stellt einen Lösungsvorschlag dar, der für psychoakustische Kompressionsverfahren eine beliebige Wiederholung von Kompression und Dekompression zulässt, somit beliebig viele Generationen erlaubt, und dabei die perzeptuelle Qualität der ersten Generation erhält. Genauer geschieht die Erstellung von Kopien weiterer Generationen bei der Wahl geeigneter Coderparameter theoretisch verlustfrei, praktisch sind etwaige, entstehende Qualitätsverluste von der Genauigkeit der verwendeten Rechnerarithmetik abhängig. Das Verfahren arbeitet bezüglich der benötigten Zusatzinformationen in situ, d.h., es werden keine zusätzlichen Datenformate benötigt. Die vom Decoder erzeugten (PCM) Audiodaten können auf jedem herkömmlichen digitalen Medium gespeichert und davon sowohl mit Standardmedien wiedergegeben werden, als auch mit einem dem vorgeschlagenen Verfahren konformen Encoder im obigen Sinne verlustfrei komprimiert werden.

Zwei grundlegende Ideen



[0048] Das Verfahren basiert im wesentlichen auf zwei Grundideen, aus denen sich zwei fundamentale Teilalgorithmen ableiten. Am Anfang steht die Erkenntnis, dass die oben beschriebenen Subbandcodierer zwei Arten von Daten erzeugen, die grobquantisierten Subbandsignale (den eigentlichen Code) und die entsprechenden Seiteninformationen. Die Seiteninformation besteht z.B. aus Information über Quantisierungsstufen, -art oder verwendete Subbänder. Durch die Seiteninformation (im folgenden auch als Steuerinformation oder Codierparameter bezeichnet) kann sowohl der Decodierer aus dem Code ein entsprechendes Ausgabesignal rekonstruieren, als auch der Codierer aus den subbandtransformierten Signalen den Code. Letzteres zusammen mit der Annahme einer invertierbaren ("verlustfreien") Subbandtransformation führt zur Einsicht, dass es im Prinzip ausreichend ist, nur einmalig die Seiteninformation mit Hilfe des psychoakustischen Modells zu berechnen und bei allen folgenden Generationen die originale Seiteninformation zu verwenden. Bei einer verlustfreien Transformation gewährleistet dies bei allen nachfolgenden Generationen die Rekonstruktion des Signals erster Generation.

[0049] Probleme erwachsen aus der Aufgabe, die Seiteninformation zusätzlich zu den dekomprimierten Signaldaten zu verwalten. Dies führt ad hoc zu
  • ≥ 2 Dateien für eine Audiodatei (eigentliche PCM-Daten und Seiteninformation),
  • einem neuen Datenformat zur Speicherung der Seiteninformation,
  • dem Problem, dass die Seiteninformation nicht ohne weiteres über Standardmedien (z.B. CD oder DAT) transportiert werden kann,
  • einem erhöhten Datenaufkommen.


[0050] Die erste Grundidee liefert ein Verfahren, das PCM-Daten und Seiteninformation in eine gemeinsame Datei codiert (Hybridcode). Diese Datei ist sowohl als Audiodatei verwendbar und auf Standardmedien ohne wahrnehmbaren Qualitätsverlust wiederzugeben, als auch von einem entsprechenden Codierer so entschlüsselbar, dass die gesamte Seiteninformation rekonstruiert werden kann. Das wichtigste Prinzip hierbei ist die Verwendung der psychoakustischen Parameter in einer Weise, die die Kombination von PCM-Code und Seiteninformation ohne Qualitätsverlust erlaubt. Grob beschreiben die Maskierungsparameter, in welche Subbänder die Seiteninformationen codiert werden können. Das hier entwickelte Prinzip kann durch Verfahren mit den Merkmalen des Anspruchs 1 realisiert werden. Genauer gesagt werden die Seiteninformationen im Transformationsbereich in die Teilbandsignale entsprechend der vom psychoakustischen Modell induzierten Quantisierungsvergröberung eingebettet. Somit löst die Anwendung des erfindungsgemäßen Verfahrens die oben aufgezählten Probleme.

[0051] Die Codierung in die Subbandsignale, die als "gezielte Dequantisierung" beschrieben werden kann und die in der Signalverarbeitung einer Art Aufmodulierung auf ein Trägersignal entspricht, verwendet die zweite Grundidee. Diese Idee führt zu einem Algorithmus, der unter Verwendung einer geringen Mehrinformation die gezielte Dequantisierung so erlaubt, dass die Anforderungen des psychoakustischen Models eingehalten werden. Dies garantiert, dass der Hybridcode perzeptuell mindestens die Qualität einer entsprechenden Audiodatei erster Generation, die ohne Anwendung des Verfahrens erstellt wurde, besitzt. Der Preis hierfür ist die geringfügig größere Seiteninformation, die eine leicht vergrößerte komprimierte Datei liefert. Dieses zweite Prinzip kann vorteilhaft durch ein Verfahren mit den Merkmalen des Anspruchs 2 realisiert werden. Die in diesem Anspruch genannte Tendenzinformation entspricht der oben genannten Mehrinformation.

[0052] Sollen die letztgenannten Verfahren im Zusammenhang mit heterogenen Codec-Kaskaden (dies sind Codec-Kaskaden bestehend aus Codierern mit verschiedenen Codiervorschriften) verwendet werden, so ist eine Adaptierung der Seiteninformation an die neuen Codiervorschriften nötig.

[0053] Zwei Anwendungsbeispiele werden nachfolgend unter Bezugnahme auf die Abbildungen 7 und 8 im Detail beschrieben.

Funktionsweise des Codec gemäß Ausführungsbeispiel 1



[0054] Das Schema des vorgeschlagenen Codecs ist in Abb. 7 dargestellt. Zur Beschreibung der Funktionsweise betrachten wir zunächst den Decoderteil. Die Seiteninformation 5 und die Codewörter Q der Subbandsamples werden zunächst aus dem Übertragungskanal gewonnen. Die Seiteninformation dient der Dequantisierung der Codewörter in Subbandsamples Q'. Das Modul zur robusten Codierung R verwendet nun das oben genannte Verfahren zur Aufmodulierung der Seiteninformation in geeignete Subbandsamples. Zur späteren Erkennung der Aufmodulierung durch den Encoder werden die Subbandsamples mit einer Bit-Signatur versehen. Abschließend erzeugt die inverse Subbandtransformation den Hybrid-PCM-Code y'.

[0055] Der Encoder kann zwei Typen von Inputsignalen verarbeiten, Originaldaten (PCM-Daten) und Hybrid-PCM-Code. Auf Originaldaten arbeitet der Coder genauso wie ein herkömmlicher Subbandcoder. Die Entscheidung zwischen Original- und Hybridcode fällt der Detektor D, der nach Subbandtransformation des Inputs versucht, die Bit-Signatur zu erkennen. Wurde die Bit-Signatur erkannt, wird die gesamte Seiteninformation aus den Subbandsamples extrahiert. Falls nicht, wird auf herkömmliche Weise mit Hilfe des psychoakustischen Modells die Seiteninformation bestimmt. Anschließend bestimmt der Encoder durch Quantisierung die Codewörter Q (in Abb. 7 mit Code Q bezeichnet).

Funktionsweise des Codec gemäß Ausführungsbeispiel 2



[0056] Abb. 8 zeigt eine Codecstufe des erfindungsgemäßen Verfahrens. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 30 zerlegt und dem Detektor 31 zugeführt. Der Detektor 31 versucht, von vorherigen Codecstufen eingebettete Informationen zu erkennen und deren Integrität zu prüfen. Ist dies erfolgreich, initiiert er den Decoderprozess 33 unter Übergabe der Teilbandwerte 32. Dieser extrahiert die zur Quantisierung benötigten Parameter 36 und führt diese dem Quantisierer 4 und dem Multiplexer 6 zu. Ebenfalls führt der Decoder 33 die bearbeiteten Teilbandwerte 34 dem Quantisierer 4 zu. Ist die Detektion oder Integritätsprüfung des Detektors 31 nicht erfolgreich, initiiert 35 der Detektor eine blocksynchrone psychoakustische Analyse 7 des zeitlichen Audiosignals 1. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10 unter deren Verwendung die, in diesem Fall von der Filterbank 2 zum Quantisierer 4 durchgeschleiften, Teilbandwerte (identifizierte 30 und 34) vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 überführt werden. Diese Codewörter 5 werden zusammen mit den zur Quantisierung bzw. Rückquantisierung benötigten Parametern 11 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung codiert, und überträgt 12. Decoderseitig decodiert ein Demultiplexer 13 die Codewörter 14 und die zur Quantisierung bzw. Rückquantisierung benötigten Quantisierungsparameter 15 und führt diese der Rückquantisierungsstufe 16 sowie der Einbettungsstufe 20 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 der Einbettungsstufe 20 zugeführt, die die Einbettung der Quantisierungsinformationen 15 in die rückquantisierten Teilbandsignale durchführt.


Ansprüche

1. Verfahren zum Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals, bei dem für mindestens einen Block des Signals

- die Parameter einer Berechnungsvorschrift zur Verfügung stehen,

- eine Teilband- oder Spektraltransformation des Signals zur Erzeugung eines transformierten Signals mit einer Auflösung durchgeführt wird,

- aufgrund der Parameter eine Datenreduktion durch Quantisierung durchgeführt wird,

- eine Umkehrung der Datenreduktion durch Rückquantisierung durchgeführt wird,

- und eine Rücktransformation durchgeführt wird,
dadurch gekennzeichnet,

- dass in mindestens einem Teilband, einer Untermenge eines Teilbands oder einer Untermenge von Spektralkomponenten der rückquantisierten Daten die Zusatzinformation an Stellen eingebettet wird, die infolge der vorherigen Quantisierungsschritte in einer Auflösung repräsentiert sind, die gröber ist als die Auflösung des transformierten Signals.


 
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mit Hilfe einer aus dem Originalsignal gewonnenen Tendenzinformation die Einbettung der Zusatzinformation in die Signalwerte durch Addition oder Subtraktion so durchgeführt wird, dass der ursprüngliche Quantisierungsfehler nicht überschritten wird.
 
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Zusatzinformation durch Ersetzen der niederwertigen Bits entsprechend der Quantisierungsvergröberung eingebettet wird.
 
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die eingebettete Zusatzinformation mit einem fehlerkorrigierenden Code versehen wird.
 
5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die eingebettete Zusatzinformation mit einem arithmetischen Code versehen wird.
 
6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Zusatzinformation redundant oder mit einem fehlerkorrigierenden Code versehen eingebettet wird.
 
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass Kaskaden von zwei oder mehreren Einbettungs- und Rücktransformationsschritten vorgesehen sind.
 
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Position, die Größe oder die Bitbreite der eingebetteten Zusatzinformation durch Codierung individueller Blöcke der Zusatzinformation markiert wird.
 
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Position, die Größe oder die Bitbreite der eingebetteten Zusatzinformation separat in Form eines Inhaltsverzeichnisses in bestimmte Teilbänder oder Untermengen von Spektralkomponenten eingebettet wird.
 
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass zwischen Quantisierung und Dequantisierung eine Speicherung und/oder weitere Verarbeitungs-, Codierungs- und/oder Übertragungsschritte des quellencodierten und datenreduzierten Datenstroms durchgeführt wird/werden.
 
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass die Schritte der Quantisierung und Dequantisierung innerhalb einer Funktionseinheit ausgeführt werden.
 
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass zusätzlich zur Quantisierung Skalenfaktoren zur Datenreduktion verwendet werden.
 
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass die Berechnungsvorschrift ein psychoakustisches Modell ist.
 
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass die Zusatzinformation aus den Parametern der Berechnungsvorschrift oder aus Teilen der Parameter der Berechnungsvorschrift besteht.
 
15. Verwendung des Verfahren nach einem der Ansprüche 1 bis 14 zum kaskadierten Codieren und Decodieren von Signalen, bei dem die Berechnungsvorschrift eine Codiervorschrift ist und bei dem der Schritt der Codierung unter Verwendung der Parameter der Codiervorschrift durchgeführt wird.
 
16. Verwendung nach Anspruch 15, dadurch gekennzeichnet, daß die Parameter der Codiervorschrift vor dem Schritt der Einbettung zur Anpassung an eine andere Vorschrift modifiziert werden.
 




Zeichnung