[0001] Die vorliegende Erfindung bezieht sich auf die Verarbeitung von Audiosignalen und
insbesondere auf die Verarbeitung im Spektral-/Modulationsspektralbereich.
[0002] Im Bereich der Signalverarbeitung, beispielsweise bei der Verarbeitung digitaler
Audiosignale, existieren häufig Signale, die aus einem Trägersignalanteil und einem
Modulationsanteil bestehen. In dem Fall modulierter Signale wird eine Repräsentation,
in der die Signale in Träger- und Modulationskomponenten zerlegt sind, häufig benötigt,
um diese beispielsweise filtern, codieren oder anderweitig modifizieren zu können.
[0003] Zu Zwecken der Audiocodierung ist es beispielsweise bekannt, das Audiosignal einer
sogenannten Modulationstransformation zu unterziehen. Dabei wird das Audiosignal durch
eine Transformation in Frequenzbänder zerlegt. Anschließend wird eine Zerlegung in
Betrag und Phase vorgenommen. Während die Phase nicht weiterverarbeitet, werden die
Beträge je Teilband über eine Anzahl von Transformationsblöcken in einer zweiten Transformation
erneut transformiert. Das Ergebnis ist eine Frequenzzerlegung der zeitlichen Hüllkurve
des betreffenden Teilbandes in Modulationskoeffizienten. Audiocodierungen, die auf
einer solchen Modulationstransformation bestehen, sind beispielsweise in
M. Vinton und L. Atlas, "A Scalable and Progressive Audio Codec", in Proceedings of
the 2001 IEEE ICASSP, 7.-11. Mai 2001, Salt Lake City, United States Patent Application
US 2002/0176353A1:
Atlas et al., "Scalable And Perceptually Ranked Signal Coding And Decoding", 11/28/2002, und
J. Thompson und L.Atlas, "A Non-uniform Modulation Transform for Audio Coding with
Increased Time Resolution", in Proceedings of the 2003 IEEE ICASSP, 6.-10. April,
Hong Kong, 2003, beschrieben.
[0005] Ein Nachteil der oben genannten Schemata zur Audiocodierung unter Verwendung einer
Modulationstransformation besteht in der folgenden Tatsache. Solange an den Modulationskoeffizienten
zusammen mit den Phasen keine weitere Bearbeitungsschritte vorgenommen werden, bilden
die Modulationskoeffizienten eine Spektral-/Modulationsspektraldarstellung des Audiosignals,
die reversibel und perfekt rekonstruierend ist, d.h. ohne Veränderungen wieder ins
ursprüngliche Audiosignal im Zeitbereich rückkonvertierbar ist. Bei diesen Verfahren
werden jedoch die Modulationskoeffizienten gefiltert, um nach psychoakustischen Kriterien
die Modulationskoeffizienten auf möglichst kleine Werte zu verringern bzw. quantisieren,
so dass eine möglichst hohe Kompressionsrate erzielt wird. Hierdurch erreicht man
jedoch im allgemeinen nicht das gewünschte Ziel, die betreffenden Modulationskomponenten
aus dem resultierenden Signal zu entfernen oder bei dieser Komponente gezielt Quantisierungsrauschen
einzubringen. Der Grund dafür besteht darin, dass die Phasen der Teilbänder nach der
Rücktransformation der veränderten Modulationskoeffizienten nicht mehr konsistent
mit den veränderten Beträgen dieser Teilbänder sind und auch weiterhin starke Komponenten
des Modulationsanteiles des Originalsignals enthalten. Werden nun die Phasen der Teilbänder
mit den veränderten Beträgen rekombiniert, werden diese Modulationsanteile bzw. -komponenten
durch die Phase wieder in das gefilterte oder quantisierte Signal eingebracht. Mit
anderen Worten ausgedrückt, liefert eine Modulationstransformation gefolgt von einer
Modifikation der Modülationskoeffizienten auf die oben dargestellte Weise, also durch
Filterung der Modulationskoeffizienten, zusammen mit einer anschließenden Synthese
des Phasen- und Betragsanteils ein Signal, das bei einer erneuten Analyse bzw. Modulationstransformation
immer noch erhebliche Modulationskomponenten an denjenigen Stellen in der Spektral-/Modulationsspektralbereichsdarstellung
enthält, die ausgefiltert werden sollten. Eine wirksame Filterung ist also basierend
auf den eingehend genannten Modulationstransformations-basierten Signalverarbeitungsschemata
nicht möglich.
[0006] US 2003/185411 offenbart eine Vorrichtung zum Verarbeiten eines Audiosignals, in der das Ergebnis
einer ersten Transformation des Audiosignals wieder transformiert wird. Die erste
Transformation separiert das Audiosignal in ein Betrags- und in ein Phasenspektrogramm.
Die zweite Transformation wird getrennt auf jedes dieser beiden Spektrogramme angewandt.
[0007] Es besteht deshalb ein Bedarf nach einem Audiosignalverarbeitungsschema, das es ermöglicht,
modulierte Signale mit einem Trägeranteil und einem Modulationsanteil gezielter nach
Modulations- und Trägeranteil getrennt verarbeiten zu können.
[0008] Die Aufgabe der vorliegenden Erfindung besteht folglich darin, ein Verarbeitungsschema
für Audiosignale zu schaffen, das eine gezielter nach Modulations- und Trägeranteilen
getrennte Verarbeitung von Audiosignalen ermöglicht.
[0009] Diese Aufgabe wird durch eine Vorrichtung gemäß Anspruch 1 und ein Verfahren gemäß
Anspruch 17 gelöst.
[0010] Der Kerngedanke der vorliegenden Erfindung besteht darin, dass sich eine strikter
nach Modulations- und Trägeranteilen getrennte Verarbeitung von Audiosignalen erzielen
lässt, wenn die Überführung des Informationssignals von der Zeit-/Spektraldarstellung
bzw. der Zeit-/Frequenzdarstellung in die Spektral-/Modulationsspektraldarstellung
bzw. die Frequenz-/Modulationsfrequenzdarstellung abhängig von sowohl einem Betragsanteil
als auch einem Phasenanteil der Zeit-/Spektraldarstellung des Informationssignals
durchgeführt wird. Hierdurch entfällt eine Rekombination zwischen Phase und Betrag,
und damit die Wiedereinführung von unerwünschten Modulationskomponenten in die Zeitdarstellung
des verarbeiteten Audiosignals auf der Syntheseseite.
[0011] Die Überführung des Audiosignals von der Zeit-/Spektraldarstellung in die Spektral-/Modulationsspektraldarstellung
unter Berücksichtigung sowohl des Betrags als auch der Phase bringt das Problem mit
sich, dass die Zeit-/Spektraldarstellung des Informationssignals tatsächlich nicht
nur von dem Audiosignal sondern auch von dem Phasenversatz der Zeitblöcke zu der Trägerspektralkomponente
des Audiosignals abhängt. Anders ausgedrückt bewirkt die blockweise Transformation
des Audiosignals von der Zeitdarstellung in die Zeit/Spektraldarstellung, dass die
pro Spektralkomponente in der Zeit-/Spektraldarstellung des Audiosignals erhaltenen
Folgen von Spektralwerten einen aufmodulierten komplexen Träger aufweisen, der lediglich
von der Asynchronität der Blockwiederholfrequenz zu der Trägerfrequenzkomponente des
Audiosignals abhängt. Gemäß den Ausführungsbeispielen der vorliegenden Erfindung wird
deshalb pro Spektralkomponente eine Demodulation der Folge von Spektralwerten in der
Zeit-/Spektraldarstellung des Audiosignals vorgenommen, um pro Spektralkomponente
eine demodulierte Folge von Spektralwerten zu erhalten. Die anschließende Überführung
der so erhaltenen demodulierten Folgen von Spektralwerten wird durch blockweise Transformationen
von der Zeit/Spektraldarstellung in die Spektral/Modulationsspektraldarstellung bzw.
durch blockweises spektrales Zerlegen derselben durchgeführt, wodurch Blöcke von Modulationswerten
erhalten werden. Diese werden manipuliert bzw. modifiziert, wie z.B. zur Bandpassfilterung
zur Entfernung des Modulationsanteils aus dem ursprünglichen Audiosignal mit einer
entsprechenden Gewichtungsfunktion gewichtet. Das Ergebnis ist eine modifizierte demodulierte
Folge von Spektralwerten bzw. modifizierte demodulierte Zeit/Spektraldarstellung.
Auf die so erhaltenen modifizierten demodulierten Folgen von Spektralwerten wird der
komplexe Träger wieder aufmoduliert, wodurch eine modifizierte Folge von Spektralwerten
erhalten wird, die einen Teil einer Zeit-/Spektraldarstellung des verarbeiteten Audiosignals
darstellt. Eine Rücküberführung dieser Darstellung in die Zeitdarstellung ergibt ein
verarbeitetes Audiosignal in der Zeitdarstellung bzw. Zeitbereich, das im Hinblick
auf Modulations- und Trägeranteile äußerst genau bezüglich des ursprünglichen Audiosignals
verändert sein kann.
[0012] Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug
nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
- Fig. 1
- ein Blockschaltbild einer Vorrichtung zur Verarbeitung eines Audiosignals gemäß einem
Ausführungsbeispiel der vorliegenden Erfindung; und
- Fig. 2
- eine schematische Skizze zur Veranschaulichung der Funktionsweise der Vorrichtung
nach Fig. 1.
[0013] Fig. 1 zeigt eine Vorrichtung zur Verarbeitung eines Audiosignals gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung. Die Vorrichtung von Fig. 1, die allgemein mit 10 angezeigt
ist, umfasst einen Eingang 12, an welchem dieselbe das zu verarbeitende Audiosignal
14 erhält. Die Vorrichtung von Fig. 1 ist exemplarisch dazu vorgesehen, das Audiosignal
14 derart zu verarbeiten, dass der Modulationsanteil aus dem Audiosignal 14 entfernt
wird, und um somit ein verarbeitetes Audiosignal mit lediglich dem Trägeranteil zu
erhalten. Ferner umfasst die Vorrichtung 10 einen Ausgang 16, um den Trägeranteil
als das Verarbeitungsergebnis bzw. das verarbeitete Audiosignal 18 auszugeben.
[0014] Intern gliedert sich die Vorrichtung 10 im wesentlichen in einen Teil 20 zur Überführung
des Audiosignals 14 von einer Zeitdarstellung in eine Zeit-/Frequenzdarstellung, eine
Einrichtung 22 zur Überführung des Audiosignals von der Zeit-/Frequenzdarstellung
in die Frequenz-/Modulationsfrequenzdarstellung, einen Teil 24, in welchem die eigentliche
Verarbeitung stattfindet, nämlich die Modifikation des Audiosignals, und einen Teil
26 zur Rücküberführung des in der Frequenz-/Modulationsfrequenzdarstellung verarbeiteten
Audiosignals von dieser Darstellung in die Zeitdarstellung. Die genannten vier Teile
sind in dieser Reihenfolge zwischen den Eingang 12 und den Ausgang 16 in Reihe geschaltet,
wobei deren genauerer Aufbau und deren genauere Funktionsweise im folgenden beschrieben
wird.
[0015] Der Teil 20 der Vorrichtung 10 umfasst eine Fensterungseinrichtung 28 und eine Transformationseinrichtung
30, die sich in dieser Reihenfolge an den Eingang 12 anschließen. Insbesondere ist
ein Eingang der Fensterungseinrichtung 28 mit dem Eingang 12 verbunden, um das Audiosignal
14 als eine Folge von Informationswerten zu erhalten. Sollte das Audiosignal noch
als analoges Signal vorliegen, kann dies beispielsweise durch einen A/D-Wandler bzw.
eine diskrete Abtastung in eine Folge von Informations- bzw. Abtastwerten überführt
werden. Die Fensterungseinrichtung 28 bildet aus der Folge von Informationswerten
Blöcke zu je gleicher Anzahl an Informationswerten und führt an jedem Block von Informationswerten
zudem eine Gewichtung mit einer Gewichtungsfunktion durch, die beispielsweise aber
nicht ausschließlich einem Sinusfenster oder einem KBD-Fenster entsprechen kann. Die
Blöcke können sich überlappen, wie z.B. um 50%, oder nicht. Im folgenden wird lediglich
exemplarisch von einer 50%-Überlappung ausgegangen. Bevorzugt werden Fensterfunktionen
mit der Eigenschaft, dass sie eine gute Teilbandtrennung in der Zeit/Spektraldarstellung
ermöglichen und sich die Quadrate ihrer einander korrespondierenden, da auf ein und
denselben Informationswert angewendeten, Gewichtungswerte im Überlappungsbereich zu
Eins addieren.
[0016] Ein Ausgang der Fensterungseinrichtung 28 ist mit einem Eingang der Transformationseinrichtung
30 verbunden. Die von der Fensterungseinrichtung 28 ausgegeben Blöcke von Informationswerten
werden von der Transformationseinrichtung 30 empfangen. Dieselben unterzieht die Transformationseinrichtung
30 dann blockweise einer spektral zerlegenden Transformation, wie z.B. einer DFT oder
einer anderen komplexen Transformation. Die Transformationseinrichtung 30 erzielt
somit blockweise eine Zerlegung des Audiosignals 14 in Spektralkomponenten und erzeugt
somit insbesondere pro Zeitblock, wie er von der Fensterungseinrichtung 28 erhalten
wird, einen Block von Spektralwerten, der einen Spektralwert pro Spektralkomponente
umfasst. Mehrere Spektralwerte können zu Teilbändern zusammengefasst sein. Im folgenden
werden allerdings die Begriffe Teilband und Spektralkomponente synonym verwendet.
Für jede Spektralkomponente bzw. jedes Teilband ergibt sich somit pro Zeitblock ein
Spektralwert, oder mehrere, falls eine Teilbandzusammenfassung vorliegt, was im folgenden
jedoch nicht angenommen wird. Dementsprechend gibt die Transformationseinrichtung
30 pro Spektralkomponente bzw. Teilband eine Folge von Spektralwerten aus, die den
zeitlichen Verlauf dieser Spektralkomponente bzw. dieses Teilbandes darstellen. Die
von der Transformationseinrichtung 30 ausgegebenen Spektralwerte stellen eine Zeit-/Frequenzdarstellung
des Audiosignals 14 dar.
[0017] Der Teil 22 umfasst eine Trägerfrequenzbestimmungseinrichtung 32, einen als Demodulationseinrichtung
dienenden Mischer 34, eine Fensterungseinrichtung 36, und eine zweite Transformationseinrichtung
38.
[0018] Die Fensterungseinrichtung 32 umfasst einen Eingang, der mit dem Ausgang der Transformationseinrichtung
30 verbunden ist. Sie empfängt dort die Spektralwertfolgen für die einzelnen Teilbänder
und teilt die Spektralwertfolgen pro Teilband - ähnlich, wie es die Fensterungseinrichtung
28 bezüglich des Audiosignals 14 tut - in Blöcke ein und gewichtet die Spektralwerte
jedes Blocks mit einer geeigneten Gewichtungsfunktion. Die Gewichtungsfunktion kann
eine der bereits im vorhergehenden bezüglich Einrichtung 28 exemplarisch erwähnten
Gewichtungsfunktionen sein. Die aufeinanderfolgenden Blöcke in einem Teilband können
sich überlappen oder nicht, wobei im folgenden wieder exemplarisch von einer gegenseitigen
Überlappung um 50% ausgegangen wird. Im folgenden wird davon ausgegangen, dass die
Blöcke verschiedener Teilbänder zueinander ausgerichtet sind, wie es im folgenden
bezugnehmend auf Fig. 1 noch näher erläutert werden wird. Eine andere Vorgehensweise
mit zwischen den Teilbändern versetzten Blockfolgen wäre aber ebenfalls denkbar. Am
Ausgang gibt die Fensterungseinrichtung pro Teilband Folgen von gefensterten Spektralwertblöcken
aus.
[0019] Auch die Trägerfrequenzbestimmungseinrichtung 32 umfasst einen Eingang, der mit dem
Ausgang der Transformationseinrichtung 30 verbunden ist, um die Spektralwerte der
Teilbänder bzw. Spektralkomponenten als Folgen von Spektralwerten pro Teilband zu
erhalten. Sie ist dazu vorgesehen, in jedem Teilband diejenige Trägerkomponente herauszufinden,
die dadurch herrührt, dass die einzelnen Zeitblöcke, aus denen die einzelnen Spektralwerte
der Teilbänder abgeleitet worden sind, einen zeitlich variierenden Phasenversatz zu
der Trägerfrequenzkomponente des Audiosignals 14 aufweisen. Die pro Teilband bestimmte
Trägerkomponente gibt die Trägerfrequenzbestimmungseinrichtung 32 an ihrem Ausgang
an einen Eingang des Mischers 34 aus, der wiederum einen weiteren Eingang aufweist,
der mit dem Ausgang der Fensterungseinrichtung 36 verbunden ist.
[0020] Der Mischer 34 ist derart ausgebildet, dass er je Teilband die Blöcke von gefensterten
Spektralwerten, wie sie von der Transformationseinrichtung ausgegeben werden, mit
dem komplex Konjugierten der jeweiligen Trägerkomponente multipliziert, wie sie durch
die Trägerfrequenzbestimmungseinrichtung 30 für das jeweilige Teilband bestimmt worden
ist, wodurch die Teilbänder bzw. Blöcke von gefensterten Spektralwerten demoduliert
werden.
[0021] Am Ausgang des Mischers 34 ergeben sich somit demodulierte Teilbänder bzw. ergibt
sich pro Teilband eine Folge von demodulierten Blöcken von gefensterten Spektralwerten.
Der Ausgang des Mischers 34 ist mit einem Eingang der Transformationseinrichtung 38
verbunden, so dass letztere pro Teilband sich gegenseitig - hier exemplarisch 50%
- überlappende Blöcke von gefensterten und demodulierten Spektralwerten erhält und
diese blockweise in die Spektral/Modulationsspektraldarstellung transformiert bzw.
spektral zerlegt, um durch Verarbeitung aller Teilbänder bzw. Spektralkomponenten
eine bisher lediglich in Hinblick auf die Demodulation der Teilbandspektralwertfolgen
modifizierte Frequenz-/Modulationsfrequenzdarstellung des Audiosignals 14 zu erzeugen.
Die der Transformationseinrichtung 38 pro Teilband zugrundeliegende Transformation
kann beispielsweise eine DFT, eine MDCT, MDST oder dergleichen sein, und insbesondere
auch die gleiche Transformation wie diejenige der Transformationseinrichtung 30. In
Fig. 1 ist exemplarisch davon ausgegangen worden, dass es sich bei den Transformationen
beider Transformationseinrichtungen 30, 38 um eine DFT handelt.
[0022] Dementsprechend gibt die Transformationseinrichtung 38 an ihrem Ausgang für jedes
Teilband bzw. jede Spektralkomponente nacheinander Blöcke von Werten aus, die im folgenden
als Modulationswerte bezeichnet werden und eine spektral Zerlegung der Blöcke von
gefensterten und demodulierten Spektralwerten darstellen. Die Blöcke von Spektralwerten
pro Teilband, bezüglich derer die Transformationseinrichtung 38 die Transformationen
durchführt, sind zeitlich zueinander ausgerichtet, so dass sich pro Zeitabschnitt
immer gleich eine sich aus einem Modulationswertblock pro Teilband zusammensetzende
Matrix von Modulationswerten ergibt. Die Modulationswerte gibt die Transformationseinrichtung
38 an den Teil 24 weiter, der lediglich eine Signalverarbeitungseinrichtung 40 aufweist.
[0023] Die Signalverarbeitungseinrichtung 40 ist mit dem Ausgang der Transformationseinrichtung
38 verbunden und erhält somit die Blöcke von Modulationswerten. In dem vorliegenden
exemplarischen Fall, da die Vorrichtung 10 der Modulationsanteilunterdrückung dient,
vollzieht die Signalverarbeitungseinrichtung 40 eine effektive Tiefpassfilterung im
Frequenzbereich an den eingehenden Blöcken von Modulationswerten, nämlich eine Gewichtung
der Modulationswerte mit einer Funktion, die ausgehend von der Modulationsfrequenz
Null zu höheren bzw. niedrigeren Modulationsfrequenzen abfällt. Die derart modifizierten
Blöcke von Modulationswerten gibt die Signalverarbeitungseinrichtung 40 an den Rücküberführungsteil
26 weiter. Die von der Signalverarbeitungseinrichtung 40 ausgegebenen modifizierten
Blöcke von Modulationswerten stellen eine modifizierte Frequenz-/Modulationsfrequenzdarstellung
des Informationssignals 14 dar, oder anders ausgedrückt eine noch um die Demodulation
durch den Mischer 34 von der Frequenz-/Modulationsfrequenzdarstellung des modifizierten
Informationssignals 18 abweichende Frequenz-/Modulationsfrequenzdarstellung.
[0024] Der Rücküberführungsteil 26 gliedert sich seinerseits wiederum in zwei Teile, nämlich
einen Teil zur Überführung des verarbeiteten Audiosignals 18 aus der Frequenz-/Modulationsfrequenzdarstellung,
wie sie von der Signalverarbeitungseinrichtung 40 ausgegeben wird, in die Zeit-/Frequenzdarstellung,
und einen Teil zur Rücküberführung des verarbeiteten Audiosignals von der Zeit-/Frequenzdarstellung
in die Zeitdarstellung. Der erstgenannte der beiden Teile umfasst eine Transformationseinrichtung
42 zur Durchführung einer zu der Transformation nach der Transformationseinrichtung
38 inversen blockweisen Transformation, einen Mischer 46 und eine Zusammenfügungseinrichtung
44. Der zweitgenannte Teil des Rückführungsteils 26 umfasst eine Transformationseinrichtung
48 zur Durchführung einer zu der Transformation der Transformationseinrichtung 30
inversen blockweisen Transformation und eine Zusammenfügungseinrichtung 50.
[0025] Die inverse Transformationseinrichtung 42 ist mit ihrem Eingang an den Ausgang der
Signalverarbeitungseinrichtung 40 angeschlossen und transformiert die modifizierten
Blöcke von Modulationswerten teilbandweise von der Spektraldarstellung zurück in die
Zeit/Frequenzdarstellung und macht damit die spektrale Zerlegung wieder rückgängig,
um pro Teilband eine Folge von modifizierten Blöcken von Spektralwerten zu erhalten.
Diese von der inversen Transformationseinrichtung 42 ausgegebenen modifizierten Spektralwertblöcke
unterscheiden sich von den Spektralwertblöcken, wie sie von der Fensterungseinrichtung
36 ausgegeben worden sind, aber nicht nur durch die Verarbeitung durch die Signalverarbeitungseinrichtung
40 sondern auch durch die durch den Mischer 34 bewirkte Demodulation. Deshalb empfängt
der Mischer 46 die von der inversen Transformationseinrichtung 42 pro Teilband ausgegebenen
Folgen von modifizierten Spektralwertblöcken und mischt dieselben mit einem komplexen
Träger, der zu demjenigen, der an entsprechender Stelle bzw. für den entsprechenden
Block zur Demodulation des Audiosignals an dem Mischer 34 verwendet worden ist, komplex
konjugiert ist, um die Spektralwertblöcke wieder mit dem durch die Phasenversätze
der Zeitblöcke bewirkten Träger zu modulieren. Das Ergebnis, das sich am Ausgang des
Mischers 46 einstellt, ist pro Teilband eine Folge von modifizierten nicht-demodulierten
Spektralwertblöcken.
[0026] Der Ausgang des Mischer 46 ist mit einem Eingang der Zusammenfügungseinrichtung 44
verbunden. Diese führt pro Teilband die Folge von wieder mit dem komplexen Träger
aufmodulierten modifizierten Blöcken von Spektralwerten zu einem einheitlichen Strom
bzw. einer einheitlichen Folge von Spektralwerten zusammen, indem sie einander entsprechende
Spektralwerte benachbarter bzw. aufeinanderfolgender Blöcke von Spektralwerten für
ein Teilband, wie sie von dem Mischer 46 erhalten werden, geeignet miteinander verknüpft.
In dem Fall der Verwendung oben exemplarisch genannter Gewichtungsfunktionen mit der
positiven Eigenschaft, dass sich bei Überlappung die Quadrate einander korrespondierender
Gewichtungswerte zu Eins summieren, besteht die Verknüpfung in einer einfachen Addition
einander zugeordneter Spektralwerte. Das am Ausgang der Zusammenfügungseinrichtung
44 (OLA = overlap-add = Überlappaddierung) ausgegebene Ergebnis setzt sich aus einer
modifizierten Folge von Spektralwerten pro Teilband zusammen. Das Ergebnis, das somit
am Ausgang des der OLA 44 ausgegeben wird, sind somit modifizierte Teilbänder bzw.
modifizierte Folgen von Spektralwerten für alle Spektralkomponenten und stellt eine
modifizierte Zeit-/Frequenzdarstellung des Informationssignals 14 bzw. eine Zeit-/Frequenzdarstellung
des modifizierten Audiosignals 18 dar.
[0027] Die Transformationseinrichtung 48 empfängt die Spektralwertfolgen und somit insbesondere
nacheinander jeweils einen Spektralwert für alle Teilbänder bzw. Spektralkomponenten
bzw. nacheinander eine spektrale Zerlegung eines Abschnitts des modifizierten Audiosignals
18. Sie erzeugt aus der Folge von spektralen Zerlegungen durch Rückgängigmachung der
Spektralzerlegung eine Folge von modifizierten Zeitblöcken. Diese modifizierten Zeitblöcke
empfängt wiederum die Zusammenfügungseinrichtung 50. Die Zusammenfügungseinrichtung
50 arbeitet ähnlich der Zusammenfügungseinrichtung 44. Sie fügt die sich exemplarisch
um 50% überlappenden modifizierten Zeitblöcke dadurch zusammen, dass sie aus benachbarten
bzw. aufeinanderfolgenden modifizierten Zeitblöcken einander entsprechende Informationswerte
addiert. Das Ergebnis am Ausgang der Zusammenfügungseinrichtung 50 ist somit eine
Folge von Informationswerten, die das verarbeitete Audiosignal 18 darstellen.
[0028] Nachdem nun im vorhergehenden der Aufbau der Vorrichtung 10 sowie die Funktionsweise
der Einzelkomponenten beschrieben worden ist, wird im folgenden die Funktionsweise
derselben Bezug nehmend auf Fig. 1 und 2 näher erörtert.
[0029] Die Verarbeitung des Audiosignals durch die Vorrichtung 10 beginnt mit dem Empfang
des Audiosignals 14 am Eingang 12. Das Audiosignal 14 liegt dabei in einer abgetasteten
Form vor. Die Abtastung ist beispielsweise mittels eines Analog/Digital-Wandlers vorgenommen
worden. Die Abtastung erfolgte mit einer gewissen Abtastfrequenz ω
s. Das Informationssignal 14 erreicht den Eingang 12 folglich als eine Folge von Abtast-
bzw. Informationswerten s
i = s (2π/ω
s · i), wobei s das analoge Informationssignal, s
i die Informationswerte und der Index i ein Index für die Informationswerte sein sollen.
Unter den eingehenden Abtastwerten s
i fasst die Fensterungseinrichtung 28 je 2N aufeinanderfolgende Abtastwerte zu Zeitblöcken
zusammen, vorliegend exemplarisch mit einer 50%-igen Überlappung. Beispielsweise fasst
sie die Abtastwerte s
0 bis s
2N-1 zu einem Zeitblock mit dem Index n = 0 zusammen, die Abtastwerte s
N bis s
3N-1 zu einem zweiten Zeitblock mit dem Index n = 1, die Abtastwerte s
2N bis s
4N-1 zu einem dritten Zeitblock von Informationswerten mit dem Index n = 2 usw. zusammen.
Jeden dieser Blöcke gewichtet die Fensterungseinrichtung 28 mit einer Fenster- bzw.
Gewichtungsfunktion, wie es im Vorhergehenden beschrieben wurde. Seien s
n0 bis s
n2N-1 beispielsweise die 2N Informationswerte des Zeitblocks n, dann ergibt sich der durch
die Einrichtung 28 ausgegebene Block schließlich zu s
n0 → s
n0 · g
0 bis s
n2N-1 → s
n2N-1 · g
2N-1, wobei g
i mit i = 0 bis 2N-1 die Gewichtungsfunktion sei.
[0030] In Fig. 2 sind die auf die Informationswerte s
i angewendeten Fensterungsfunktionen exemplarisch für vier aufeinanderfolgende Zeitblöcke
n = 0, 1, 2, 3 in einem Diagramm 70 veranschaulicht, bei dem entlang der x-Achse die
Zeit t in willkürlichen Einheiten und entlang der y-Achse die Amplitude der Fensterungsfunktionen
in willkürlichen Einheiten aufgetragen ist. Auf diese Weise gibt die Fensterungseinrichtung
28 nach jeweils N Informationswerten einen neuen gefensterten Zeitblock zu je 2N Informationswerten
an die Transformationseinrichtung 30 weiter. Die Wiederholfrequenz der Zeitblöcke
beträgt somit ω
s/N.
[0031] Die Transformationseinrichtung 30 transformiert die gefensterten Zeitblöcke in eine
Spektraldarstellurig. Die Transformationseinrichtung 30 führt dabei eine spektrale
Zerlegung der Zeitblöcke von gefensterten Informationswerten in eine Mehrzahl von
vorbestimmten Teilbändern bzw. Spektralkomponenten durch. Im vorliegenden Fall wird
exemplarisch davon ausgegangen, dass es sich bei der Transformation um eine DFT bzw.
diskrete Fouriertransformation handelt. Für jeden Zeitblock zu 2N Informationswerten
erzeugt die Transformationseinrichtung 30 in diesem exemplarischen Fall N komplexwertige
Spektralwerte für N Spektralkomponenten, wenn das Audiosignal reell ist. Die von der
Transformationseinrichtung 30 ausgegebenen komplexen Spektralwerte stellen die Zeit-/-Frequenzdarstellung
74 des Audiosignals dar. Die komplexen Spektralwerte sind hierbei in Fig. 2 durch
Kästchen 76 veranschaulicht. Da die Transformationseinrichtung 30 pro aufeinanderfolgendem
Zeitblock von Informationswerten pro Teilband bzw. Spektralkomponente zumindest einen
Spektralwert erzeugt, gibt die Transformationseinrichtung 30 somit mit der Frequenz
ω
s/N pro Teilband bzw. Spektralkomponente eine Folge von Spektralwerten 76 aus. Die
zu einem Zeitblock ausgegebenen Spektralwerte sind in Fig. 2 bei 74 horizontal entlang
der Frequenzachse 78 angeordnet dargestellt. Die zu einem darauffolgenden Zeitblock
ausgegebenen Spektralwerte schließen sich direkt darunter in vertikaler Richtung entlang
der Achse 80 an. Die Achsen 78 und 80 stellen somit die Frequenz- bzw. Zeitachse der
Zeit-/Frequenzdarstellung des Audiosignals 14 dar. Exemplarisch sind in Fig. 3 lediglich
vier Teilbänder dargestellt. Die Folge von Spektralwerten pro Teilband verlaufen in
der exemplarischen Darstellung von Fig. 2 entlang der Spalten und sind mit 82a, 82b,
82c und 82d dargestellt.
[0032] Es wird wieder kurz auf Fig. 1 Bezug genommen, in der das Audiosignal 14 exemplarisch
als eine Funktion veranschaulicht ist, die mit sin(bt) · (1+µ · sin(at)) darstellbar
ist, wobei α beispielsweise die Modulationsfrequenz der mit der gestrichelten Linie
84 angedeuteten Hüllkurve des Informationssignals 14 sei, während β die Trägerfrequenz
des Audiosignals 14 darstelle, t die Zeit sei und µ die Modulationstiefe sei. Bei
ausreichend hoher Abtastfrequenz ω
s ergibt mit diesem exemplarischen Informationssignal durch die Transformation 72 pro
Zeitblock ein Block von Spektralwerten 76, d.h. eine Zeile bei 74, bei dem vornehmlich
die Spektralkomponente bzw. der dazugehörige Spektralwert an der Trägerfrequenz β
ein ausgeprägtes Maximum aufweist. Die Spektralwerte für diese Spektralkomponente
f = β variiert jedoch in der Zeit für aufeinanderfolgende Zeitblöcke aufgrund der
Variation der Hüllkurve 84. Dementsprechend variiert der Betrag der Spektralwerte
der Spektralkomponente β mit der Modulationsfrequenz α.
[0033] Die bisherige Betrachtung ließ aber außer acht, dass die verschiedenen Zeitblöcke
aufgrund einer Frequenzfehlanpassung zwischen der Zeitblockwiederholfrequenz ω
s/N und der Trägerfrequenz des Audiosignals 14 jeweils einen unterschiedlichen Phasenversatz
zur Trägerfrequenz β aufweisen können. Je nach dem Phasenversatz sind die Spektralwerte
der Spektralblöcke, die sich bei Transformation 72 aus den Zeitblöcken ergeben, mit
einem Träger e
jΔϕf moduliert, wobei j die imaginäre Einheit, f die Frequenz und Δϕ den Phasenversatz
des jeweiligen Zeitblocks darstelle. Bei im wesentlichen gleicher Trägerfrequenz,
wie es in dem vorliegenden exemplarischen Fall der Fall ist, nimmt der Phasenversatz
Δϕ linear zu. Deshalb erfahren auch die Spektralwerte eines Teilbandes aufgrund einer
Frequenzfehlanpassung zwischen der Zeitblockwiederholfrequenz und der Trägerfrequenz
eine Modulation mit einer Trägerkomponente, die von der Fehlanpassung der beiden Frequenzen
abhängt.
[0034] Dies in Betracht ziehend leitet nun die Trägerfrequenzbestimmungseinrichtung 32 aus
den Spektralwerten a(ω
b, n) die durch den Phasenversatz der Zeitblöcke resultierende bzw. durch den Zeitblockphasenversatz
bewirkte Trägerkomponente in den Teilbändern ab, wobei ω
b die Kreisfrequenz ω bzw. Frequenz f (ω=2πf) des jeweiligen Teilbandes 0≤b<N unter
allen N Teilbändern und n der Zeitblock- bzw. Spektralblockindex sei, der gemäß n
= ω
s · t mit der Zeit t zusammenhängt. Die so ermittelte Modulationsträgerfrequenz ω (m,f)
bestimmt die Trägerfrequenzbestimmungseinrichtung 32 für jedes Teilband ω
b bzw. jede Frequenz f blockweise, wobei m einen Blockindex anzeige, wie er im folgenden
noch näher erläutert wird. Dazu fasst die Trägerfrequenzbestimmungseinrichtung 32
je M aufeinanderfolgende Spektralwerte 76 eines Teilbandes ω
b zusammen, wie z.B. die Spektralwerte a (ω
b, 0) bis a (ω
b, M-1). Unter diesen M Spektralwerten bestimmt sie einen Phasenverlauf durch ein Phasenunwrapping.
Anschließend bestimmt sie beispielsweise mittels eines Algorithmus der kleinsten Fehlerquadrate
eine Geradengleichung, die dem Phasenverlauf am nächsten kommt. Aus der Steigung und
einem Achsenabschnitt bzw. einem Phasen- oder Anfangsoffset der Geradengleichung erhält
die Trägerfrequenzbestimmungseinrichtung 32 die gewünschte Modulationsträgerfrequenz
ω
d für das Teilband b bezüglich des Zeitblockes m bzw. einen Spektralwertblockphasenversatz
ϕ für das Teilband b bezüglich des Zeitblockes m. Diese Bestimmung führt die Trägerfrequenzbestimmungseinrichtung
für alle Teilbänder über zeitlich gleiche Spektralwerte durch, also für alle Spektralwertblöcke
a (ω
b, 0) bis a (ω
b,
M-1) mit ω
b für alle Teilbänder 0≤b<N. Auf diese Weise bestimmt die Trägerfrequenzbestimmungseinrichtung
32 für jedes Teilband ω
b eine Modulationsträgerfrequenz ω
d und den Spektralwertblockphasenversatz ϕ, und das für Block für Block. Die Blockeinteilung,
die der Bestimmung der komplexen Träger für alle Teilbänder durch die Einrichtung
32 zugrunde liegt, ist diejenige, wie sie auch von der Fensterungseinrichtung zur
Fensterung verwendet wird. Die Trägerfrequenzbestimmungseinrichtung 32 gibt die bestimmten
Werte für die komplexen Träger an die Demodulationseinrichtung bzw. den Mischer 34
aus.
[0035] Der Mischer 34 mischt nun die gefensterten Blöcke von Spektralwerten der einzelnen
Teilbänder, wie sie von der Fensterungseinrichtung 36 ausgeben werden, mit dem komplex
konjugierten der jeweiligen Modulationsträgerfrequenzen ω
d unter Berücksichtigung der Spektralwertblockphasenversätze ϕ durch Multiplikation
dieser Teilbandspektralwertblöcke mit e
-j · (ω_d·n + ϕ)), wobei, wie oben erwähnt, jeweils ein unterschiedliches Paar von ω
d und ϕ für jedes Teilband und innerhalb jedes Teilbands für die aufeinanderfolgenden
Blöcke verwendet wird. Auf diese Weise gibt der Mischer 34 zueinander ausgerichtete
demodulierte Teilbandspektralwertblöcke aus, d.h. zweidimensionale Blöcke aus N Spektralwertblöcken
zu je M demodulierten Spektralwerten.
[0036] Da die durch die Zeitblockversätze verursachten Modulationen in den Teilbändern durch
die Demodulation mittels des Mischers 34 entfernt worden sind, ist der Phasenverlauf
der Spektralwerte in den Teilbändern innerhalb der Blöcke im Mittel flacher und verläuft
im wesentlichen um die Phase 0 herum. Auf diese Weise wird erzielt, dass bei der anschließenden
Transformation durch die Transformationseinrichtung 38 die demodulierten und gefensterten
Blöcke von Spektralwerten zu einer spektralen Zerlegung führen, bei der die Frequenz
0 bzw. der Gleichanteil sehr gut zentriert ist.
[0037] Die sich an die Demodulation 84 durch den Mischer 34 anschließende Transformation
86 durch die Transformationseinrichtung 38 wird blockweise an jedem Teilband bzw.
jeder Folge von demodulierten Blöcken von Spektralwerten durchgeführt. Durch die Transformation
86 werden insbesondere die demodulierten Spektralwertblöcke der N Teilbänder blockweise
einer spektralen Zerlegung unterzogen. Das Ergebnis der spektralen Zerlegung der Blöcke
von Spektralwerten kann auch als Modulationsfrequenzdarstellung bezeichnet werden.
Für N zueinander ausgerichtete Blöcke von gefensterten und demodulierten Spektralwerten
ergibt die Transformation 86 folglich eine Matrix von M x N Modulationswerten, die
die Frequenz-/Modulationsfrequenzdarstellung des Informationssignals 14 über die Zeitdauer
der M Zeitblöcke repräsentiert, die zu dieser Matrix beigetragen haben. Die Modulationsmatrix
ist in Fig. 2 exemplarisch bei 88 für den Fall N=M=4 gezeigt. Wie es zu sehen ist,
hat die Frequenz-/Modulationsfrequenzdarstellung 88 zwei Dimensionen, nämlich die
Frequenz 90 und die Modulationsfrequenz 92. Die einzelnen Modulationswerte sind bei
88 mit Kästchen 93 versinnbildlicht.
[0038] Die Transformationseinrichtung 38 gibt die Modulationsmatrix an die Verarbeitungseinrichtung
40 weiter. Die Verarbeitungseinrichtung 40 ist gemäß dem vorliegenden. Ausführungsbeispiel
dazu vorgesehen, aus dem Audiosignal 14 den Modulationsanteil herauszufiltern. In
dem vorliegenden exemplarischen Fall führt die Verarbeitungseinrichtung 40 deshalb
eine Tiefpassfilterung an den Modulationsfrequenzanteilen in der Frequenz-/Modulationsfrequenzmatrix
durch. In Fig. 1 ist zur Veranschaulichung bei 94 ein Diagramm dargestellt, bei der
entlang der x-Achse die Modulationsfrequenz abgetragen und entlang der y-Achse der
Betrag der Modulationswerte abgetragen ist. Das Diagramm 94 stellt einen Schnitt der
Modulationsmatrix 88 für den exemplarischen Fall des Audiosignals 14 von Fig. 1 dar,
nämlich dem sinusmodulierten Sinus. Insbesondere ist in dem Diagramm 94 der Verlauf
der Beträge der Modulationswerte entlang der Modulationsfrequenz für das Teilband
mit der Frequenz β, also der Trägerfrequenz, dargestellt. Durch die Demodulation 84
mittels des Mischers 34 ist das Modulationsfrequenzspektrum im wesentlichen perfekt
zentriert - zumindest im Falle der FFT als der Transformation 86 - bzw. korrekt ausgerichtet.
Insbesondere weist das Modulationsfrequenzspektrum an der Trägerfrequenz β zwei Seitenbänder
96 und 98 auf, die an der Modulationsfrequenz α, also der Modulationsfrequenz der
Hüllkurve 84 des Audiosignals 14 angeordnet sind. Ferner weisen die Modulationswerte
der Modulationsmatrix 88 an der Frequenz β einen Gleichanteil 100 auf. Die Signalverarbeitungseinrichtung
40 ist nun als Tiefpassfilter mit einer Filtercharakteristik 102, die mit gestrichelter
Linie dargestellt ist, ausgestaltet, um die beiden Seitenbänder 96 und 98 aus der
Frequenz-/Modulationsfrequenzdarstellung 88 zu entfernen. Auf diese Weise wird das
Audiosignal 14 von seiner Modulationskomponente befreit, wonach lediglich noch die
Trägerkomponente übrig bleibt. Die derart veränderte Modulationsmatrix gibt die Verarbeitungseinrichtung
40 an die inverse Transformationseinrichtung 42 weiter. Die inverse Transformationseinrichtung
42 verarbeitet die modifizierte Modulationsmatrix für jedes Teilband derart, dass
der Block von Modulationswerten für das jeweilige Teilband, also eine Spalte in der
Modulationsmatrix 88, einer zu der Transformation der Transformationseinrichtung 38
inversen Transformation unterzogen wird, so dass diese Modulationswertblöcke von der
Frequenz/Modulationsfrequenzdarstellung zurück in die Zeit/Frequenzdarstellung überführt
werden. Auf diese Weise erzeugt die inverse Transformationseinrichtung 42 aus jedem
solchen Block von Modulationswerten für jedes Teilband einen Block von Spektralwerten
für dieses Teilband.
[0039] Ab der Ausgabe der Spektralwerte durch die Transformationseinrichtung 30 bezog sich
die vorhergehende Beschreibung vornehmlich auf die Verarbeitung der ersten M Spektralwerte
bzw. von M aufeinanderfolgenden Spektralwerten für jedes Teilband. Die Verarbeitungen
durch die Einrichtungen 32, 34, 36, 38, 40 und 42 werden aber auch für nachfolgende
Blöcke zu je M Spektralwerten für jedes der N Teilbänder wiederholt, und zwar mit
einer Überlappung der Blöcke zu je M Spektralwerten von in dem vorliegenden Fall exemplarisch
50%, also mit einer Überlappung pro Teilband um M/2 Spektralwerte. Die Blöcke sind
in Fig. 2 exemplarisch mit m = 0, m = 1 und m = 2 in der Zeit-/Frequenzdarstellung
74 durch exemplarische bogenförmige Fensterungs- bzw. Gewichtungsfunktionen veranschaulicht,
die sich exemplarisch über M=4 Spektralwerte in jedem Teilband erstrecken. Für jeden
dieser Blöcke m erzeugt die Transformationseinrichtung 38 schließlich eine Modulationsmatrix
zu je M x N Modulationswerten, die durch die Signalverarbeitungseinrichtung 40 auf
die oben beschriebene Weise gefiltert bzw. gewichtet werden. Die inverse Transformationseinrichtung
42 erzeugt aus diesen modifizierten Modulationsmatrizen 88 wiederum für jedes Teilband
einen Block von Spektralwerten, d.h. eine mit der Matrix aus modifizierten aber noch
demodulierten Blöcken von Spektralwerten.
[0040] Die von der inversen Transformationseinrichtung 42 ausgegebenen Blöcke von Spektralwerten
pro Teilband weichen von denjenigen, wie sie aus dem Informationssignal 14 am Ausgang
der Fensterungseinrichtung 36 erhalten wurden, jedoch nicht nur durch die Verarbeitung
durch die Verarbeitungseinrichtung 40 ab, sondern auch durch die durch die Demodulation
bewirkte Veränderung. Die Spektralwertblöcke werden deshalb in der Modulationsei-nrichtung
46 wieder mit der Modulationsträgerkomponente moduliert, mit der sie vorher demoduliert
wurden. Insbesondere werden also die entsprechenden Blöcke von Spektralwerten, die
zuvor mit e
-j· (ω_d · n + ϕ)) multipliziert worden sind, nun mit e
+j · (ω_d · n + ϕ)) multipliziert, wobei n den Index der Spektralwertefolge des jeweiligen Teilbandes
anzeige und ω_d bzw. ω
d die Kreisfrequenz des komplexen durch die Einrichtung 32 für den jeweiligen Spektralwertblock
bestimmten Modulationsträgers sei.
[0041] Die sich nach der Modulationsstufe 46 ergebenden Folgen von Blöcken von Spektralwerten
pro Teilband werden nun für jedes Teilband durch die Zusammenfügungseinrichtung 44
zu einem einheitlichen Strom 82a-82d von Spektralwerten pro Teilband zusammengefügt,
indem dieselbe die Blöcke von Spektralwerten entsprechend, vorliegend exemplarisch
um 50%, miteinander überlappt und einander entsprechende Spektralwerte je nach in
der Fensterungseinrichtung 36 verwendeter Gewichtungsfunktion kombiniert, nämlich
durch Addieren in dem Fall der oben exemplarisch angegebenen Sinus- oder KBD-Fenster.
[0042] Die sich am Ausgang der Zusammenfügungseinrichtung 44 ergebenden Ströme von Spektralwerten
pro Teilband stellen die Zeit-/Frequenzdarstellung des verarbeiteten Audiosignals
18 dar. Die Ströme werden von der inversen Transformationseinrichtung 48 empfangen.
Sie verwendet in jedem Zeitschritt n die Spektralwerte für alle Teilbänder ω
b, also alle Spektralwerte a (ω
b, n) mit 0≤b<N, um an denselben eine Transformation von der Frequenz- in die ZeitDarstellung
durchzuführen, um für jedes n, d.h. mit einer Wiederholzeitdauer von 2πN/ω
s, einen Zeitblock zu erhalten. Diese Zeitblöcke werden durch die Zusammenfügungseinrichtung
50 durch vorliegend exemplarisch 50%-ige Überlappung und Kombinieren einander entsprechender
Informationswerte in diesen Zeitblöcken zu einem einheitlichen Strom von Informationswerten
zusammengeführt, der schließlich das verarbeitete Audiosignal im Zeitbereich 18 darstellt,
das am Ausgang 16 ausgegeben wird.
[0043] Das verarbeitete Audiosignal ist in Fig. 1 bei 18 in einem Diagramm dargestellt,
bei dem die x-Achse die Zeit und die y-Achse die Amplitude des Audiosignals 18 ist.
Wie es zu sehen ist, ist lediglich noch die Trägerkomponente des eingangsseitigen
Audiosignals 14 übrig geblieben. Die Modulationsanteile bzw. der Hüllkurvenanteil
84 ist entfernt worden.
[0044] In anderen Worten ausgedrückt repräsentierte das Ausführungsbeispiel von Fig. 1 und
2 eine Verarbeitungsvorrichtung, die eine signaladaptive Filterbank dazu verwendete,
eine Zerlegung von Signalen in Träger und Modulationskomponenten vorzunehmen, und
die entstehende Repräsentation der modulierten Signale verwendete, um diese zu filtern.
Ebenso wäre es jedoch möglich, anstatt der Filterverarbeitung in der Signalverarbeitungseinrichtung
eine Codierung, Verschlüsselung oder Kompression durchzuführen, oder die Modulationsmatrizen
anderweitig zu modifizieren. Im Vergleich zu den in der Beschreibungseinleitung beschriebenen
zur Audiocodierung verwendeten Modulationstransformationsverfahren, die eine Betragsbildung
durchführen, wird bei diesem Ausführungsbeispiel je Teilband eine Demodulation bezüglich
einer Trägerkomponente durchgeführt. Nach Schätzung dieser Teilbandträgerkomponente
in der Trägerfrequenzbestimmungseinrichtung 32 wird die Demodulation pro Teilband
durch Multiplikation mit der komplex Konjugierten dieser Komponente erzielt. Die auf
diese Weise demodulierten Teilbandsignale werden anschließend durch eine weitere Frequenzzerlegung
mittels der Fenstereinrichtung 36 und der Transformationseinrichtung 38 in den Modulationsbereich
transformiert.
[0045] Bei dem Ausführungsbeispiel von Fig. 1 wurde als die erste Transformation 72 exemplarisch
eine DFT mit 50% Überlappung und Fensterung verwendet, wobei hiervon jedoch auch Abweichungen
und Variationen denkbar sind. Mehrere Blöcke der ersten Transformation 72 wurden abermals
- dort mit exemplarisch 50% Überlappung - durch die Fensterungseinrichtung 36 zusammengefasst
und teilbandweise mit einem komplexen Modulator, der durch die Trägerfrequenzbestimmungseinrichtung
32 bestimmt worden ist, mittels des Mischers 34 demoduliert und anschließend mit einer
DFT transformiert. Bei dem vorhergehenden Ausführungsbeispiel wurde in der Trägerfrequenzbestimmungseinrichtung
die Frequenz dieses Modulators aus den Phasen der entsprechenden Blöcke des zu demodulierenden
Teilbandes gewonnen, nämlich durch näherungsweises Legen einer Geraden durch den geunwrappten
Phasenverlauf der Spektralwerte der entsprechenden Blöcke. Dies kann jedoch auch anders
durchgeführt werden. Die Trägerfrequenzbestimmungseinrichtung 32 kann beispielsweise
pro Spektralblockabschnitt n bis n+M-1 eine Ebene in den Phasenanteil aller Teilbänder
in diesem Abschnitt näherungsweise legen. Ferner wäre es möglich, dass die Trägerfrequenzbestimmungseinrichtung
32 die Bestimmung des komplexen Modulators nicht blockweise Vornimmt sondern kontinuierlich
über den Strom von Spektralwerten pro Teilband. Dazu könnte beispielsweise die Trägerfrequenzbestimmungseinrichtung
32 beispielsweise die Phasen der Folge von Spektralwerten eines jeweiligen Teilbandes
zunächst unwrappen, tiefpassfiltern und dann die lokale Steigerung des gefilterten
Phasenverlaufs zur Anpassung des komplexen Modulators heranziehen. Dementsprechend
würde auch der Modulationsteil beim Mischer 46 geändert werden. Ganz allgemein versucht
die Trägerfrequenzbestimmungseinrichtung den Phasenverlauf dadurch zu beeinflussen,
dass die Phase der komplexen Spektralwerte eines Teilbandes mit einem über die Folge
hinweg zunehmenden oder abnehmenden Betrag entweder erhöht oder reduziert wird, derart,
dass eine mittleren Steigung der Phase der Folge von Spektralwerten verringert wird,
bzw. sich der geunwrappte Phasenverlauf im wesentlichen um einen festen Phasenwert,
vorzugsweise die Phase 0, herum variiert.
[0046] Noch einmal explizit wird auf die Tatsache hingewiesen, dass für die verwendeten
Transformationen 72, 86 und die hierzu inversen Transformationseinrichtungen 42 und
48 auch andere Typen denkbar sind als die DFT bzw. IDFT. So kann beispielsweise, allerdings
nicht erfindungsgemäß das komplexe demodulierte Teilbandsignal auch mit je einer reellwertigen
Transformation getrennt nach Real- und Imaginärteil in die Frequenz/Modulationsfrequenzdarstellung
transformiert bzw. spektral zerlegt werden. Der Realteil repräsentierte dann nach
der Demodulationsstufe die Amplitudenmodulation des Subbandsignals bezüglich des zur
Demodulation verwendeten Trägers. Der Imaginärteil repräsentierte dann die Frequenzmodulation
dieses Trägers. In dem Fall der DFT bzw. IDFT für die Einrichtungen 38 bzw. 42, spiegelt
sich der Amplitudenmodulationsanteil des Subbandsignals im symmetrischen Anteil des
DFT-Spektrums entlang der Modulationsfrequenzachse wieder, während der Frequenzmodulationsanteil
des Trägers dem asymmetrischen Anteil des DFT-Spektrums entlang der Modulationsfrequenzachse
entspricht.
[0047] Das im vorhergehenden beschriebene Ausführungsbeispiel wurde exemplarisch an einem
einfachen sinusmodulierten Sinussignal veranschaulicht. Das Ausführungsbeispiel von
Fig. 1 und 2 ist aber auch für eine Filterung des Verlaufs der Hüllkurve eines Gemisches
amplitudenmodulierter Signale beliebiger Frequenz, wie z.B. amplitudenmodulierter
tonaler Signale, geeignet. Die einzelnen Frequenzkomponenten der Hüllkurve sind zur
konsistenten Bearbeitung in der Modulationsmatrix 88 direkt repräsentiert, ganz im
Gegensatz zur bereits bekannten Betrags-Phasen-Darstellung nach den in der Beschreibungseinleitung
beschriebenen Modulationstransformationsanalyseverfahren zur Audiocodierung. Auch
die Filterung von frequenzmodulierten Signalen geringer Modulationstiefe, d.h. mit
einem Frequenzhub, der wesentlich kleiner als die Teilbandbreite der ersten DFT ist,
ist mit dem Ausführungsbeispiel von Fig. 1 und 2 möglich.
[0048] Das Ausführungsbeispiel von Fig. 1 und 2 betraf also eine Anordnung zur Modulationsfilterung,
die noch einmal in anderen Worten ausgedrückt auf einer signaladaptiven Transformation,
einer Filterung im Modulationsbereich und einer entsprechenden Rücktransformation
basierte. Ohne Signalmanipulation im Modulationsbereich, im vorliegenden Ausführungsbeispiel
der Filterung, ist die Anordnung aus Fig. 1 perfekt rekonstruierend. Durch Einbringen
eines geeigneten Spektralbereichsfilters, wie exemplarisch dem Filter 102, d.h. einer
Schwächung der Modulationswerte mit zunehmender Entfernung von einer Mittenmodulationsfrequenz
von Null, können die zu entfernenden Modulationsanteile wie gewünscht gedämpft werden.
Es sind jedoch auch andere Arten der Verarbeitung von Audiosignalen in der Frequenz-/Modulationsfrequenzdarstellung
denkbar. So könnte es auch wünschenswert sein, lediglich den Träger zu entfernen.
In diesem Fall bestünde die Filterung in einer Hochpassfilterung, d.h. einer Gewichtung
mit einer Gewichtungsfunktion mit einer Modulationsfrequenzkante an einer bestimmten
Modulationsfrequenz, die Modulationswerte an geringeren Modulationsfrequenzen mehr
schwächt als solche an darüber liegenden Modulationsfrequenzen. In wiederum anderen
Anwendungsbereichen bzw. Anwendungen könnte die Signalverarbeitung in der Signalverarbeitungseinrichtung
40 wiederum in einer Bandpassfilterung bestehen, also einer Gewichtung mit einer Gewichtungsfunktion,
die von einer bestimmten Mittenmodulationsfrequenz weg abfällt, um Anteile des Audiosignals,
die von unterschiedlichen Quellen stammen, zu separieren, d.h. eine Quellenseparation
zu erzielen. Weitere Anwendungen, bei denen das vorhergehende Ausführungsbeispiel
verwendet werden kann, können die Audiocodierung zur Codierung von Audiosignalen,
die Rekonstruktion gestörter Signale und die Fehlerverschleierung betreffen. Ganz
allgemein könnte aber auch die Vorrichtung 10 als Musikeffektgerät eingesetzt werden,
um spezielle akustische Effekte in dem eingehenden Audiosignal zu verwirklichen. Die
Verarbeitungen in der Signalverarbeitungseinrichtung 40 können dementsprechend vielfältigste
Formen annehmen, wie z.B. die Quantisierung der Modulationswerte, das Nullsetzen einiger
Modulationswerte, die Gewichtung einzelner Abschnitte der oder aller Modulationswerte
oder dergleichen. Ein weiteres Anwendungsgebiet wäre der Einsatz der Vorrichtung 10
von Fig. 1 als Wasserzeichen-Einbetter. Der Wasserzeichen-Einbetter würde ein Audiosignal
14 empfangen, wobei die Verarbeitungseinrichtung 40 ein empfangenes Wasserzeichen
dadurch in das Audiosignal einbringen könnte, dass dieselbe einzelne Segmente bzw.
Modulationswerte gemäß dem Wasserzeichen modifiziert. Die Auswahl der Segmente bzw.
Modulationswerte könnte für aufeinanderfolgende Modulationsmatrizen verschieden bzw.
zeitvariant erfolgen und würde derart getroffen werden, dass durch psychoakustische
Verdeckungseffekte die Modifikationen durch die Wasserzeicheneinbringung für ein menschliches
Gehör in dem sich ergebenden Wasserzeichen-behafteten Audiosignal 18 unhörbar sind.
[0049] Im Hinblick auf die Transformationseinrichtungen wird noch darauf hingewiesen, dass
dieselben natürlich auch als Filterbanken ausgebildet sein können, die eine Spektraldarstellung
durch viele einzelne Bandpassfilterungen erzeugen. Ferner wird darauf hingewiesen,
dass das sich ergebende Audiosignal 18 nach der Verarbeitung nicht in der Zeitbereichsdarstellung
ausgegeben werden muss. Es wäre ferner denkbar das Informationssignal beispielweise
in einer Zeit/Spektraldarstellung oder sogar in der Spektral/Modulationsspektraldarstellung
auszugeben. Im letztgenannten Fall müsste dann natürlich sichergestellt werden, dass
empfängerseitig die notwendige Modulation 46 wieder mit dem geeigneten Träger durchgeführt
werden kann, beispielsweise durch Mitlieferung der pro Teilband und Spektralwertblock
variierenden komplexen Träger, die zur Demodulation 84 verwendet worden sind. Auf
diese Weise ließe sich obiges Ausführungsbeispiel zur Verwirklichung eines Kompressionsverfahrens
verwenden.
[0050] Insbesondere wird darauf hingewiesen, dass abhängig von den Gegebenheiten das erfindungsgemäße
Schema auch in Software implementiert sein kann. Die Implementation kann auf einem
digitalen Speichermedium, insbesondere einer Diskette oder einer CD mit elektronisch
auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem
zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein
besteht die Erfindung somit auch in einem Computerprogrammprodukt mit auf einem maschinenlesbaren
Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens,
wenn das Computerprogrammprodukt auf einem Rechner abläuft. In anderen Worten ausgedrückt
kann die Erfindung somit als ein Computerprogramm mit einem Programmcode zur Durchführung
des Verfahrens realisiert werden, wenn das Computerprogramm auf einem Computer abläuft.
1. Vorrichtung zum Verarbeiten eines Audiosignals (14), mit
einer Einrichtung (20) zum Überführen des Audiosignals (14) in eine Zeit-/Spe ktraldarstellung
(74) durch blockweises Transformieren des Audiosignals;
einer Einrichtung (22) zum Überführen des Audiosignals von der Zeit-/Spektraldarstellung
(74) in eine Spektral-/Modulationsspektraldarstellung (88) mittels einer einzigen
Frequenzzerlegungstransformation, wobei die Einrichtung (22) zum Überführen derart
ausgebildet ist, dass die Spektral-/Modulationsspektraldarstellung (88) abhängig von
sowohl einem Betragsanteil als auch einem Phasenanteil der Zeit-/Spektraldarstellung
(74) des Audiosignals (14) ist;
einer Einrichtung (24, 40) zum Manipulieren des Audiosignals (14) in der Spektral-/Modulationsspektraldarstellung
(88), um eine modifizierte Spektral-/Modulationsspektraldarstellung zu erhalten; und
einer Einrichtung (26) zum Bilden eines verarbeiteten Audiosignals (18), das eine
verarbeitete VersiAudiosignals (18), das eine verarbeitete Version des Audiosignals
(14) darstellt, basierend auf der modifizierten Spektral-/Modulationsspektraldarstellung.
2. Vorrichtung gemäß Anspruch 1, bei der die Einrichtung (20) zum Überführen des Audiosignals
(14) in die Zeit-/Spektraldarstellung (74) ausgebildet ist, um die Zeit-/Spektraldarstellung
in eine Mehrzahl von Spektralkomponenten zu zerlegen, um pro Spektralkomponente eine
Folge (82a, 82b, 82c, 82d) von komplexen Spektralwerten zu erhalten.
3. Vorrichtung gemäß Anspruch 2, bei der die Einrichtung (22) zum Überführen des Audiosignals
(14) von der Zeit-/Spektraldarstellung (74) in die Spektral-/Modulationsspektraldarstellung
(88) eine Einrichtung (36, 38) zum, für eine vorbestimmte Spektralkomponente, blockweisen
spektralen Zerlegen der Folge (82a, 82b, 82c, 82d) von Spektralwerten aufweist, um
einen Teil der Spektral-/Modulationsspektraldarstellung (88) zu erhalten.
4. Vorrichtung gemäß Anspruch 3, bei der die Einrichtung (22) zum, für eine vorbestimmte
Spektralkomponente, blockweisen spektralen Zerlegen der Folge (82a, 82b, 82c, 82d)
von Spektralwerten ausgebildet ist, um die Folge (82a, 82b, 82c, 82d) von Spektralwerten
blockweise zunächst mit einem komplexen Träger zu multiplizieren (84), derart, dass
sich blockweise ein Betrag einer mittleren Steigung eines Phasenverlaufs der Folge
(82a, 82b, 82c, 82d) von Spektralwerten verringert, um demodulierte Blöcke von Spektralwerten
zu erhalten, und die demodulierten Blöcke von Spektralwerten dann blockweise spektral
zu zerlegen, um den Teil der modifizierten Spektral-/Modulationsspektraldarstellung
(88) zu erhalten.
5. Vorrichtung gemäß Anspruch 4, bei der die Einrichtung (22) zum, für eine vorbestimmte
Spektralkomponente, blockweisen spektralen Zerlegen der Folge (82a, 82b, 82c, 82d)
von komplexen Spektralwerten eine Einrichtung (32) zum, abhängig von der Zeit-/Spektraldarstellung
(74) des Audiosignals, blockweisen Variieren des komplexen Trägers aufweist, mit dem
die Folge (82a, 82b, 82c, 82d) von komplexen Spektralwerten blockweise multipliziert
wird.
6. Vorrichtung gemäß Anspruch 5, bei der die Einrichtung (32) zum Variieren ausgebildet
ist, um zum blockweisen Variieren des komplexen Trägers blockweise Phasen der Spektralwerte
in der Folge von Spektralwerten zu unwrappen, um einen Phasenverlauf zu erhalten,
eine mittlere Steigung des Phasenverlaufs zu bestimmen und basierend auf der mittleren
Steigung den komplexen Träger zu bestimmen.
7. Vorrichtung gemäß Anspruch 6, bei der die Einrichtung (32) zum Variieren ferner ausgebildet
ist, um aus dem Phasenverlauf einen Achsenabschnitt des Phasenverlaufs zu bestimmen
und den komplexen Träger ferner basierend auf dem Achsenabschnitt zu bestimmen.
8. Vorrichtung gemäß einem der Ansprüche 4 bis 7, bei der die Einrichtung (26) zum Bilden
folgende Merkmale aufweist:
eine Einrichtung (42) zum Rücküberführen des Audiosignals von der modifizierten Spektral-/Modulationsspektraldarstellung
in eine modifizierte Zeit-/Spektraldarstellung, um modifizierte demodulierte Blöcke
von Spektralwerten für die vorbestimmte Spektralkomponente zu erhalten;
eine Einrichtung (46) zum blockweise Multiplizieren der modifizierten demodulierten
Blöcke von Spektralwerten mit einem zu dem komplexen Träger komplex konjugierten Träger,
um modifizierte Blöcke von Spektralwerten zu erhalten; und
eine Einrichtung (44) zum Zusammenfügen der modifizierten Blöcke von Spektralwerten
zu einer modifizierten Folge von Spektralwerten, um einen Teil einer Zeit-/Spektraldarstellung
des verarbeiteten Audiosignals (18) zu erhalten.
9. Vorrichtung gemäß Anspruch 8, bei der die Einrichtung zum Bilden ferner folgendes
Merkmal aufweist:
eine Einrichtung zum Rücküberführen des verarbeiteten Audiosignals (18) von der Zeit-/Spektraldarstellung
in die Zeitdarstellung.
10. Vorrichtung gemäß einem der vorhergehenden Ansprüche, bei der die Einrichtung (40)
zum Modifizieren ausgebildet ist, um eine Gewichtung der Modulationsanteile der Spektral-/Modulationsspektraldarstellung
(88) zur Modulationsfilterung, Audiocodierung, Quellenseparation, Rekonstruktion des
Audiosignals, zur Fehlerverschleierung oder zur Überlagerung des Audiosignals mit
einem Wasserzeichen vorzunehmen.
11. Vorrichtung gemäß Anspruch 1, bei der die Einrichtung (20) zum Überführen des Audiosignals
in die Zeit-/Spektraldarstellung (74) folgende Merkmale aufweist:
eine Blockbildungseinrichtung (28) zum Bilden einer Folge von Blöcken von Informationswerten
aus dem Audiosignal (14) ; und
eine Einrichtung (30) zum spektralen Zerlegen jedes der Folge von Blöcken von Informationswerten,
um eine Folge von Spektralwertblöcken zu erhalten, wobei jeder Spektralwertblock einen
Spektralwert (76) für jede einer vorbestimmten Mehrzahl von Spektralkomponenten aufweist,
so dass die Folge von Spektralwertblöcken pro Spektralkomponente eine Folge (82a-82d)
von Spektralwerten bildet.
12. Vorrichtung gemäß Anspruch 11, bei der die Einrichtung (22) zum Überführen des Audiosignals
(14) in die Spektral-/Modulationsspektraldarstellung (88) fölgende Merkmale aufweist:
eine Einrichtung (32-38) zum spektralen Zerlegen einer vorbestimmten Folge der Folgen
(82a-82d) von Spektralwerten, um einen Block von Modulationswerten zu erhalten,
wobei die Einrichtung (24; 40) zum Modifizieren ausgebildet ist, um den Block (88)
von Modulationswerten zu modifizieren, um einen modifizierten Block von Modulationswerten
zu erhalten, der ein Teil der modifizierten Spektral/Modulationsspektraldarstellung
(88) ist.
13. Vorrichtung gemäß Anspruch 12, bei der die Einrichtung (26) zum Bilden ausgebildet
ist, um den modifizierten Block von Modulationswerten von der spektralen Zerlegung
rückzuüberführen (42, 44, 46), um eine modifizierte Folge von Spektralwerten zu erhalten,
und eine Folge von modifizierten Spektralblöcken, die auf der modifizierten Folge
von Spektralwerten basiert, rückzuüberführen (48), um eine Folge von modifizierten
Blöcken von Informationswerten zu erhalten, und die modifizierten Blöcke von Informationswerten
zusammenzufügen (50), um das verarbeitete Audiosignal (18) zu erhalten.
14. Vorrichtung gemäß Anspruch 13, bei die Einrichtung (20) zum spektralen Zerlegen jedes
der Folge von Blöcken von Informationswerten ausgebildet ist, um jeden Block der Folge
von Blöcken von Informationswerten zunächst mit einer Fensterfunktion zu multiplizieren
und dann spektral zu zerlegen, und die Einrichtung (26) zum Bilden ausgebildet ist,
um beim Zusammenfügen (50) die modifizierten Blöcke von Informationswerten derart
zu verarbeiten, dass sich die Multiplikation mit der Fensterfunktion nicht auf das
verarbeitete Audiosignal (18) auswirkt.
15. Vorrichtung gemäß Anspruch 12, bei der die Einrichtung (20) zum spektralen Zerlegen
jedes der Folge von Blöcken von Informationswerten derart ausgebildet ist, dass sie
bei der spektralen Zerlegung pro Spektralkomponente eine Folge (82a-82d) von komplexen
Spektralwerten liefert, und die Einrichtung (32, 34, 36, 38) zum spektralen Zerlegen
der vorbestimmten Folge der Folgen (82a-82d) von Spektralwerten ausgebildet ist, um
zunächst die vorbestimmte Folge (82a-82d) von Spektralwerten derart zu modifizieren
(34), dass eine Phase der Spektralwerte der vorbestimmten Folge von Spektralwerten
um einen mit der Folge stetig größer werdenden oder kleiner werdenden Betrag vergrößert
oder verkleinert wird, um eine phasenmodifizierte Folge von Spektralwerten zu erhalten,
und dann die phasenmodifizierte Folge von Spektralwerten spektral zu zerlegen (38),
um den zumindest einen Block von Modulationswerten zu erhalten, und die Einrichtung
zum Bilden ausgebildet ist, um den modifizierten Block von Modulationswerten von der
spektralen Zerlegung rückzuüberführen (42), um eine modifizierte Folge von Spektralwerten
zu erhalten, die modifizierte Folge von Spektralwerten umgekehrt zu der Einrichtung
(34) zum spektralen Zerlegen der vorbestimmten Folge der Folgen von Spektralwerten
derart zu modifizieren (46), dass eine Phase der Spektralwerte der zumindest einen
Folge von Spektralwerten um einen mit der Folge stetig größer werdenden oder kleiner
werdenden Betrag vergrößert oder verkleinert wird, um eine modifizierte Folge von
Spektralwerten zu erhalten, eine Folge von modifizierten Spektralblöcken, die auf
der modifizierten Folge von Spektralwerten basiert, rückzuüberführen (48), um eine
Folge von modifizierten Blöcken von Informationswerten zu erhalten, und die modifizierten
Blöcke von Informationswerten zusammenzufügen (50), um das verarbeitete Audiosignal
(18) zu erhalten.
16. Vorrichtung gemäß einem der vorhergehenden Ansprüche, bei der die einzige Frequenzzerlegungstransformation
eine einzige diskrete Fouriertransformation ist.
17. Verfahren zum Verarbeiten eines Audiosignals (14), mit
Überführen (20) des Audiosignals (14) in eine Zeit-/Spektraldarstellung (74) durch
blockweises Transformieren des Informationssignals;
Überführen (22) des Audiosignals von der Zeit-/Spektraldarstellung (74) in eine Spektral-/Modulationsspektraldarstellung
(88) mittels einer einzigen Frequenzzerlegungstransformation, wobei das Überführen
derart durchgeführt wird, dass die Spektral-/Modulationsspektraldarstellung (88) abhängig
von sowohl einem Betragsanteil als auch einem Phasenanteil der Zeit-/Spektraldarstellung
(74) des Audiosignals (14) ist;
Modifizieren (24) des Audiosignals (14) in der Spektral-/Modulationsspektraldarstellung
(88), um eine modifizierte Spektral-/Modulationsspektraldarstellung zu erhalten; und
Bilden (26) eines verarbeiteten Audiosignals (18), das eine verarbeitete Version des
Audiosignals (14) darstellt, basierend auf der modifizierten Spektral-/Modulationsspektraldarstellung.
18. Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch
17, wenn das Computer-Programm auf einem Computer abläuft.
1. Device for processing an audio signal (14), comprising
means (20) for converting the audio signal (14) to a time/spectral representation
(74) by block-wise transforming of the audio signal;
means (22) for converting the audio signal from the time/spectral representation (74)
to a spectral/modulation spectral representation (88) by means of one single frequency
decomposition transform, wherein the means (22) for converting is designed such that
the spectral/modulation spectral representation (88) depends on both a magnitude component
and a phase component of the time/spectral representation (74) of the audio signal
(14);
means (24, 40) for manipulating the audio signal (14) in the spectral/modulation spectral
representation (88) to obtain a modified spectral/modulation spectral representation;
and
means (26) for forming a processed audio signal (18) representing a processed version
of the audio signal (14) based on the modified spectral/modulation spectral representation.
2. Device according to claim 1, wherein the means (20) for converting the audio signal
(14) to the time/spectral representation (74) is designed to decompose the time/spectral
representation into a plurality of spectral components to obtain a sequence (82a,
82b, 82c, 82d) of complex spectral values per spectral component.
3. Device according to claim 2, wherein the means (22) for converting the audio signal
(14) from the time/spectral representation (74) to the spectral/modulation spectral
representation (88) comprises means (36, 38) for block-wise spectral decomposition
of the sequence (82a, 82b, 82c, 82d) of spectral values for a predetermined spectral
component to obtain a portion of the spectral/modulation spectral representation (88).
4. Device according to claim 3, wherein the means (22) for block-wise spectral decomposition
of the sequence (82a, 82b, 82c, 82d) of spectral values for a predetermined spectral
component is designed to first multiply (84) the sequence (82a, 82b, 82c, 82d) of
spectral values block-wise by a complex carrier such that a magnitude of a mean slope
of a phase course of the sequence (82a, 82b, 82c, 82d) of spectral values is reduced
block-wise to obtain demodulated blocks of spectral values, and to then spectrally
decompose the demodulated blocks of spectral values block-wise to obtain the portion
of the modified spectral/modulation spectral representation (88).
5. Device according to claim 4, wherein the means (22) for block-wise spectral decomposition
of the sequence (82a, 82b, 82c, 82d) of complex spectral values for a predetermined
spectral component comprises means (32) for block-wise varying, depending on the time/spectral
representation (74) of the audio signal, the complex carrier by which the sequence
(82a, 82b, 82c, 82d) of complex spectral values is multiplied block-wise.
6. Device according to claim 5, wherein the means (32) for varying is designed to block-wise
unwrap phases of the spectral values in the sequence of spectral values for block-wise
varying of the complex carrier to obtain a phase course, to determine a mean slope
of the phase course and to determine the complex carrier based on the mean slope.
7. Device according to claim 6, wherein the means (32) for varying is further designed
to determine an axis portion of the phase course from the phase course and to further
determine the complex carrier based on the axis portion.
8. Device according to one of claims 4 to 7, wherein the means (26) for forming comprises:
means (42) for back-converting the audio signal from the modified spectral/modulation
spectral representation to a modified time/spectral representation to obtain modified
demodulated blocks of spectral values for the predetermined spectral component;
means (46) for block-wise multiplying the modified demodulated blocks of spectral
values by a carrier complex conjugated with respect to the complex carrier to obtain
modified blocks of spectral values; and
means (44) for combining the modified blocks of spectral values to form a modified
sequence of spectral values to obtain a portion of a time/spectral representation
of the processed audio signal (18).
9. Device according to claim 8, wherein the means for forming further comprises:
means for back-converting the processed audio signal (18) from the time/spectral representation
to the time representation.
10. Device according to one of the preceding claims, wherein the means (40) for modifying
is designed to perform weighting of the modulation components of the spectral/modulation
spectral representation (88) for modulation filtering, audio coding, source separation,
reconstruction of the audio signal, for error concealing or for superimposing a watermark
on the audio signal.
11. Device according to claim 1, wherein the means (20) for converting the audio signal
to the time/spectral representation (74) comprises:
block formation means (28) for forming a sequence of blocks of information values
from the audio signal (14); and
means (30) for spectrally decomposing each of the sequence of blocks of information
values to obtain a sequence of spectral value blocks, wherein each spectral value
block comprises a spectral value (76) for each of a predetermined plurality of spectral
components, so that the sequence of spectral value blocks per spectral component forms
a sequence (82a-82d) of spectral values.
12. Device according to claim 11, wherein the means (22) for converting the audio signal
(14) to the spectral/modulation spectral representation (88) comprises:
means (32-38) for spectrally decomposing a predetermined sequence of the sequences
(82a-82d) of spectral values to obtain a block of modulation values,
wherein the means (24; 40) for modifying is designed to modify the block (88) of modulation
values to obtain a modified block of modulation values, which is part of the modified
spectral/modulation spectral representation (88).
13. Device according to claim 12, wherein the means (26) for forming is designed to back-convert
(42, 44, 46) the modified block of modulation values from the spectral decomposition
to obtain a modified sequence of spectral values, and to back-convert (48) a sequence
of modified spectral blocks based on the modified sequence of spectral values to obtain
a sequence of modified blocks of information values, and to combine (50) the modified
blocks of information values to obtain the processed audio signal (18).
14. Device according to claim 13, wherein the means (20) for spectrally decomposing each
of the sequence of blocks of information values is designed to first multiply each
block of the sequence of blocks of information values by a window function and to
then spectrally decompose it, and the means (26) for forming is designed to process
the modified blocks of information values, when combining (50), such that the multiplication
by the window function does not affect the processed audio signal (18).
15. Device according to claim 12, wherein the means (20) for spectrally decomposing each
of the sequence of blocks of information values is designed such that it provides
a sequence (82a-82d) of complex spectral values in the spectral decomposition per
spectral component, and the means (32, 34, 36, 38) for spectrally decomposing the
predetermined sequence of the sequences (82a-82d) of spectral values is designed to
first modify (34) the predetermined sequence (82a-82d) of spectral values such that
a phase of the spectral values of the predetermined sequence of spectral values is
increased or reduced by an amount steadily increasing or decreasing with the sequence
to obtain a phase-modified sequence of spectral values, and then to spectrally decompose
(38) the phase-modified sequence of spectral values to obtain the at least one block
of modulation values, and the means for forming is designed to back-convert (42) the
modified block of modulation values from the spectral decomposition to obtain a modified
sequence of spectral values, to modify (46) the modified sequence of spectral values
inversely to the means (34) for spectrally decomposing the predetermined sequence
of the sequences of spectral values such that a phase of the spectral values of the
at least one sequence of spectral values is increased or reduced by an amount steadily
increasing or decreasing with the sequence to obtain a modified sequence of spectral
values, to back-convert (48) a sequence of modified spectral blocks based on the modified
sequence of spectral values to obtain a sequence of modified blocks of information
values, and to combine (50) the modified blocks of information values to obtain the
processed audio signal (18).
16. Device according to one of the preceding claims, wherein the only frequency decomposition
transform is one single discrete Fourier transform.
17. Method for processing an audio signal (14), comprising
converting (20) the audio signal (14) to a time/spectral representation (74) by block-wise
transforming of the information signal;
converting (22) the audio signal from the time/spectral representation (74) to a spectral/modulation
spectral representation (88) by means of one single frequency decomposition transform,
wherein the conversion is performed such that the spectral/modulation spectral representation
(88) depends on both a magnitude component and a phase component of the time/spectral
representation (74) of the audio signal (14);
modifying (24) the audio signal (14) in the spectral/modulation spectral representation
(88) to obtain a modified spectral/modulation spectral representation; and
forming (26) a processed audio signal (18) representing a processed version of the
audio signal (14) based on the modified spectral/modulation spectral representation.
18. Computer program with a program code for performing the method according to claim
16 when the computer program runs on a computer.
1. Dispositif de traitement d'un signal audio (14), avec
un moyen (20) destiné à transposer le signal audio (14) en une représentation dans
le temps/spectrale (74) par transformation par bloc du signal audio;
un moyen (22) destiné à transposer le signal audio de la représentation dans le temps/spectrale
(74) en une représentation spectrale/spectrale de modulation (88) au moyen d'une transformation
de décomposition en fréquences unique, le moyen (22) destiné à transposer étant réalisé
de sorte que la représentation spectrale/spectrale de modulation (88) soit fonction
tant d'une part de quantité que d'une part de phase de la représentation dans le temps/spectrale
(74) du signal audio (14);
un moyen (24, 40) destiné à manipuler le signal audio (14) dans la représentation
spectrale/ spectrale de modulation (88), pour obtenir une représentation spectrale/spectrale
de modulation modifiée; et
un moyen (26) destiné à former un signal audio traité (18), qui représente une version
traitée du signal audio (14), sur base de la représentation spectrale/spectrale de
modulation modifiée.
2. Dispositif selon la revendication 1, dans lequel le moyen (20) destiné à transposer
le signal audio (14) en représentation dans le temps/spectrale (74) est réalisé de
manière à décomposer la représentation dans le temps/spectrale en une pluralité de
composantes spectrales, pour obtenir par composante spectrale une succession (82a,
82b, 82c, 82d) de valeurs spectrales complexes.
3. Dispositif selon la revendication 2, dans lequel le moyen (22) destiné à transposer
le signal audio (14) de la représentation dans le temps/spectrale (74) à la représentation
spectrale/spectrale de modulation (88) présente un moyen (36, 38) destiné à décomposer
spectralement par bloc, pour une composante spectrale prédéterminée, la succession
(82a, 82b, 82c, 82d) de valeurs spectrales, pour obtenir une partie de la représentation
spectrale/spectrale de modulation (88).
4. Dispositif selon la revendication 3, dans lequel le moyen (22) destiné à décomposer
spectralement par bloc, pour une composante spectrale prédéterminée, la succession
(82a, 82b, 82c, 82d) de valeurs spectrales est réalisé de manière à multiplier tout
d'abord la succession (82a, 82b, 82c, 82d) de valeurs spectrales par bloc avec une
porteuse complexe (84), de sorte que, par bloc, une quantité d'une montée moyenne
d'une évolution de phase de la succession (82a, 82b, 82c, 82d) de valeurs spectrales
diminue, pour obtenir des blocks de valeurs spectrales démodulés, et ensuite décomposer
spectralement par bloc les blocs de valeurs spectrales démodulés, pour obtenir la
partie de la représentation spectrale/ spectrale de modulation (88) modifiée.
5. Dispositif selon la revendication 4, dans lequel le moyen (22) destiné à décomposer
spectralement par bloc, pour une composante spectrale prédéterminée, la succession
(82a, 82b, 82c, 82d) de valeurs spectrales complexes présente un moyen (32) destiné
à faire varier par bloc, en fonction de la représentation dans le temps/spectrale
(74) du signal audio, la porteuse complexe par laquelle la succession (82a, 82b, 82c,
82d) de valeurs spectrales complexes est multipliée par bloc.
6. Dispositif selon la revendication 5, dans lequel le moyen (32) destiné à faire varier
est réalisé de manière à développer par bloc, pour faire varier par bloc la porteuse
complexe, les phases des valeurs spectrales dans la succession de valeurs spectrales,
pour obtenir une évolution de phases, à déterminer une montée moyenne de l'évolution
de phases et à déterminer, sur base de la montée moyenne, la porteuse complexe.
7. Dispositif selon la revendication 6, dans lequel le moyen (32) destiné à faire varier
est par ailleurs réalisé de manière à déterminer, à partir de l'évolution de phases,
un segment d'axe de l'évolution de phases et à déterminer la porteuse complexe par
ailleurs sur base du segment d'axe.
8. Dispositif selon l'une des revendications 4 à 7, dans lequel le moyen (26) destiné
à former présente les caractéristiques suivantes:
un moyen (42) destiné à retransposer le signal audio de la représentation spectrale/spectrale
de modulation modifiée en une représentation dans le temps/ spectrale modifiée, pour
obtenir des blocs démodulés modifiés de valeurs spectrales pour la composante spectrales
prédéterminée;
un moyen (46) destiné à multiplier par bloc les blocs démodulés modifiés de valeurs
spectrales par une porteuse conjuguée complexe par rapport à la porteuse complexe,
pour obtenir des blocs modifiés de valeurs spectrales; et
un moyen (44) destiné à regrouper les blocs modifiés de valeurs spectrales en une
succession modifiée de valeurs spectrales, pour obtenir une partie d'une représentation
dans le temps/spectrale du signal audio traité (18).
9. Dispositif selon la revendication 8, dans lequel le moyen destiné à former présente
par ailleurs la caractéristique suivante:
un moyen destiné à retransposer le signal audio traité (18) de la représentation dans
le temps/spectrale en représentation dans le temps.
10. Dispositif selon l'une des revendications précédentes, dans lequel le moyen (40) destiné
à modifier est réalisé de manière à procéder à une pondération des parts de modulation
de la représentation spectrale/spectrale de modulation (88) pour la filtration de
modulation, la codage audio, la séparation de sources, la reconstruction du signal
audio, le masquage d'erreur ou la superposition du signal audio avec un filigrane.
11. Dispositif selon la revendication 1, dans lequel le moyen (20) destiné à transposer
le signal audio à la représentation dans le temps/spectrale (74) présente les caractéristiques
suivantes:
un moyen de formation de blocs (28) destiné à former une succession de blocs de valeurs
d'information à partir du signal audio (14); et
un moyen (30) destiné à décomposer spectralement chacun de la succession de blocs
de valeurs d'information, pour obtenir une succession de blocs de valeurs spectrales,
chaque bloc de valeurs spectrales présentant une valeur spectrale (76) pour chacune
d'une pluralité prédéterminée de composantes spectrales, de sorte que la succession
de blocs de valeurs spectrales forme, par composante spectrale, une succession (82a
à 82d) de valeurs spectrales.
12. Dispositif selon la revendication 11, dans lequel le moyen (22) destiné à transposer
le signal audio (14) à la représentation spectrale/spectrale de modulation (88) présente
les caractéristiques suivantes:
un moyen (32 à 38) destiné à décomposer spectralement une succession prédéterminée
parmi les successions (82a à 82d) de valeurs spectrales, pour obtenir un bloc de valeurs
de modulation,
le moyen (24; 40) destiné à modifier étant réalisé de manière à modifier le bloc (88)
de valeurs de modulation, pour obtenir un bloc modifié de valeurs de modulation qui
est une partie de la représentation spectrale/spectrale de modulation modifiée (88).
13. Dispositif selon la revendication 12, dans lequel le moyen (26) destiné à former est
réalisé de manière à retransposer le bloc modifié de valeurs de modulation de la décomposition
spectrale (42, 44, 46), pour obtenir une succession modifiée de valeurs spectrales,
et à retransposer (48) une succession de blocs spectraux modifiés sur base de la succession
modifiée de valeurs spectrales, pour obtenir une succession de blocs modifiés de valeurs
d'information, et à regrouper (50) les blocs modifiés de valeurs d'information, pour
obtenir le signal audio traité (18).
14. Dispositif selon la revendication 13, dans lequel le moyen (20) destiné à décomposer
spectralement chacun de la succession de blocs de valeurs d'information est réalisé
de manière à tout d'abord multiplier chaque bloc de la succession de blocs de valeurs
d'information par une fonction de division en fenêtres et ensuite à le décomposer
spectralement, et le moyen (26) destiné à former est réalisé de manière à traiter,
lors du regroupement (50), les blocs modifiés de valeurs d'information de sorte que
la multiplication par la fonction de division en fenêtres n'ait pas d'influence sur
le signal audio (18).
15. Dispositif selon la revendication 12, dans lequel le moyen (20) destiné à décomposer
spectralement chacun de la succession de blocs de valeurs d'information est réalisé
de sorte qu'il fournisse, lors de la décomposition spectrale, par composante spectrale
une succession (82a à 82d) de valeurs spectrales complexes, et le moyen (32, 34, 36,
38) destiné à décomposer spectralement la succession prédéterminée parmi les successions
(82a à 82d) de valeurs spectrales est réalisé de manière à tout d'abord modifier (34)
la succession prédéterminée (82a à 82d) de valeurs spectrales de sorte qu'une phase
des valeurs spectrales de la succession prédéterminée de valeurs spectrales soit augmentée
ou réduite d'une quantité devenant en continu plus grande ou plus petite avec la succession,
pour obtenir une succession modifiée en phase de valeurs spectrales, et ensuite décomposer
spectralement (38) la succession modifiée en phase de valeurs spectrales, pour obtenir
l'au moins un bloc de valeurs de modulation, et le moyen destiné à former est réalisé
de manière à retransposer (42) le bloc modifié de valeurs de modulation de la décomposition
spectrale, pour obtenir une succession modifiée de valeurs spectrales, à modifier
(46) la succession modifiée de valeurs spectrales inversement au dispositif (34) destiné
à décomposer spectralement la succession prédéterminée parmi les successions de valeurs
spectrales de sorte qu'une phase des valeurs spectrales de l'au moins une succession
de valeurs spectrales soit augmentée ou réduite d'une quantité devenant en continu
plus grande ou plus petite avec la succession, pour obtenir une succession modifiée
de valeurs spectrales, à retransposer (48) une succession de blocs spectraux modifiés
sur base de la succession modifiée de valeurs spectrales, pour obtenir une succession
de blocs modifiés de valeurs d'information, et à regrouper (50) les blocs modifiés
de valeurs d'information, pour obtenir le signal audio traité (18).
16. Dispositif selon l'une des revendications précédentes, dans lequel la transformation
de décomposition en fréquences unique est une transformation de Fourier discrète unique.
17. Procédé pour traiter un signal audio (14), avec
transposer (20) le signal audio (14) en une représentation dans le temps/spectrale
(74) par transformation par bloc du signal audio;
transposer (22) le signal audio de la représentation dans le temps/spectrale (74)
en une représentation spectrale/spectrale de modulation (88) au moyen d'une transformation
de décomposition en fréquences unique, la transposition étant réalisée de sorte que
la représentation spectrale/ spectrale de modulation (88) soit fonction tant d'une
part de quantité que d'une part de phase de la représentation dans le temps/spectrale
(74) du signal audio (14);
modifier (24) le signal audio (14) dans la représentation spectrale/spectrale de modulation
(88), pour obtenir une représentation spectrale/ spectrale de modulation modifiée;
et
former (26) un signal audio traité (18), qui représente une version traitée du signal
audio (14), sur base de la représentation spectrale/ spectrale de modulation modifiée.
18. Programme d'ordinateur avec un code de programme pour réaliser le procédé selon la
revendication 17 lorsque le programme d'ordinateur est exécuté sur un ordinateur.