Gebiet der Erfindung
[0001] Die Erfindung betrifft ein Verfahren zur Analyse von Audiosignalen. Analog zur Funktionsweise
des menschlichen Gehirns werden in dem vorliegenden Verfahren die Audiosignale auf
Frequenz- und Zeitkohärenz untersucht. Durch Extraktion dieser Kohärenzen lassen sich
Datenströme der Signale separieren.
Stand der Technik
[0002] Das menschliche Gehirn reduziert Datenströmen, die von der Cochlea, der Retina oder
anderen Sensoren geliefert werden. Akustische Information wird zum Beispiel auf dem
Weg zum Neocortex auf weniger als 0.1 Prozent reduziert.
[0003] Eine Datenreduktion in Analogie zum menschlichen Gehirn bietet daher zwei Vorteile.
Einerseits kann man eine starke Komprimierung erhalten, andererseits geht bei der
Reduzierung der Datenströme nur Information verloren, die im Gehirn sowieso entfernt
worden wäre und somit unhörbar ist.
[0004] Psychoakustische Modelle versuchen die Phänomene dieser Reduktion zu imitieren, vgl.
Auditory Perception - A New Analysis and Synthesis, Richard M. Warren, 1999 Cambridge University Press, liefern aber prinzipbedingt im
direkten Vergleich nur sehr schlechte Resultate.
[0005] Die Art der Datenreduktion läßt sich mit Hilfe der Informationstheorie erklären.
Neuronale Netzwerke versuchen die Signalentropie zu maximieren. Dieser Prozeß ist
äußerst kompliziert und kaum analytisch beschreibbar, und kann eigentlich nur durch
lernende Netze modelliert werden.
[0006] Ein wesentlicher Nachteil dieses bekannten Verfahren besteht in der sehr langsamen
Konvergenz, so daß es selbst auf modernen Rechnern nicht zufriedenstellend realisiert
werden kann.
[0007] Aufgabe der Erfindung ist es daher, ein Verfahren zur Verfügung zu stellen, mit dem
akustische Datenströme (Audiosignale) mit geringem Rechenaufwand so analysiert und
zerlegt werden können, daß die separierten Signale einerseits sehr gut komprimiert
oder anderweitig weiterverarbeitet werden können, andererseits aber einen möglichst
geringen Informationsverlust aufweisen.
Beschreibung der Erfindung
[0008] Gelöst wird diese Aufgabe durch ein Verfahren zur Analyse von Audiosignalen gemäß
Anspruch 1.
[0009] In der Beschreibung der Erfindung werden folgende Begriffe verwendet.
[0010] Ein
Kurzzeitspektrum eines Signals
a(t) ist eine zweidimensionale Darstellung
S(f,t) im Phasenraum mit den Koordinaten
f (Frequenz) und
t (Zeit).
[0011] Die verwendete Definition von
Kohärenz bezieht sich auf charakteristische Eigenschaften der Autokorrelationsfunktion
As von Kurzzeitspektren
S :

wobei
S+ das konjugierte Spektrum bezeichnet. Weist diese Funktion vorhersagbares Verhalten
für
t=0 bzw.
f=0 aus, so spricht man von Frequenzkohärenz respektive Zeitkohärenz. Diese Aussage betrifft
das gesammte Kurzzeitspektrum S; will man, wie im folgenden, etwas über lokale Kohärenz
erfahren, so zieht man nur einen Ausschnitt von S zur Bewertung heran.
[0012] Filter werden durch ihre Wirkung im Frequenzraum definiert. Der Filteroperator
F̂ wirkt auf die Fouriertransformierte

als frequenzabhängige komplexwertige Bewertung
h(f), die man als Frequenzantwort bezeichnet:


[0013] Die frequenzabhängigen reellen Grössen
g(f) und φ(
f) werden als Amplituden- bzw. Phasenantwort bezeichnet.
[0014] Anwendung der inversen Fouriertransformation auf die Operatordefinition zeigt, daß
der Filter im Ortsraum als Faltung mit
F̂-1[
h(
f)] wirkt. Diese Faltung läßt sich als Skalarprodukt mit translationssymmetrischen
Vektoren
V(
t) beschreiben. Ein Satz von Filtern mit verschiedenen
hn(
f) liefert damit ein Kurzzeitspektrum nach der obigen Definition. Im Falle von Bandpaßfiltern,
bei denen
h(
f) bis auf ein endliches Intervall praktisch verschwindet, kann eine Bank von Filtern
zur Darstellung von Kurzzeit-Fourierspektren oder Waveletspektren verwendet werden.
Im ersten Fall entstehen die unterschiedlichen
hn(
f) durch Verschiebung eines vorgebenen
h(
f), im zweiten Fall durch Skalierung der Frequenzachse. Bei Fourierspektren haben die
hn(
f) eine konstante Bandbreite, bei Waveletspektren dagegen konstante Güte (constant
Q).
[0015] In
Strömen und
Ereignissen werden Teile des Phasenraumes zusammengefaßt, die die gleiche Art von Kohärenz aufweisen
und zusammenhängend sind. Ströme beziehen sich dabei auf Frequenzkohärenz, Ereignisse
auf zeitliche Kohärenz. Ein Beispiel für einen Strom ist also eine einstimmige Melodielinie
eines Instruments, die nicht unterbrochen ist. Ein Ereignis kann dagegen ein Trommelschlag
sein, aber auch die Konsonanten in einer Gesangslinie.
[0016] Das erfindungsgemäße Verfahren beruht auf der Kohärenzanalyse von Audiosignalen.
Wie im menschlichen Gehirn werden dabei zwei kohärente Situationen in den Signalen
unterschieden: zum einen zeitliche Kohärenz in Form von Gleichzeitigkeit und Rhythmik
und zum anderen Kohärenz im Frequenzraum, die sich durch Obertonspektren darstellt
und zur Wahrnehmung einer bestimmten Tonhöhe führt. Damit wird eine Reduktion der
komplexen Audiodaten auf Rhythmik und Tonalität durchgeführt, wodurch sich der Bedarf
an Steuerdaten wesentlich reduziert.
[0017] Um die Datenverarbeitung zu beginnen, muß zunächst eine Serie von Kurzzeitspektren
erstellt werden, die zur weiteren Analyse benötigt werden. Anschließend wird mit einer
nichtlinearen Abbildung die Anregung der Tonhöhenschicht erzeugt; eine weitere nichtlineare
Abbildung ergibt die Anregung der Rhythmusschicht. Dann erfolgt die Extraktion der
kohärenten Frequenzströme und der kohärenten zeitlichen Ereignisse. Zuletzt wird das
verbleibende Restsignal modelliert.
[0018] Die getrennten Ströme können aufgrund ihrer geringen Entropie hervorragend komprimiert
werden. Im optimalen Fall kann eine Kompressionsrate von über 1:100 erzielt werden,
ohne daß Verluste hörbar wären. Ein mögliches Kompressionsverfahren wird anschließend
an das Separationsverfahren beschrieben.
[0019] Im folgenden werden die Schritte des erfindungsgemäßen Verfahrens und vorteilhafte
Ausführungsformen sowie verschiedene Anwendungen beschrieben.
[0020] Erzeugung der Kurzzeitspektren
[0021] Die Kurzzeitspektren werden vorteilhafterweise mittels Kurzzeit-Fouriertransformation,
Wavelettransformation oder mittels einer Hybridmethode aus Wavelettransformation und
Fouriertransformation erzeugt.
[0022] Die Fouriertransformation kann durch Verwendung einer zeitlich um
t0 = 0 lokalisierten Fensterfunktion
w(
t) zur Erzeugung eines Kurzzeitspektrums verwendet werden :

[0023] Die Fensterfunktion beeinflußt dabei wesentlich die Bandbreite der einzelnen Filter,
die unabhängig von
f einen konstanten Wert besitzt. Die Frequenzauflösung ist damit über die ganze Frequenzachse
gleich. Die Erzeugung eines Kurzzeitspektrums mittels Fouriertransformation bietet
den Vorteil, daß schnelle Algorithmen (FFT, fast fourier transform) für die diskrete
Fouriertransformation bekannt sind.
[0024] Die Wavelettransformation (WT) erhält man durch die Definition eines Mutter-Wavelets
M(
t) mit den Eigenschaften

und

Die Transformation ergibt sich dann zu:

[0025] Die Frequenzachse wird dabei logarithmisch homogen unterteilt, so daß man sinnvollerweise
log(
f) als neue Frequenzachse betrachtet. Die Wavelettransformation ist äquivalent zu einer
Bank von Filtern mit

. Wegen ihrer logarithmischen Unterteilung hat diese Transformation den großen Vorteil,
die Frequenzauflösung des menschlichen Gehörs nachzubilden. Schnelle Wavelettransformationen
beruhen auf der Auswertung einer allgemeinen WT auf einem dyadischen Phasenraumgitter.
[0026] Die Vorteile von Fourier- und Wavelettransformation lassen sich zusammenführen, indem
man hybride Methoden verwendet. Hierbei wird zunächst eine dyadische WT durch rekursive
Halbierung des Frequenzspektrums mit komplementären Hoch- und Tiefpaßfiltern durchgeführt.
Zur Realisation benötigt man ein Signal
a(
nΔt),
n ∈

, auf einem diskreten Zeitraster, wie es nach der Digitalisierung im Rechner vorliegt.
Außerdem verwendet man die Operationen
Ĥ und
T̂, die den beiden Filtern entsprechen. Um das Verfahren rekursiv anzuwenden, muß die
Signalrate halbiert werden, was der Operator
D̂ durch entfernen aller ungeraden
n erreicht. Umgekehrt fügt
Û nach jedem diskreten Signalwert eine Null ein, um die Signalrate zu verdoppeln. Man
kann dann die von der dyadischen WT erzeugten Bänder von der größten Frequenz an durchnumerieren
:

[0027] Die große Rechengeschwindigkeit ist in der rekursiven Auswertbarkeit des Bandes
Bm über
Bm-1 begründet. Die Skalierung der Frequenzachse ist logarithmisch. Um die Auflösung der
Transformation zu erhöhen, kann jedes Bandsignal
Bm(
n) mit einer diskreten Fouriertransformation weiter linear unterteilt werden. Die einzelnen
Fourierspektren müssen dabei in ihrer Frequenzachse gespiegelt werden, da durch den
Operator
D̂ nach
Ĥ der obere Teil des Spektrums nach unten umklappt. Als Ergebnis erhält man eine stückweise
lineare Approximation eines logarithmisch aufgelösten Spektrums. Die Auflösung kann
dabei je nach verwendetem Fenster für die diskrete Fouriertransformation sehr hohe
Werte erreichen.
Nichtlineare Tonhöhenanregung
[0028] Als Tonhöhe (Pitch) wird bei vom Gehirn empfundener Frequenzübereinstimmung eines
tonalen Ereignisses mit einer zum Vergleich angebotenen Sinusschwingung deren Frequenz
f definiert. Die Tonhöhenskala wird vorteilhafterweise logarithmisiert, um der Frequenzauflösung
des menschlichen Gehörs gerecht zu werden. Eine solche Skala kann linear auf musikalische
Notennummern abgebildet werden.
[0029] Die Tonhöhenanregungsschicht (PEL, Pitch Excitation Layer) stellt einen zeitabhängigen
Zustand PEL
t(
p) ∈

mit
p = a log(
f)+
b und
a,
b Abbildungskonstanten dar, der sein Maximum bei
pmax annimmt. Das Maximum gibt die zum Zeitpunkt
t dominante Tonhöhe an.
[0030] Weitere lokale Maxima zeigen bei mehrstimmigen (polyphonen) Signalen ebenfalls vorhandene
Tonhöhen an. Die PEL imitiert die Tonhöhenanregung im Cortex des menschlichen Gehirns,
indem Frequenzkohärenzen analysiert werden.
[0031] Zur Erzeugung der Tonhöhenanregung bieten sich verschiedene Möglichkeiten an. In
Frage kommen unter anderem neuronale Netze. Beispielsweise lassen sich neuronale Netze
mit Rückkopplungsglied und Erkennungsträgheit vom Typ ART (Adaptive Resonance Theory)
verwenden. Ein solches Modell zur erwartungsgesteuerten Stromseparation ist in einer
einfachen Form in
Pitch-based Streaming in Auditory Perception, Stephen Grossberg, in: Musical Networks - Parallel Distributed Perception and Performance,
Niall Griffith, Peter M. Todd (Editors), 1999 MIT Press, Cambridge, beschrieben worden.
[0032] Eine einfachere und daher besonders geeignete Möglichkeit ist die Verwendung einer
deterministischen Abbildung vom Kurzzeitspektrum in den PEL. Dabei ist es von Vorteil,
diese Abbildung in zwei Teilabbildungen aufzuspalten. In einer ersten Abbildung wird
der Logarithmus des Spektralbetrags genommen:

[0033] Die zweite Abbildung besteht wiederum aus verschiedenen Teilen. Als erstes wird die
Korrelation von
L(
t,f) mit einem idealen Obertonspektrum berechnet. Anschließend werden spektrale Echos
eines Tons im PEL unterdrückt, die der Lage möglicher Obertöne entsprechen.
[0034] Um den Kontrast zu erhöhen und weniger ausgeprägte Anteile des Spektrums zu unterdrücken,
ist es von Vorteil, das Spektrum lateral zu hemmen. Diese laterale Hemmung kann nach
der Berechnung von
L(
t,f), nach der Korrelierung oder auch nach der
[0035] Echounterdrückung durchgeführt werden. Für die laterale Hemmung kann, nach Vorbild
der Natur, eine nichtlineare Abbildung verwendet werden.
[0036] Um den Aufwand zu erniedrigen, ist es von Vorteil, die laterale Hemmung mit einer
linearen Abbildung durchzuführen. Damit wird die gesamte zweite Abbildung der Tonhöhenanregung
eine lineare Abbildung und kann als Produkt von Matrizen geschrieben werden. In einer
bevorzugten Ausführungsform führt eine erste Matrix
H die laterale Hemmung durch; dabei wird der Kontrast des Spektrums erhöht, um für
die folgende Korrelationsmatrix
K eine optimale Ausgangsbasis zu liefern. Bei der Korrelationsmatrix handelt es sich
um eine Matrix, die alle möglichen Obertonpositionen enthält und so an der Stelle
mit maximaler Übereinstimmung des Obertonspektrums eine entsprechend große Ausgabe
erzeugt. Anschließend wird wieder eine laterale Hemmung durchgeführt. Danach werden
mit einer "Entscheidungsmatrix"
U die spektralen Echos eines Tons im PEL unterdrückt, die der Lage möglicher Obertöne
entsprechen. Zuletzt wird nochmals eine laterale Hemmung durchgeführt. Je nach Form
der einzelnen Abbildungen ist es nötig, jeweils eine Matrix
M vor- bzw. nachzuschalten, um den Spektralvektor vom Mittelwert zu befreien.
[0037] In einer bevorzugten Auführungsform können die Matrizen die folgende Gestalt haben.
Die Größe der Korrelationsmatrix
Kij entspricht der Länge des diskreten Spektrums und wird mit
N bezeichnet. Dann können die Einträge die Form haben

wobei die α
j so gewählt werden, daß

Falls die Kurzzeitspektren mit reinen Fourier- oder Wavelettransformationen ermittelt
wurden, ist
a,b sind nach dem zu analysierenden Spektralausschnitt zu wählen,
P ist die Anzahl zu korrelierener Obertöne. Die verwendeten Konstanten ergeben sich
aus der Lage der interessanten Daten im Spektrum und können relativ frei gewählt werden.
Die Anzahl der Obertöne sollte sich zwischen etwa 5 und 20 bewegen, da dies der Zahl
der wirklich vorkommenden Obertöne entspricht. Die Konstante p wird empirisch ermittelt.
Sie kompensiert die Breite der spektralen Bänder. Für die Hybridmethode kann die Korrelationsmatrix
entsprechend stückweise konstruiert werden.
[0038] Die spektralen Echos, die der Lage möglicher Obertöne entsprechen, können mit der
Matrix
U
unterdrückt werden:

mit δ
0l dem Kronecker-Symbol; die α
j werden so gewählt, daß

[0039] Für die laterale Hemmung kann man die Matrix
Hij mit

wählen, wobei die Konstanten
s > 0 und ρ
1 > ρ
2 empirisch zu bestimmen sind; die α
j werden so gewählt, daß

[0040] Für die korrekte Funktionsweise obiger Matrizen muß der Spektralvektor mittelwertfrei
sein.
[0041] Dazu kann man die Matrix
M
verwenden:

wobei

die
N -dimensionale Identitätsmatrix bezeichnet und
E
=1,
i,j =1,...,
N. Definiert man =
MHM , so läßt sich der lineare Anteil der PEL-Abbildung schreiben als

[0042] Um die Anregungsschicht zu berechnen ist das logarithmische Spektrum mit
A abzubilden:

[0043] Das so erzeugte Pitchspektrum zeigt deutliche Ausprägungen für alle im Audiosignal
vorkommenden tonalen Ereignisse. Um die Ereignisse zu trennen, kann eine Vielzahl
solcher Pitchspektren gleichzeitig erzeugt werden, die sich alle untereinander hemmen,
so daß sich in jedem Spektrum ein anderer Kohärenzstrom manifestiert. Ordnet man jedem
dieser Pitchspektren eine Kopie seines Frequenzspektrums zu, so kann man über ein
Feedback in diese sogar eine erwartungsgesteuerte Anregung im Pitchspektrum erzeugen.
Ein solches ART-Stream Netzwerk eignet sich hervorragend, um Eigenschaften der menschlichen
Wahrnehmung zu modellieren.
[0044] Es ist vorteilhaft, die Ströme durch Suche von zeitlich zusammenhängenden lokalen
Maxima auf der Pitchachse zu erkennen und die Tonhöhendaten daraus als Zeitreihe zu
berechnen. Diese Stromdaten werden später dazu verwendet, die kohärenten Daten zu
extrahieren.
Nichtlineare Rhythmusanregung
[0045] Plötzliche Änderungen auf der Zeitachse des Kurzzeitspektrums, sogenannte Transienten,
sind die Grundlage für rhythmischen Empfinden und stellen die auffälligste zeitliche
Kohärenz innerhalb eines kurzen Zeitfensters dar.
[0046] Die rhythmische Anregung soll bei geringer Frequenzauflösung und relativ hoher Zeitauflösung
auf Ereignisse mit starker zeitlicher Kohärenz reagieren. Es bietet sich an, für diesen
Zweck ein zweites Spektrum mit geringerer Frequenzauflösung neu zu berechnen.
[0047] Um den Aufwand zu reduzieren, ist es von Vorteil, das bereits vorhandene Spektrum
für diesen Zweck zu nutzen. Grundlage für die lineare Abbildung in die Rhythmusanregungsschicht
(REL, Rhythm Excitation Layer) ist dann das logarithmische Spektrum
L(
t,f). Die anzuwendende Abbildung kann durch zwei Schritte beschrieben werden.
[0048] In einem ersten Schritt werden die Frequenzkomponenten gemittelt, um ein besseres
Signal/Rausch-Verhältnis zu erhalten. In einer bevorzugten Ausführungsform, die an
die oben beschriebenen Matrizen angepaßt ist, hat die Matrix
R
zur Frequenzrauschunterdrückung die Gestalt

mit

[0049] Die Konstanten
a,b sind nach dem zu analysierenden Spektralausschnitt wie oben zu wählen, um die PEL
mit der REL vergleichen zu können. Die Konstante σ steuert die Frequenzverschmierung
und damit die Rauschunterdrückung.
[0050] Im menschlichen Gehirn kann nur eine zeitliche Korrelation auf einem sehr kurzen
Intervall erfolgen. Man kann daher im zweiten Schritt der Rhythmusanregung eine differentielle
Korrelation vornehmen, ohne wesentliche Informationen zu verlieren. Der Operator
Ĉ für diese Abbildung wird hier analytisch kontininuierlich wiedergegeben, kann aber
mit Standardmethoden diskretisiert werden.

mit 0 < β < 1 und σ
1 > σ
2 > 0 als empirisch bestimmbaren Parametern.
[0051] Die beiden Operatoren kommutieren, so daß die zusammengesetzte Abbildung in die Rhythmusschicht
durch

gegeben ist. Der Betrag von RL gibt Aufschluß über das Auftreten und den Frequenzbereich
von Transienten.
Extraktion der kohärenten Frequenzströme
[0052] Da die PEL-Ströme im Frequenzraum gut lokalisiert sind, verwendet man eine Filterstruktur
um den Strom von den restlichen Daten des Audiostroms zu trennen. Vorteilhafterweise
benutzt man hierfür einen Filter mit variabler Mittenfrequenz. Von besonderem Vorteil
ist es, wenn die Tonhöheninformation aus der PEL-Ebene in eine Frequenztrajektorie
umgewandelt wird und damit die Mittenfrequenz des Bandpassfilters gesteuert wird.
Somit wird für jeden Oberton ein Signal geringer Bandbreite erzeugt, das anschließend
durch Addition zum Gesamtstrom verarbeitet werden kann, aber auch mittels Amplitudenhüllkurve
für jeden Oberton und Tonhöhenverlauf beschrieben werden kann.
[0053] Um das Signal aus dem Datenstrom zu löschen, muß es abgezogen werden. Dabei kann
durch den Filter eine Phasenverschiebung eingeführt werden. In diesem Fall ist es
notwendig, nach der Extraktion eine Phasenanpassug durchzuführen. Das wird vorteilhafterweise
erreicht, indem das extrahierte Signal mit einer komplexwertigen Hüllkurve vom Betrag
1 multipliziert wird. Die Hüllkurve wird verwendet, um mittels Optimierung, beispielsweise
durch Minimierung des quadratischen Fehlers, den Phasenausgleich zu erreichen.
[0054] Es ist von Vorteil, mit der Hüllkurve auch die Amplitudenanpassung des extrahierten
Signals vorzunehmen. Die Tonhöheninformation ist aus der PEL bekannt, so daß man eine
entsprechende Sinusoide synthetisieren kann, die bis auf die fehlende Amplitudeninformation
und eine gewisse Phasenabweichung den Teilton des Stromes exakt beschreibt.
[0055] In einer bevorzugten Ausführungsform kann die Sinusoide
S(
t) die folgende Form haben:

wobei
f(
t) den Frequenzverlauf aus der PEL und
n die Nummer der harmonischen Komponente bezeichnet. Diese Hüllkurve muß jetzt sowohl
die Amplitude anpassen als auch die Phasenverschiebung kompensieren. Das Orginalsignal
kann dabei als Referenz genommen werden, um den Fehler der Anpassung zu messen und
zu minimieren. Dabei reicht es aus, den Fehler lokal zu reduzieren und sich schrittweise
durch die gesamte Hüllkurve zu arbeiten.
[0056] Wurde zur Erzeugung der PEL bereits eine Filterbank verwendet, so eröffnet sich eine
andere vorteilhafte Möglichkeit zur Frequenzselektion der Ströme. Aus dem bekannten
Frequenzverlauf
f(
t) läßt sich zu jedem Zeitpunkt die benötigte Frequenzbewertung
B(
f,t) für die gesamte Obertonstruktur berechnen. Aus den bekannten Frequenzantworten
hn(
f) lassen sich daraus die Koeffizienten berechnen, mit deren Hilfe man den Strom
S(
t) extrahieren kann:

mit
Bn(
t) den komplexwertigen Frequenzantwort des
n-ten Filters. In diesem Fall repräsentiert
S(
t) den kompletten extrahierten Strom und weist keine Phasenverschiebung auf, da diese
durch die komplexen Koeffizienten bereits korrigiert wurde. Obige Formel gilt jedoch
nur für näherungsweise orthogonale
hn(
f), im allgemeinen Fall ist ein Korrekturglied zu ergänzen.
Extraktion der kohärenten zeitlichen Ereignisse
[0057] Im Gegensatz zu den PEL-Strömen sind die REL-Ereignisse im Frequenzraum schlecht
lokalisiert, dafür aber im Zeitraum recht scharf definiert. Entsprechend ist die Strategie
zur Extraktion zu wählen. Zunächst findet eine grobe Frequenzbewertung statt, die
aus der Ereignisunschärfe in der REL abgeleitet wird. Da hier keine besondere Exaktheit
erforderlich ist, ist es von Vorteil, für die Bewertung FFT-Filter, Analysefilterbänke
oder ähnliche Werzeuge zu verwenden, bei denen jedoch Dispersionsfreiheit im Durchlaßband
herrschen sollte. Der nächste Schritt erfordert entsprechend eine Zeitraumbewertung.
Vorteilhafterweise trennt man das Ereignis durch Multiplikation mit einer Fensterfunktion
ab. Die Wahl der Fensterfunktion muss empirisch bestimmt werden und kann auch adaptiv
geschehen. Damit kann das extrahierte Ereignis durch

erhalten werden; das Signal
a(
t) wird mit
H(
f) frequenzbewertet und mit
W(
t) ausgeschnitten.
Modellierung des Restsignals
[0058] Nach Extraktion der kohärenten Frequenzströme und zeitlichen Ereignisse enthält das
Restsignal (Residuen) des Audiostroms keine Anteile mehr, die vom Gehör erkennbare
Kohärenzen aufweisen, lediglich die Frequenzverteilung wird noch wahrgenommen. Es
ist daher von Vorteil, diese Anteile statistisch zu modellieren. Hierfür erweisen
sich zwei Verfahren als besonders vorteilhaft.
[0059] In einem ersten Verfahren verwendet man mehrere Bänder, die frequenzlokalisiertes
Rauschen enthalten. Eine Frequenzanalyse des Restsignals liefert das Mischungsverhältnis;
die Synthese besteht dann aus einer zeitabhängigen gewichteten Addition der Bänder.
[0060] In einem zweiten Verfahren beschreibt man das Signal durch seine statistischen Momente.
Die zeitliche Entwicklung dieser Momente wird aufgezeichnet und kann zur Resynthese
verwendet werden. Die einzelnen statistischen Momente werden auf bestimmten Zeitintervallen
berechnet. Vorteilhafterweise überlappen sich die Intervallfenster bei der Analyse
zu 50% und werden dann bei der Resynthese mit einem Dreiecksfenster bewertet addiert,
um die Überlappung zu kompensieren. Mit

bezeichnet man das
n-te Moment der Zufallsfolge
ak. Aus den Momenten läßt sich die Verteilungsfunktion der Zufallsfolge berechnen und
dann eine äquivalente Folge neu erzeugen. Die Anzahl der analysierten Momente sollte
wesentlich kleiner sein als die Länge
K der Folge. Genaue Werte erschließen sich durch Hörexperimente.
Anwendungen
[0061] Das oben beschriebene Verfahren kann in vorteilhafter Weise zur Kompression von Audiodaten
verwendet werden. Hierzu wird erfindungsgemäß ein Verfahren mit den Schritten nach
Anspruch 20 zur Verfügung gestellt.
[0062] Die durch die Extraktion separierten Ströme und Ereignisse weisen geringe Entropie
auf und lassen sich daher vorteilhafterweise sehr effizient komprimieren. Es ist von
Vorteil, die Signale zunächst in eine für die Kompression geeignete Darstellung zu
transformiert.
[0063] Als erstes kann eine adaptive differentielle Kodierung der PEL-Ströme erfolgen. Aus
der Extraktion der Ströme erhält man pro Strom eine Frequenztrajektorie und für jeden
vorhanden harmonischen Anteil eine Amplitudenhüllkurve. Zur effektiven Speicherung
dieser Daten wird vorteilhafterweise ein zweifach differentielles Schema angewendet.
Die Daten werden in gleichmäßigen Abständen abgetastet. Bevorzugt wird dabei eine
Abtastrate von etwa 20 Hz verwendet. Die Frequenztrajektorie wird logarithmisiert,
um der tonalen Auflösung des Gehörs gerecht zu werden, und auf dieser logarithmischen
Skala quantisiert. In einer bevorzugten Ausführungsform beträgt die Auflösung etwa
1/100 Halbton. Explizit gespeichert wird vorteilhafterweise der Wert der Startfrequenz
und danach nur noch die Differenzen zum vorangegangenen Wert. Dabei kann eine dynamische
Bitanpassung verwendet werden, die bei stabilen Frequenzlagen, wie bei lange gehaltenen
Tönen, praktisch keine Daten erzeugt.
[0064] Die Hüllkurven können ähnlich kodiert werden. Auch hier wird die Amplitudeninformation
logarithmisch interpretiert, um eine höhere angepaßte Auflösung zu erreichen. Nachdem
die Hüllkurve der Grundfrequenz analog zur Frequenztrajektorie kodiert wurde, wird
zu jedem Oberton der Amplitudenstartwert abgelegt. Da der Verlauf der Obertonamplituden
stark mit den Grundtonamplituden korreliert ist, wird vorteilhafterweise die Differenzinformation
der Grundtonamplitude als Änderung der Obertonamplitude angenommen und nur noch die
Differenz zu diesem geschätzten Wert gespeichert. Dadurch entstehen bei Obertonhüllkurven
nur dann nennenswerte Datenvolumen, falls sich die Obertoncharakteristik stark ändert.
Dadurch wird die Informationsdichte weiter erhöht.
[0065] Die aus der REL-Schicht extrahierten Ereignisse besitzen aufgrund ihrer zeitlichen
Lokalisierung eine geringe zeitliche Kohärenz. Es ist daher von Vorteil, eine zeitlokalisierte
Kodierung zu verwenden und die Ereignisse in ihrer Zeitraumdarstellung zu speichern.
Häufig sind sich die Ereignisse untereinander sehr ähnlich. Vorteilhafterweise ermittelt
man daher durch Analyse typischer Audiodaten einen Satz von Basisvektoren (Transienten),
in dem sich die Ereignisse durch wenige Koeffizienten beschreiben lassen. Diese Koeffizienten
können quantisiert werden und liefern dann eine effiziente Darstellung der Daten.
Die Ermittlung der Basisvektoren erfolgt bevorzugt mit neuronalen Netzwerken, insbesondere
Vektorquantisierungsnetzwerken, wie man sie beispielsweise aus
Neuronale Netzwerke, Rüdiger Brause, 1995 B.G. Teubner Stuttgart, kennt.
[0066] Aufgrund ihres statistischen Charakters können die Residuen, wie oben beschrieben,
durch eine Zeitreihe von Momenten oder durch Amplitudenverläufe von Bandrauschen modelliert
werden. Für diese Art von Daten ist eine geringe Abtastrate ausreichend. Analog zur
Kodierung der PEL-Ströme kann auch hier eine differentielle Kodierung mit adaptiver
Bittiefenanpassung verwendet werden, mit der die Residuen nur minimal zum Datenstrom
beitragen.
[0067] Sobald die Daten in eine geeignete Darstellung transformiert wurden, kann eine statistische
Datenkomprimierung durch Entropiemaximierung erfolgen. Besonders geeignet sind dabei
LZW- oder Huffmann-Verfahren.
[0068] Die nach obigem Verfahren separierten Signale eignen sich ebenfalls sehr gut für
Manipulationen der Zeitbasis (Timestretching), der Tonart (Pitchshifting) oder der
Formantstruktur, wobei unter Formant der Bereich des Klangspektrums zu verstehen ist,
in dem sich unabhängig von der Tonhöhe Schallenergie konzentriert. Für diese Manipulationen
sind bei der Resynthese der Audiodaten die Syntheseparameter in geeigneter Weise zu
ändern. Hierfür werden erfindungsgemäß Verfahren mit den Schritten nach den Ansprüchen
25 - 28 zur Verfügung gestellt.
[0069] Die PEL-Ströme werden vorteilhafterweise an eine neue Zeitbasis angepaßt, indem die
Zeitmarkierungen ihrer Hüllkurven- bzw. ihrer Trajektorienpunkte aus der PEL gemäß
der neuen Zeitbasis angepaßt werden. Alle anderen Parameter können unverändert bleiben.
Zur Änderung der Tonart wird die logarithmische Frequenztrajektorie entlang der Frequenzachse
verschoben. Um die Formantstruktur zu ändern, wird aus den Obertonamplituden der PEL-Ströme
eine Frequenzhülle interpoliert. Diese Interpolation kann vorzugsweise durch zeitliche
Mittelung erfolgen. Dadurch erhält man ein Spektrum, dessen Frequenzhüllkurve die
Formantstruktur ergibt. Diese Frequenzhülle kann unabhängig von der Basisfrequenz
verschoben werden.
[0070] Die Ereignisse der REL-Schicht bleiben bei Tonart- und Formantstrukturänderung invariant.
Bei Änderung der Zeitbasis paßt man den Zeitpunkt der Ereignisse entsprechend an.
[0071] Wie die REL-Ereignisse bleiben die globalen Residuen bei Tonartänderungen invariant.
Bei einer Manipulation der Zeitbasis kann im Falle der Momentkodierung die Synthesefensterlänge
angepaßt werden. Werden die Residuen mit Rauschbändern modelliert, können bei Manipulation
der Zeitbasis die Hüllkurvenstützpunkte für die Rauschbänder entsprechend angepaßt
werden. Bei der Formantkorrektur wird vorzugsweise die Rauschbanddarstellung verwendet.
In diesem Fall kann eine Anpassung der Bandfrequenz entsprechend der Formantverschiebung
vorgenommen werden.
[0072] Als weitere vorteilhafte Anwendung ergibt sich die Notation der Audiodaten in Notenschrift.
Dazu wird erfindungsgemäß ein Verfahren mit den Schritten nach Anspruch 29 bereitgestellt.
Bei dem Verfahren werden zunächst die PEL-Ströme nach ihrer Obertoncharakteristik
gruppiert. Das Gruppenkriterium liefert ein trainierbarer Vektorquantisierer, der
aus ihm vorgegebenen Beispielen lernt. Eine so erzeugte Gruppe kann dann durch die
Frequenztrajektorien in eine Notation umgewandelt werden. Dabei können die Tonhöhen
beispielsweise in das Zwölftonsystem quantisiert und mit Eigenschaften wie Vibrato,
Legato o.ä. versehen werden.
[0073] Zur Notation der perkussiven Instrumente müssen Koinzidenzen von REL-Ereignissen
mit tieffrequenten PEL-Ereignissen oder Residuen erkannt werden. Dazu werden vorzugsweise
für Mustererkennungsaufgaben übliche neuronale Netze verwendet, wie sie beispielsweise
auch in
Neuronale Netzwerke, Rüdiger Brause, 1995 B.G. Teubner Stuttgart, beschrieben werden. Die so identifizierten
Perkussionsschläge werden dann in die Notation eingefügt.
[0074] Anspruch 30 stellt erfindungsgemäß ein Verfahren zur Verfügung, mit dem in vorteilhafter
Weise eine Spurseparation von Audiosignalen durchgeführt werden kann. Die PEL-Stöme
werden dabei nach ihrer Obertoncharakteristik gruppiert und dann separat synthetisiert.
Dazu müssen allerdings noch gewisse Zusammengehörigkeiten von REL-Ereignissen, PEL-Strömen
und Residuen erkannt werden, da diese in eine dem Instrument entsprechende resynthetisierte
Spur zusammengefaßt werden sollen. Diese Zusammengehörigkeit kann nur begrenzt deterministisch
bestimmt werden; vorzugsweise verwendet man daher für diese Mustererkennung neuronale
Netze, wie sie oben genannt wurden.
[0075] Sobald die Spuren separiert wurden, können sie getrennt bearbeitet und neu zusammengemischt
werden. Neben vielen anderen Möglichkeiten können auch einzelne Instrumente analysiert
oder ersetzt und Stimmen ausgeblendet oder verstärkt werden.
[0076] Es ist von Vorteil, das Verfahren zur Analyse von Audiosignalen für die globale und
lokale Identifikation von Audiosignalen zu verwenden, wofür erfindungsgemäß ein Verfahren
mit den Schritten nach Anspruch 31 oder 32 zur Verfügung gestellt wird. Diese Identifikation
stützt sich auf Merkmale, die auch menschlicher Wahmehmung als Wiedererkennungsmerkmale
zur Verfügung stehen. Mit verschiedenen Kriterien lassen sich verschiedene Arten der
Wiedererkennung erhalten.
[0077] Um ein Musikstück eindeutig als ein in einer Datenbank gespeichertes Stück zu identifizieren,
sind die relative Position und die Art, d.h. die innere Struktur, der Ströme und Ereignisse
zu vergleichen. Unter der inneren Struktur der Melodielinie beispielsweise versteht
man Merkmale, wie Intervalle und langanhaltende Töne. Dieser Vergleich mit einer Datenbank
kann deterministisch erfolgen und sich vorteilhafterweise zunächst auf die Intervallabfolgen
beschränken. Falls damit noch keine eindeutige Identifizierung möglich ist, kann man
zusätzliche Kriterien hinzuziehen.
[0078] Um den Titel eines Musikstückes unabhängig von Interpreten oder Aufnahmeumständen
zu ermitteln, muß man dominante Strukturen in dem Material finden. Diese Strukturen
lassen sich durch häufige Wiederholungen oder besonders hohe Signalanteile deterministisch
identifizieren. Je mehr solcher Merkmale mit einem Vergleichs- oder Referenzstück
übereinstimmen, wobei Änderungen der Zeitbasis, Tonart oder Phrasierung zulässig sind,
desto gößer ist die Wahrscheinlichkeit, daß das untersuchte Musikstück mit dem Vergleichsstück
übereinstimmt. Der Vergleich von Melodielinien kann sich dabei vorteilhafterweise
auf die Abfolge von den länger ausgehaltenen Tönen konzentrieren und auch hier nur
auf die Abfolge der Intervalle. Es reicht häufig aus, die rhythmische Information
nur sehr grob zu bewerten und einzubeziehen, da diese Information stark vom Interpreten
abhängen kann.
[0079] Das erfindungsgemäße Verfahren zur Analyse von Audiodaten kann in vorteilhafter Weise
zur Identifikation einer Gesangsstimme in einem Audiosignal verwendet werden. Hierfür
wird erfindungsgemäß ein Verfahren mit den Schritten nach Anspruch 33 zur Verfügung
gestellt. Um den Sänger eines Musikstückes zu identifizieren, charakterisiert man
vorteilhafterweise seine Stimme über die Formantstruktur. Die typische Formantlage
kann, wie oben beschrieben, aus den PEL-Strömen interpoliert werden. Beim Vergleich
der Formantstrukturen mit einer Datenbank kann man somit die Auswahl an möglichen
Sängern stark einschränken, im Idealfall sogar den Sänger eindeutig identifizieren.
[0080] Bei allen oben genannten Identifikationsverfahren ist es von Vorteil, zu Beginn ein
Hashing-Schema anzuwenden, um durch einen Prüfsummenvergleich mit der Datenbank die
Auswahl einzuschränken und erst anschließend die Detailprüfung vorzunehmen.
[0081] Das erfindungsgemäße Verfahren zur Analyse von Audiosignalen kann auch zur Restauration
von alten oder technisch schlechten Audiodaten verwendet werden. Typische Probleme
solcher Aufnahmen sind Rauschen, Knacksen, Brummen, schlechte Mischungsverhältnisse,
fehlende Höhen oder Bässe. Zur Unterdrückung von Rauschen identifiziert man (in der
Regel manuell) die unerwünschten Anteile in der Residuenebene, die dann gelöscht werden,
ohne die anderen Daten zu verfälschen. Knacksen wird in analoger Weise aus der REL-Ebene
und Brummen aus der PEL-Ebene eliminiert. Die Mischungsverhältnisse lassen sich durch
Spurseparation bearbeiten, Höhen und Bässe lassen sich mit der PEL-, RELund Residueninformation
nachsynthetisieren.
[0082] Im folgenden wird das erfindungsgemäße Verfahren zur Analyse von Audiodaten anhand
des in den Figuren dargestellten Ausführungsbeispiels erläutert. Dabei zeigt
- Figur 1
- ein Wavelet-Filterbankspektrum einer Gesangslinie,
- Figur 2
- ein Kurzzeit-Fourierspektrum der Gesangslinie aus Figur 1,
- Figur 3
- eine Matrix der linearen Abbildung vom Fourierspektrum zum PEL,
- Figur 4
- eine Anregung der Tonhöhe im PEL, berechnet aus Figur 2,
- Figur 5
- eine Anregung im REL, berechnet aus Figur 2.
[0083] Zur Erzeugung der Kurzzeitspektren bieten sich mehrere Möglichkeiten an. In Figur
1 sieht man ein ein Kurzzeitspektrum einer constant-Q-Fllterbank, das einer Wavelettransformation
entspricht. Eine Alternative bieten Fouriertransformationen; in Figur 2 ist ein Kurzzeit-Fourierspektrum
zu sehen, das mit schneller Fouriertransformation erzeugt wurde.
[0084] Zur Anregung der Tonhöhenschicht wird in einer bevorzugten Ausführungsform der Kontrast
des Spektrums mit lateraler Hemmung erhöht. Dann findet eine Korrelierung mit einem
idealen Obertonspektrum statt. Das resultierende Spektrum wird wiederum lateral gehemmt.
Anschließend wird mit einer Entscheidungsmatrix die Tonhöhenschicht von schwachen
Echos der Obertöne befreit und zum Schluß wieder lateral gehemmt. Diese Abbildung
kann linear gewählt werden. Eine mögliche Abbildungsmatrix vom Fourierspektrum aus
Figur 2 zum PEL enthält Figur 3.
[0085] Nach der Anregung der Tonhöhenschicht, können verschiedene dominierende Tonhöhen
erkennbar sein, wie beispielsweise in Figur 4.
[0086] Um die Rhythmusschicht anzuregen, kann zunächst eine Frequenzrauschunterdrückung
und anschließend eine zeitliche Korrelierung durchgeführt werden. Führt man diese
Anregung für Figur 2 durch, kann eine Anregung im REL wie in Figur 5 erhalten werden.
1. Verfahren zur Analyse von Audiosignalen durch
a) Erzeugung einer Serie von Kurzzeitspektren,
b) nichtlineare Abbildung der Kurzzeitspektren in die Tonhöhenanregungsschicht (PEL),
c) nichtlineare Abbildung der Kurzzeitspektren in die Rhythmusanregungsschicht (REL),
d) Extraktion der kohärenten Frequenzströme aus dem Audiosignal,
e) Extraktion der kohärenten zeitlichen Ereignisse aus dem Audiosignal,
f) Modellierung des Restsignals des Audiosignals.
2. Verfahren nach Anspruch 1, in welchem die Kurzzeitspektren mittels Kurzzeit-Fouriertransformation,
mittels Wavelettransformation oder mittels einer Hybridmethode aus Wavelettransformation
und Fouriertransformation erzeugt werden.
3. Verfahren nach einem der vorigen Ansprüche, in welchem die Abbildung in die Tonhöhenanregungsschicht
aus der Korrelierung des Logarithmus des Spektralbetrags mit einem vorgegebenen idealen
Obertonspektrum, einer Unterdrückung spektraler Echos, die den Lagen möglicher Obertöne
entsprechen, und einer anschließenden Separation der Frequenzströme besteht.
4. Verfahren nach Anspruch 3, in welchem nach wenigstens einer der Abbildungen Logarithmus,
Korrelierung und Unterdrückung der Echos eine laterale Hemmung durchgeführt wird.
5. Verfahren nach Anspruch 4, in welchem die Korrelierung, die Unterdrückung der Echos
und die laterale Hemmung lineare Abbildungen sind.
6. Verfahren nach einem der Ansprüche 3- 5, in welchem die Separation der Frequenzströme
mit einem neuronalen Netz durchgeführt wird.
7. Verfahren nach einem der Ansprüche 3- 5, in welchem die Separation der Frequenzströme
durch Suche nach zeitlich zusammenhängenden lokalen Maxima und Berechnung der Tonhöhendaten
als Zeitreihe erreicht wird.
8. Verfahren nach einem der vorigen Ansprüche, in welchem die die Abbildung in die Rhythmusanregungsschicht
aus einer linearen Abbildung zur Frequenzrauschunterdrückung und zur zeitlichen Korrelierung
besteht, die auf den Logarithmus des Spektralbetrags angewendet wird.
9. Verfahren nach Anspruch 8, in welchem die zeitliche Korrelationsmatrix durch eine
differentielle Korrelation gegeben ist.
10. Verfahren nach einem der vorigen Ansprüche, in welchem die Extraktion eines Frequenzstroms
aus dem Audiosignal mit einem Filter mit variabler Mittenfrequenz durchgeführt wird.
11. Verfahren nach Anspruch 10, in welchem die Mittenfrequenz des Filters über Frequenztrajektorien
aus der Tonhöhenanregungsschicht gesteuert wird.
12. Verfahren nach Anspruch 10 oder 11, in welchem das extrahierte Signal mit einer komplexwertigen
Hüllkurve multipliziert wird, um mit einem Optimierungsverfahren die Phase anzupassen.
13. Verfahren nach Anspruche 12, in welchem die komplexwertige Hüllkurve verwendet wird,
um mit einem Optimierungsverfahren die Amplitude des Signals anzupassen.
14. Verfahren nach einem der Ansprüche 1 - 9, in welchem die Frequenzströme als Entwicklung
nach den Bandsignalen einer Filterbank berechnet werden, wobei die Koeffizienten durch
Projektionen einer Frequenzbewertung auf die Frequenzantworten der Filterbank gegeben
sind.
15. Verfahren nach einem der vorigen Ansprüche, in welchem die Extraktion der zeitlichen
Ereignisse aus einer Frequenzbewertung und einer Zeitraumbewertung besteht.
16. Verfahren nach Anspruch 15, in welchem die Frequenzbewertung mit einem FFT-Filter
oder einer Analysefilterbank durchgeführt wird.
17. Verfahren nach einem der vorigen Ansprüche, in welchem das Restsignal statistisch
modelliert wird.
18. Verfahren nach Anspruch 17, in welchem für die Modellierung mehrere Bänder mit frequenzlokalisiertem
Rauschen verwendet werden, die gemäß einer Frequenzanalyse mit einer zeitabhängigen
Gewichtung addiert werden.
19. Verfahren nach Anspruch 17, in welchem die Modellierung des Restsignals erfolgt, indem
aus den statistischen Momenten in vorgegebenen Zeitintervallen eine Verteilungsfunktion
berechnet wird.
20. Verfahren nach Anspruch 19, in welchem sich die Intervallfenster zu 50% überlappen
und dann bei der Resynthese mit einem Dreiecksfenster bewertet addiert werden.
21. Verfahren zur Kompression von Audiosignalen durch Separation des Audiosignals gemäß
einem der vorigen Verfahren und anschließender Komprimierung der PEL-Ströme, REL-Ereignisse
und des Restsignals.
22. Verfahren nach Anspruch 21, in welchem die Komprimierung die Schritte aufweist:
a) adaptive zweifach differentielle Kodierung der PEL-Ströme,
b) zeitlokalisierte Kodierung der REL-Ereignisse,
c) adaptive differentielle Kodierung des Restsignals,
d) statistische Komprimierung der Daten aus den Schritten a) , b) und c) durch Entropiemaximierung.
23. Verfahren nach Anspruch 22, in welchem die Ereignisse für die REL-Kodierung als Linearkombination
einer endlichen Menge von Basisvektoren gegeben sind.
24. Verfahren nach einem der Ansprüche 22 oder 23, in welchem die abschließende Kompression
mit LZW- oder Huffmann-Verfahren durchgeführt wird.
25. Verfahren zur Manipulation der Zeitbasis von Signalen, die mit dem Verfahren nach
Anspruch 18 separiert worden sind, durch
a) Ermittlung der Hüllkurven bzw. Trajektorien der PEL-Ströme und der Hüllkurven der
Rauschbänder,
b) Anpassung der Zeitmarkierungen der Hüllkurven- bzw. Trajektorienpunkte,
c) Anpassung der Zeitpunkte der Ereignisse,
d) Anpassung der Hüllkurvenstützpunkte der Rauschbänder.
26. Verfahren zur Manipulation der Zeitbasis von Signalen, die mit einem der Verfahren
nach den Ansprüchen 19 oder 20 separiert worden sind, durch
a) Ermittlung der Hüllkurven bzw. Trajektorien der PEL-Ströme,
b) Anpassung der Zeitmarkierungen der Hüllkurven- bzw. Trajektorienpunkte,
c) Anpassung der Zeitpunkte der Ereignisse,
d) Anpassung der Synthesefensterlängen bei der Momentkodierung.
27. Verfahren zur Manipulation der Tonart von Signalen, die mit einem Verfahren nach den
Ansprüchen 1- 20 separiert worden sind, durch Verschiebung der logarithmischen Frequenztrajektorien
entlang der Frequenzachse.
28. Verfahren zur Manipulation einer Formantstruktur von Signalen, die nach dem Verfahren
nach Anspruch 18 separiert worden sind, durch
a) Ermittlung der Obertonamplituden von PEL-Strömen,
b) Interpolation einer Frequenzhüllkurve aus den Obertonamplituden,
c) Verschiebung der Frequenzhüllkurve,
d) Anpassung der Bandfrequenzen in der Rauschbanddarstellung entsprechend der Formantverschiebung.
29. Verfahren zur Notation von Audiodaten in Notenschrift durch
a) Separation des Audiosignals gemäß einem der Verfahren 1 - 20,
b) Gruppierung der PEL-Ströme nach ihrer Obertoncharakteristik in wenigstens eine
Gruppe mittels eines trainierbaren Vektorquantisierers,
c) Identifizierung der perkussiven Instrumente durch Vergleich von REL-Ereignissen
mit tieffrequenten PEL-Ereignissen oder Restsignalanteilen mittels eines neuronalen
Netzes,
d) Umwandlung der Frequenztrajektorien jeder Gruppe und der Perkussionsschläge in
Notationen.
30. Verfahren zur Spurseparation von Audiodaten durch
a) Separation des Audiosignals gemäß einem der Verfahren 1 - 20,
b) Gruppierung der PEL-Ströme nach ihrer Obertoncharakteristik mittels eines trainierbaren
Vektorquantisierers,
c) Identifizierung von zu einer Gruppe gehörigen PEL-Strömen, REL-Ereignissen und
Restsignalanteile mittels eines neuronalen Netzes,
d) Resynthese der zusammengehörigen Ströme, Ereignisse und Restsignalanteile in eine
Spur für jede Gruppe.
31. Verfahren zur Identifikation eines Audiosignals durch Separation des Signals gemäß
einem der Ansprüche 1 - 20 und anschließendem Vergleich der relativen Positionen und
Art der Ströme und Ereignisse mit einer Datenbank.
32. Verfahren zur Identifikation eines Audiosignals durch Separation des Signals gemäß
einem der Ansprüche 1 - 20 und anschließendem Vergleich dominanter Strukturen mit
einer Datenbank.
33. Verfahren zur Identifikation einer Stimme in einem Audiosignal durch durch Separation
des Signals gemäß einem der Ansprüche 1- 20, Extrapolation der Formantlage aus den
PEL-Strömen und anschließendem Vergleich mit einer Datenbank.
34. Verfahren nach einem der Ansprüche 31 - 33, in welchem zur Einschränkung der Auswahl
nach der Separation des Signals ein Hashing-Schema angewendet und damit ein Prüfsummenvergleich
mit der Datenbank vorgenommen wird.