[0001] Die Erfindung betrifft ein Verfahren zur Trennung von Sprache und Geräuschen.
[0002] Aufgabe der Erfindung ist es, ein Verfahren zu schaffen, mit der eine zuverlässige
Trennung von Sprache und Geräuschen, möglichst in Echtzeit, erreicht wird.
[0003] Diese Aufgabe wird mit dem Verfahren nach Anspruch 1 gelöst.
[0004] Der diesen Unterlagen beigeheftete Bericht "Trennung Sprache von Nichtsprache auf
gruppentheoretischer Basis", Stand vom Dienstag, den 29.02.2000, mit den zugehörigen
Testdiagrammen ist Bestandteil der Beschreibung der Erfindung und dient der Ergänzung
des Offenbarungsgehalts.
[0005] Das erfindungsgemäße Verfahren umfaßt die folgenden Schritte:
Vorbereitende Rechenschritte
1. Schritt:
[0006] Das von Störungen zu befreiende digitalisierte Sprachsignal wird in seine Einzelklänge
mit Hilfe einer Hüllkurvenmethode zerlegt.
2. Schritt:
[0007] Mittels Integraltransformationen wird das Sprachsignal von der Darstellung Intensität
über die Zeit in eine Darstellung Amplitude über die Frequenz und Frequenz über die
Zeit transformiert.
3. Schritt:
[0008] Im Frequenzraum wird ein Band um die Intensitäten gelegt. Hierdurch wird ein Vergleich
aller übrigen Intensitäten nur innerhalb dieses Bandes zugelassen. Die Größe des Bandes
hängt unter anderem von der Intensität beziehungsweise von der Lautstärke ab.
4.Schritt:
[0009] Mittels zahlentheoretischer Funktionen werden Intervalle der Sprache berechnet und
ein Raum der Äquivalenzklassen der Sprachtöne erzeugt.
Trennung Sprache von Nichtsprache
5. Schritt:
[0010] Die Frequenzen innerhalb eines Lautes (Hüllkurve) werden durch geeignete Schleifenverfahren
miteinander paarweise verglichen. Es entstehen dann für jedes Frequenzpaar aus der
Teilung Intervalle. Diese Intervalle werden mit den berechneten Intervallen der Äquivalenzklassen
verglichen. Ales Ergebnis dieser Überprüfung ergibt sich, ob die betrachteten Frequenzen
miteinander harmonische Beziehungen haben oder nicht. Diese harmonischen Beziehungen
haben Sprachfrequenzen mit allen anderen Sprachfrequenzen innerhalb einer Hüllkurve
oder eines Lautes. Nur dann, wenn im Raum der Äquivalenzklassen ein Bezugsintervall
gefunden wird, wird die entsprechende Frequenz in die Datei Sprache überwiesen. Wenn
es kein Bezugsintervall gibt, wird die Frequenz in die Datei Nichtsprache überwiesen.
6.Schritt
Trennen von Sprache und Nichtsprache mit Hilfe eines Amplitudenbandes im Frequenzraum.
[0011] Wenn das Band um die Amplituden sehr viel kleiner als 1 gemacht wird, dann wechselwirken
die Intervalle der Äquivalenzklassen die ihrerseits kleiner als 1 sind mit den zu
vergleichenden Frequenzen des zu untersuchenden Sprachsignals. Dieser Effekt trennt
einen Teil der Nichtsprache von Sprache.
7. Schritt:
[0012] Aus dem Verhältnis der Tonhöhendifferenz wird durch eine logarithmische Beziehung
zwischen den Amplituden eine neue Beziehung gebildet und für die Trennung Geräusch/Sprache
genutzt. Für das Ergebnis dieser Beziehung wird die Prozedur wiederholt, in dem Raum
der Äquivalenzklassen ein Bezugsintervall zu suchen.
8. Schritt:
Trennen von Sprache und Nichtsprache mit Hilfe der Symmetriegrenze
[0013] Wenn das Frequenzverhältnis größer als 8 wird, dann nähert man sich der Symmetriegrenze
für Wohlklang oder Konsonanz. Wenn man Frequenzen entfernt, deren Intervalle größer
als ein bestimmter Faktor werden, dann handelt es sich um Nichtsprache.
[0014] Die einzelnen Trennverfahren (Schritte 5 bis 8) können durch geeignete gruppentheoretische
Verfahren miteinander verbunden und optimiert werden. Sie können auch einzeln eingesetzt
werden.
[0015] Vorteilhafte Ausführungen des erfindungsgemäßen Verfahrens werden im folgenden beschrieben.
[0016] Die stimmhaften Sprachlaute unseres Sprechorgans sind die Harmonische Klänge. Die
harmonischen Verwandschaftsbeziehungen zwischen den Teiltönen stellen die unveränderlichen
(invarianten) Eigenschaften der Klänge dar. Bei dem Lernprozeß, welcher von frühestem
Alter an die Sprachlauterkennung ermöglicht, erlernt der Mensch mit seinem Gehör die
invarianten Klangeigenschaften. Denn dadurch wird es in die Lage versetzt, informationstragende
von nichtinformationstragenden Klangmerkmalen zu unterscheiden.
Berechnen der einhüllenden Kurve eines Klanges (Hüllkurve)
[0017] Um die Sprachsignale in Echtzeit verarbeiten zu können, ist es erforderlich, daß
das Signal Klang für Klang einzeln der Reihe nach abgearbeitet werden kann. Um ein
willkürliches Abschneiden des Signales für die Verarbeitung zu verhindern, wird ein
individuelles flexibles Verfahren gebraucht. Dazu wird die Hüllkurve berechnet, denn
sie liefert Anfangs-, Endpunkt und die Klangdauer.
[0018] Aus dem digitalisierten Sprachsignal werden mit Hilfe der Differentialrechnung zunächst
die Stützpunkte der Hüllkurven gewonnen, die alle einzelne Klänge einschließen, gleichgültig
wie stark gestört das Signal ist. Alle Einschnürungen im Signal werden als Anfangs-
und Endpunkte der Hüllkurve definiert. Damit kann dann das Signal Klang für Klang
verarbeitet werden.
[0019] Das Differenzieren der Hüllkurve führt zu den Minima der Hüllkurve. Die Minima der
Hüllkurve bilden Anfangs- und Endpunkte der Hüllkurven. Die Hüllkkurven der Klänge
enthalten unterschiedlich viele Frequenzen und sind deshalb zeitlich verschieden lang.
Transformation des Sprachsignals mit Integraltransformationen
[0020]
Fouriertransformation:
Darstellung des Sprachsignales im Frequenzraum: Amplitude als Ordinate und Frequenz
als Abszisse
Hilberttransformation:
Darstellung des Sprachsignales im Frequenzraum: Frequenz als Ordinate und Zeit als
Abszisse
[0021] Jedes Wellenpaket (jeder Klang) enthält n Summanden. Jeder n-te Summand ist die n-te
Partialschwingung von dem Wellenpaket.
[0022] Das Ursprungssignal wird mit Integraltranformationen so transformiert, daß es als
Amplitude über die Frequenz, und als Frequenz über die Zeit für den Datensatz jeder
einzelnen Hüllkurve zur weiteren Verarbeitung zur Verfügung steht.
[0023] Im Fourierraum beispielsweise sind die Amplituden beziehungsweise die Intensitäten
jeweils für eine Hüllkurve über die Frequenz aufgetragen. Hier wird mit einem Amplitudenband
innerhalb des Frequenzraumes um die Intensitäten ein Vergleich aller übrigen Intensitäten
nur innerhalb dieses Bandes zugelassen. Die Größe der Amplitudenbandes hängt von der
Intensität beziehungsweise der Lautstärke ab.
[0024] Alle zu den Intensitäten gehörenden Frequenzen sind im Funktionenraum der Hilberttransformation
als Frequenzen über die Zeit vorhanden.
Entfaltung des Signals mit Integraltransformationen
[0025] In dem digitalisierten Sprachsignal als Ausgangssignal ist die Information als Intensität
über die Zeit in Form von Frequenzen in einem zweidimensionalen Feld kodiert.
[0026] Die Integraltransformationen werden als lineare Operatoren der Gruppentheorie definiert
und zur Entfaltung des Signals eingesetzt. Beispielsweise werden Fourier- und Hilberttransformation
eingesetzt. Sie transformieren das Signal in einen für die nachfolgende Verarbeitung
erforderlichen Zustand in Funktionenräume, beispielsweise in den Frequenzraum.
Töne und Klänge
[0027] Ein Tonsystem ist ein geordnetes Paar von Elementen. Dabei ist das Frequenzintervall
eine Gruppe und die Intervalle sind eine injektive Abbildung des Tonsystems in die
Menge aller positiven reellen Zahlen.
Eine endliche Teilmenge aus den Frequenzen heißt Klang.
Ein geordnetes n-Tupel von Tönen wird geordneter n-Klang genannt
Ordnen des Sprachsignales durch Kongruenzgruppen
[0028]
Zahlentheoretische Funktionen aus Primzahlen und Zweierpotenzen bilden Felder für
Äquivalenzklassen
Die Äquivalenzklassen werden zu dem Sprachsignal in Form von Äqivalenzrelationen in
Beziehung gebracht.
Algebraische Kongruenzgruppen ordnen das Sprachsignal in Sprache und Nichtsprache
in verschiedene Dateien.
Rückgewinnung des Sprachsignales im Zeitbereich durch Integralrücktransformationen
Äquivalenzrelationen
[0029] Elementvertauschungen werden durch eine zwei- oder mehrstellige Relation auf der
Menge aller Klänge eines Tonsystems präzisiert.
Dabei gilt für ein Element aus der Menge des Sprachsignals die Zuordnung zu Sprache
oder Nichtsprache genau dann, wenn zu den Intervallen des zu prüfenden Signais ein
Bezugston aus der Äquivalenzklasse der zahlentheoretischen Funktionen des Primzahlkörpers
existiert.
Berechnung der Intervalle aus den Frequenzen des Sprachsignals
[0030] Alle Frequenzen des Frequenzraumes des transformierten Sprachsignales müssen überprüft
werden, ob sie Symmetriebeziehungen mit anderen Frequenzen der gleichen Hüllkurve
haben. In den Symmetriebeziehungen der Elemente liegen invariante Eigenschaften der
Sprache verschlüsselt vor.
[0031] Von dem zu verarbeitendem Signal werden deshalb innerhalb der Hüllkurve alle Frequenzen
paarweise der Reihe nach mit allen anderen Frequenzen dividiert, um Intervalle zu
bilden. Dies geschieht solange, bis jede Frequenz in der fortlaufenden Reihenfolge
nach und nach durch alle anderen Frequenzen in der gleichen Hüllkurve geteilt wurde,
um vorübergehend zu einer Verhältniszahl (Intervall) dieses Frequenzpaares zu kommen.
[0032] Die erste Frequenz wird durch die zweite, der dritten und so fort geteilt, bis zum
Ende der Hüllkurve. Dann wird die zweite durch die dritte, der vierten und so fort
geteilt. In einer Hüllkurve können beispielsweise jeweils tausende Frequenzen sein.
Dabei darf nie die Reihenfolge der Frequenzen vertauscht werden.
[0033] Die Trennung von Sprache und Nichtsprache wird mit einer Folge von mehreren Symmetrieoperationen
durchgeführt.
1. Äquivalenzklassen mit Bezugsintervall als Entscheidungskriterium
[0034] Nach jeder Intervallbildung innerhalb des Frequenzraumes des zu überprüfenden Sprachsignals
muß ein Bezugsintervall aus den Äquivalenzklassen der berechneten Intervalle gefunden
werden.
[0035] Die Äquivalenzklassen wiederum werden durch verschiedene zahlentheoretische Funktionen
berechnet. Die Trennwirkung wird deutlich besser, wenn man die Erfüllung eines Bezugsintervalles
für jede zahlentheoretische Funktion fordert. Wenn dies n Funktionen sind, (wobei
n = natürliche ganze Zahlen sind) dann spannen diese zahlentheoretischen Funktionen
einen n-dimensionalen metrischen Raum auf.
Wenn das aus dem zu prüfenden Signal gewonnene Intervall in allen zahlentheoretischen
Funktionen genau eine Bezugskoordinate findet, dann sind alle zahlentheoretischen
Funktionen mindestens einmal erfüllt. Die Koordinaten führen zu genau einem Bezugsintervall
aus dem Raum der Äquivalenzklassen.
[0036] Über diesen Bezugston können genau dann weitere Sprachparameter wie beispielsweise
Anklingzeit und Abklingzeit eines Lautes abgefragt werden, wenn diesem n-dimensionalen
Raum eine Metrik aufgeprägt wird. Dies kann mit Hilfe der Gruppentheorie auf der Basis
von Matrizen-Operationen durchgeführt werden.
[0037] Dieses Bezugsintervall kann als Bezugston aufgefaßt werden. Dann können viele weitere
Parameter für die Spracherkennung herangezogen werden, wie beispielsweise die Anklingzeit
und die Abklingzeit eines Tones.
[0038] Gibt es ein Bezugsintervall, dann muß sich das Rechenverfahren diese Elemente so
lange merken, bis alle Elemente miteinander verglichen wurden. Erst nach Abschluß
dieses Sortierungsprozesses weiß das Verfahren, welche Elemente mit anderen Intervallbeziehungen
haben.
[0039] Alle die Frequenzen, die über die Intervalle Beziehungen miteinander haben, stehen
schließlich mit allen anderen Frequenzen innerhalb der gleichen Hüllkurve und damit
des gleichen Lautes der Sprache in Beziehung. Das Verfahren merkt sich all diese Elemente.
Am Ende des Rechenprozesses werden alle solche Elemente in den Speicher für Sprache
abgelegt. Alle anderen Frequenzen, die sich nicht in dieses Beziehungssystem einbinden
lassen, sind beziehungslose Elemente und kommen in den Speicher für Nichtsprache.
Ein Teil der Nichtsprache wird hierdurch bereits von der Sprache getrennt.
[0040] Elemente, die miteinander durch symmetrische Beziehungen dieser Intervalle verbunden
sind, sind Elemente der Sprache. Elemente die in keinem symmetrischen Zusammenhang
mit allen anderen Elementen innerhalb der Hüllkurve stehen sind keine Sprache. Sie
übertragen keine Information.
2. Verbessertes Trennen von Sprache und Nichtsprache durch eine Verknüpfung der Tonhöhendifferenz
mit den Intensitäten
[0041] Es wird eine zweistellige Relation der Intervalle so definiert, daß ein Bezugston
innerhalb von mehreren Koordinaten des Äquivalenzklassenraumes dem Element aus dem
zu untersuchenden Signal genau entspricht.
[0042] Die Elemente der existierenden Faktormenge der Frequenzintervalle aus den Äquivalenzklassen
werden nun als Harmonien definiert.
[0043] In der folgenden Formel wird die Tonhöhendifferenz mit dem logarithmischen Verhältnis
der Amplituden in Beziehung gebracht.

es bedeuten:
V = Intervall aus den Äquivalenzklassen aller zahlentheoretischen Funktionen;
f1/f2 = Verhältnis der Frequenzen = Tonhöhenabstand, (A1/A2) = Verhältnis der Intensitäten
[0044] Mit Hilfe dieser Beziehung wird ein Bezugston definiert.
[0045] Dann wiederholt sich das vorhergehende Verfahren.
[0046] Diese Gruppenoperation verbessert die Qualität der Trennung Sprache von Nichtsprache.
3. Trennen von Sprache und Nichtsprache mit Hilfe einer Amplitudenbandbeziehung im
Frequenzraum
[0047] Wenn das Band um die Amplituden sehr viel kleiner als 1 gemacht wird, dann wechselwirken
die Intervalle der Äquivalenzklassen die ihrerseits kleiner als 1 sind mit den zu
vergleichenden Frequenzen des zu untersuchenden Sprachsignals.
Beispielsweise sei das Maximum des ersten Wellenpaketes bei 500 Einheiten. Um alle
zu vergleichenden Amplituden sei das Amplitudenband mit 50 Einheiten Bandbreite durch
den ganzen Frequenzraum als Eingangsband für das Verarbeitungsprogramm eingestellt.
[0048] Es entsteht ein neuer Effekt, wenn diesem Verarbeitungsprogramm ein Vorprogramm vorgeschaltet
wird, bei dem nur die Bandbreite des Amplitudenbandes viel kleiner als 1 eingestellt,
beispielsweise auf 0,05 statt 50.
[0049] Dann trennt dieses Verfahren Sprache von Nichtsprache mit Hilfe der besprochenen
Methode des Äquivalenzklassen genau umgekehrt. Man muß dann die Speicherzuweisung
umkehren, da sich dieses Verfahren umgekehrt verhält.
Dieser Effekt trennt einen Teil der Nichtsprache von Sprache. Weil das Verfahren sehr
schnell ist, bietet es sich an, damit zu beginnen. Da jedes Verfahren, das Nichtsprache
entfernt, die Arbeit nachfolgender Verfahren beschleunigt, muß man mit dem schnellsten
Verfahren beginnen.
4. Trennen von Sprache und Nichtsprache mit Hilfe der Symmetriegrenze
[0050] Wenn das Frequenzverhältnis zu groß wird, beispielsweise größer als 8, dann nähert
man sich der Symmetriegrenze für Wohlklang oder Konsonanz. Wenn man Frequenzen entfernt,
deren Intervalle größer als ein bestimmter Faktor werden, dann handelt es sich um
Nichtsprache.
Qualität der Trennung
[0051] Je mehr richtig berechnete Intervalle in einer Gruppe sind, um so besser wird der
Trennprozeß.
[0052] Wenn in einer Gruppe Intervalle doppelt oder mehrfach sind, dann verschlechtert sich
der Trennprozeß.
[0053] Je mehr verschiedene zahlentheoretische Funktionen so eingesetzt werden, daß jede
sich in einer eigenen Gruppe befindet, um so besser wird der Trennprozeß.
[0054] Wenn verschiedene zahlentheoretische Funktionen in einer Gruppe zusammengefaßt werden,
dann verschlechtert sich der Trennprozeß.
[0055] Wenn die Intervalle beispielsweise durch nicht geeignete zahlentheoretische Funktionen
berechnet werden, dann verschlechtert sich der Trennprozeß.
Existenz der Intervalle
[0056] Aus der Musiktheorie kennt man seit Jahrhunderten die Existenz von Intervallen. Schon
Kepler suchte nach allgemeinen Harmoniegesetzen. Er suchte nach Weltharmoniegesetzen.
Neben vielen ist aber besonders Leonhard Euler zu nennen, der den Zusammenhang zwischen
der Zerlegung der natürlichen Zahlen in Produkte von Primzahlpotenzen, den Fermatschen
Sätzen und der Zahlentheorie mit zahlentheoretischen Funktionen erkannte.
[0057] Der Mathematiker Leonhard Euler stellte eine komplizierte zahlentheoretische Funktion
(Eulersche Gradusfunktion) zur Berechnung solcher Intervalle auf und berechnete sie
für die Zahlen 1 bis 10. Das sind dann 92 Intervalle für die Musikklänge.
[0058] Leibnitz und Herder sagten, daß unsere Seele unbewußt zähle.
[0059] Für das erfindungsgemäße Verfahren zur Spracherkennung kann die Eulersche Gradusfunktion
besonders vorteilhaft als zahlentheoretische Funktion angewandt werden.
[0060] Es gibt weiter zahlentheoretische Funktionen. Dahinter stehen komplizierte Strukturen
und Sachverhalte der Zahlentheorie und der Algebra, wie beispielsweise die Gammafunktion.
[0061] Die Intervalle werden mit zahlentheoretischen Funktionen berechnet. Es entsteht aus
n zahlentheoretischen Funktionen ein n-dimensionaler metrischer Raum, der aus den
Feldern der Äquivalenzklassen der Symmetriebeziehungen besteht. Es werden n zahlentheoretische
Funktionen, beispielsweise 10, zur Berechnung der Intervalle eingesetzt. Diese n zahlentheoretischen
Funktionen erzeugen Intervalle die sich zu einem n-dimensionalen metrischen Raum der
Äquivalenzklassen aufspannen lassen. Möglicherweise erzeugen diese Funktionen alle
Intervalle für alle menschlichen Sprachen.
[0062] Die Beziehungen zwischen den Elementen wird wichtiger als die Elemente selbst.
Die Intervallgruppen der Sprache können z.B. durch folgende zahlentheoretische Funktionen
erzeugt werden:
1. Funktion ist die Eulersche Gradusfunktion
[0063] Jede natürliche Zahl n wird aus Primzahlen P
1, P
2, ... P
n zusammengesetzt. Dann wird eine Zahl n zu:
a1, a2, am müssen ganze Zahlen sein.
Beispiel: 1440 = 25 · 32 · 51
Dabei ist P1 = 2, P2 = 3, P3 = 5
A1 = 5; a2 = 2; a3 = 1
Euler definierte den Gradus als

Beispiel mit Zahlen:

Für die Intervallmaße muß einem beliebigen Intervall a : b eine Zahl n so zugeordnet
werden, daß n sinngemäß als Grad von a : b betrachtet werden kann. Entsprechend muß
verfahren werden, wenn eine Verhältniskette a : b : c oder a
1 : a
2 : ... a
n vorliegt, also ein Mehrklang.
[0064] n muß somit selbst eine Funktion des Systems (a
1, a
2, ... a
n) sein. Dieser Wert einer Konsonanz ist der Quotient aus dem kleinsten gemeinschaftlichen
Vielfachen und dem größten gemeinschaftlichen Teiler der einen Klang beschreibenden
natürlichen Zahlen.
[0065] Die Gradusfunktion für gekürzte Brüche a/b ergibt sich aus

2. Funktion
[0066] 
3. Funktion
[0067] 
4. Funktion
[0068] 
5. Funktion
[0069] 
6. Funktion
[0070] 
7. Funktion
[0071] 
8. Funktion
[0072] 
9. Funktion
[0073] 
10. Funktion