(19)
(11) EP 1 033 702 A2

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
06.09.2000  Patentblatt  2000/36

(21) Anmeldenummer: 00104304.1

(22) Anmeldetag:  02.03.2000
(51) Internationale Patentklassifikation (IPC)7G10L 21/02
(84) Benannte Vertragsstaaten:
AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE
Benannte Erstreckungsstaaten:
AL LT LV MK RO SI

(30) Priorität: 02.03.1999 DE 19909150

(71) Anmelder: Schröder, Hehrwart
88662 Überlingen (DE)

(72) Erfinder:
  • Schröder, Hehrwart
    88662 Überlingen (DE)

(74) Vertreter: Patentanwälte Eisele, Otten, Roth & Dobler 
Karlstrasse 8
88212 Ravensburg
88212 Ravensburg (DE)

   


(54) Verfahren zur Trennung von Sprache und Geräuschen


(57) Die Erfindung betrifft ein Verfahren zur Trennung von Sprache und Geräuschen, mit folgenden Verfahrensschritten:
  • Zerlegung des Sprachsignals in Einzelklänge.
  • Transformation des Sprachsignals von der Darstellung Intensität über die Zeit in eine Darstellung Amplitude über die Frequenz und Frequenz über die Zeit.
  • Im Frequenzraum wird ein Band um die Intensitäten gelegt.
  • Mittels zahlentheoretischer Funktionen werden Intervalle der Sprache berechnet und ein Raum der Äquivalenzklassen der Sprachtöne erzeugt.

Die eigentliche Trennung von Sprache und Geräuschen erfolgt anschließend durch eines oder mehreren der folgenden Verfahrensschritte :
  • Die Frequenzen innerhalb eines Lautes (Hüllkurve) werden durch geeignete Schleifenverfahren miteinander paarweise verglichen.
  • Trennen von Sprache und Nichtsprache mit Hilfe eines Amplitudenbandes im Frequenzraum.
  • Aus dem Verhältnis der Tonhöhendifferenz wird durch eine logarithmische Beziehung zwischen den Amplituden eine neue Beziehung gebildet und für die Trennung Geräusch/Sprache genutzt.
  • Trennen von Sprache und Nichtsprache mit Hilfe der Symmetriegrenze.



Beschreibung


[0001] Die Erfindung betrifft ein Verfahren zur Trennung von Sprache und Geräuschen.

[0002] Aufgabe der Erfindung ist es, ein Verfahren zu schaffen, mit der eine zuverlässige Trennung von Sprache und Geräuschen, möglichst in Echtzeit, erreicht wird.

[0003] Diese Aufgabe wird mit dem Verfahren nach Anspruch 1 gelöst.

[0004] Der diesen Unterlagen beigeheftete Bericht "Trennung Sprache von Nichtsprache auf gruppentheoretischer Basis", Stand vom Dienstag, den 29.02.2000, mit den zugehörigen Testdiagrammen ist Bestandteil der Beschreibung der Erfindung und dient der Ergänzung des Offenbarungsgehalts.

[0005] Das erfindungsgemäße Verfahren umfaßt die folgenden Schritte:

Vorbereitende Rechenschritte


1. Schritt:



[0006] Das von Störungen zu befreiende digitalisierte Sprachsignal wird in seine Einzelklänge mit Hilfe einer Hüllkurvenmethode zerlegt.

2. Schritt:



[0007] Mittels Integraltransformationen wird das Sprachsignal von der Darstellung Intensität über die Zeit in eine Darstellung Amplitude über die Frequenz und Frequenz über die Zeit transformiert.

3. Schritt:



[0008] Im Frequenzraum wird ein Band um die Intensitäten gelegt. Hierdurch wird ein Vergleich aller übrigen Intensitäten nur innerhalb dieses Bandes zugelassen. Die Größe des Bandes hängt unter anderem von der Intensität beziehungsweise von der Lautstärke ab.

4.Schritt:



[0009] Mittels zahlentheoretischer Funktionen werden Intervalle der Sprache berechnet und ein Raum der Äquivalenzklassen der Sprachtöne erzeugt.

Trennung Sprache von Nichtsprache


5. Schritt:



[0010] Die Frequenzen innerhalb eines Lautes (Hüllkurve) werden durch geeignete Schleifenverfahren miteinander paarweise verglichen. Es entstehen dann für jedes Frequenzpaar aus der Teilung Intervalle. Diese Intervalle werden mit den berechneten Intervallen der Äquivalenzklassen verglichen. Ales Ergebnis dieser Überprüfung ergibt sich, ob die betrachteten Frequenzen miteinander harmonische Beziehungen haben oder nicht. Diese harmonischen Beziehungen haben Sprachfrequenzen mit allen anderen Sprachfrequenzen innerhalb einer Hüllkurve oder eines Lautes. Nur dann, wenn im Raum der Äquivalenzklassen ein Bezugsintervall gefunden wird, wird die entsprechende Frequenz in die Datei Sprache überwiesen. Wenn es kein Bezugsintervall gibt, wird die Frequenz in die Datei Nichtsprache überwiesen.

6.Schritt


Trennen von Sprache und Nichtsprache mit Hilfe eines Amplitudenbandes im Frequenzraum.



[0011] Wenn das Band um die Amplituden sehr viel kleiner als 1 gemacht wird, dann wechselwirken die Intervalle der Äquivalenzklassen die ihrerseits kleiner als 1 sind mit den zu vergleichenden Frequenzen des zu untersuchenden Sprachsignals. Dieser Effekt trennt einen Teil der Nichtsprache von Sprache.

7. Schritt:



[0012] Aus dem Verhältnis der Tonhöhendifferenz wird durch eine logarithmische Beziehung zwischen den Amplituden eine neue Beziehung gebildet und für die Trennung Geräusch/Sprache genutzt. Für das Ergebnis dieser Beziehung wird die Prozedur wiederholt, in dem Raum der Äquivalenzklassen ein Bezugsintervall zu suchen.

8. Schritt:


Trennen von Sprache und Nichtsprache mit Hilfe der Symmetriegrenze



[0013] Wenn das Frequenzverhältnis größer als 8 wird, dann nähert man sich der Symmetriegrenze für Wohlklang oder Konsonanz. Wenn man Frequenzen entfernt, deren Intervalle größer als ein bestimmter Faktor werden, dann handelt es sich um Nichtsprache.

[0014] Die einzelnen Trennverfahren (Schritte 5 bis 8) können durch geeignete gruppentheoretische Verfahren miteinander verbunden und optimiert werden. Sie können auch einzeln eingesetzt werden.

[0015] Vorteilhafte Ausführungen des erfindungsgemäßen Verfahrens werden im folgenden beschrieben.

[0016] Die stimmhaften Sprachlaute unseres Sprechorgans sind die Harmonische Klänge. Die harmonischen Verwandschaftsbeziehungen zwischen den Teiltönen stellen die unveränderlichen (invarianten) Eigenschaften der Klänge dar. Bei dem Lernprozeß, welcher von frühestem Alter an die Sprachlauterkennung ermöglicht, erlernt der Mensch mit seinem Gehör die invarianten Klangeigenschaften. Denn dadurch wird es in die Lage versetzt, informationstragende von nichtinformationstragenden Klangmerkmalen zu unterscheiden.

Berechnen der einhüllenden Kurve eines Klanges (Hüllkurve)



[0017] Um die Sprachsignale in Echtzeit verarbeiten zu können, ist es erforderlich, daß das Signal Klang für Klang einzeln der Reihe nach abgearbeitet werden kann. Um ein willkürliches Abschneiden des Signales für die Verarbeitung zu verhindern, wird ein individuelles flexibles Verfahren gebraucht. Dazu wird die Hüllkurve berechnet, denn sie liefert Anfangs-, Endpunkt und die Klangdauer.

[0018] Aus dem digitalisierten Sprachsignal werden mit Hilfe der Differentialrechnung zunächst die Stützpunkte der Hüllkurven gewonnen, die alle einzelne Klänge einschließen, gleichgültig wie stark gestört das Signal ist. Alle Einschnürungen im Signal werden als Anfangs- und Endpunkte der Hüllkurve definiert. Damit kann dann das Signal Klang für Klang verarbeitet werden.

[0019] Das Differenzieren der Hüllkurve führt zu den Minima der Hüllkurve. Die Minima der Hüllkurve bilden Anfangs- und Endpunkte der Hüllkurven. Die Hüllkkurven der Klänge enthalten unterschiedlich viele Frequenzen und sind deshalb zeitlich verschieden lang.

Transformation des Sprachsignals mit Integraltransformationen



[0020] 

Fouriertransformation:
Darstellung des Sprachsignales im Frequenzraum: Amplitude als Ordinate und Frequenz als Abszisse

Hilberttransformation:
Darstellung des Sprachsignales im Frequenzraum: Frequenz als Ordinate und Zeit als Abszisse



[0021] Jedes Wellenpaket (jeder Klang) enthält n Summanden. Jeder n-te Summand ist die n-te Partialschwingung von dem Wellenpaket.

[0022] Das Ursprungssignal wird mit Integraltranformationen so transformiert, daß es als Amplitude über die Frequenz, und als Frequenz über die Zeit für den Datensatz jeder einzelnen Hüllkurve zur weiteren Verarbeitung zur Verfügung steht.

[0023] Im Fourierraum beispielsweise sind die Amplituden beziehungsweise die Intensitäten jeweils für eine Hüllkurve über die Frequenz aufgetragen. Hier wird mit einem Amplitudenband innerhalb des Frequenzraumes um die Intensitäten ein Vergleich aller übrigen Intensitäten nur innerhalb dieses Bandes zugelassen. Die Größe der Amplitudenbandes hängt von der Intensität beziehungsweise der Lautstärke ab.

[0024] Alle zu den Intensitäten gehörenden Frequenzen sind im Funktionenraum der Hilberttransformation als Frequenzen über die Zeit vorhanden.

Entfaltung des Signals mit Integraltransformationen



[0025] In dem digitalisierten Sprachsignal als Ausgangssignal ist die Information als Intensität über die Zeit in Form von Frequenzen in einem zweidimensionalen Feld kodiert.

[0026] Die Integraltransformationen werden als lineare Operatoren der Gruppentheorie definiert und zur Entfaltung des Signals eingesetzt. Beispielsweise werden Fourier- und Hilberttransformation eingesetzt. Sie transformieren das Signal in einen für die nachfolgende Verarbeitung erforderlichen Zustand in Funktionenräume, beispielsweise in den Frequenzraum.

Töne und Klänge



[0027] Ein Tonsystem ist ein geordnetes Paar von Elementen. Dabei ist das Frequenzintervall eine Gruppe und die Intervalle sind eine injektive Abbildung des Tonsystems in die Menge aller positiven reellen Zahlen.
Eine endliche Teilmenge aus den Frequenzen heißt Klang.
Ein geordnetes n-Tupel von Tönen wird geordneter n-Klang genannt

Ordnen des Sprachsignales durch Kongruenzgruppen



[0028] 

Zahlentheoretische Funktionen aus Primzahlen und Zweierpotenzen bilden Felder für Äquivalenzklassen

Die Äquivalenzklassen werden zu dem Sprachsignal in Form von Äqivalenzrelationen in Beziehung gebracht.

Algebraische Kongruenzgruppen ordnen das Sprachsignal in Sprache und Nichtsprache in verschiedene Dateien.

Rückgewinnung des Sprachsignales im Zeitbereich durch Integralrücktransformationen


Äquivalenzrelationen



[0029] Elementvertauschungen werden durch eine zwei- oder mehrstellige Relation auf der Menge aller Klänge eines Tonsystems präzisiert.
Dabei gilt für ein Element aus der Menge des Sprachsignals die Zuordnung zu Sprache oder Nichtsprache genau dann, wenn zu den Intervallen des zu prüfenden Signais ein Bezugston aus der Äquivalenzklasse der zahlentheoretischen Funktionen des Primzahlkörpers existiert.

Berechnung der Intervalle aus den Frequenzen des Sprachsignals



[0030] Alle Frequenzen des Frequenzraumes des transformierten Sprachsignales müssen überprüft werden, ob sie Symmetriebeziehungen mit anderen Frequenzen der gleichen Hüllkurve haben. In den Symmetriebeziehungen der Elemente liegen invariante Eigenschaften der Sprache verschlüsselt vor.

[0031] Von dem zu verarbeitendem Signal werden deshalb innerhalb der Hüllkurve alle Frequenzen paarweise der Reihe nach mit allen anderen Frequenzen dividiert, um Intervalle zu bilden. Dies geschieht solange, bis jede Frequenz in der fortlaufenden Reihenfolge nach und nach durch alle anderen Frequenzen in der gleichen Hüllkurve geteilt wurde, um vorübergehend zu einer Verhältniszahl (Intervall) dieses Frequenzpaares zu kommen.

[0032] Die erste Frequenz wird durch die zweite, der dritten und so fort geteilt, bis zum Ende der Hüllkurve. Dann wird die zweite durch die dritte, der vierten und so fort geteilt. In einer Hüllkurve können beispielsweise jeweils tausende Frequenzen sein. Dabei darf nie die Reihenfolge der Frequenzen vertauscht werden.

[0033] Die Trennung von Sprache und Nichtsprache wird mit einer Folge von mehreren Symmetrieoperationen durchgeführt.

1. Äquivalenzklassen mit Bezugsintervall als Entscheidungskriterium



[0034] Nach jeder Intervallbildung innerhalb des Frequenzraumes des zu überprüfenden Sprachsignals muß ein Bezugsintervall aus den Äquivalenzklassen der berechneten Intervalle gefunden werden.

[0035] Die Äquivalenzklassen wiederum werden durch verschiedene zahlentheoretische Funktionen berechnet. Die Trennwirkung wird deutlich besser, wenn man die Erfüllung eines Bezugsintervalles für jede zahlentheoretische Funktion fordert. Wenn dies n Funktionen sind, (wobei n = natürliche ganze Zahlen sind) dann spannen diese zahlentheoretischen Funktionen einen n-dimensionalen metrischen Raum auf.
Wenn das aus dem zu prüfenden Signal gewonnene Intervall in allen zahlentheoretischen Funktionen genau eine Bezugskoordinate findet, dann sind alle zahlentheoretischen Funktionen mindestens einmal erfüllt. Die Koordinaten führen zu genau einem Bezugsintervall aus dem Raum der Äquivalenzklassen.

[0036] Über diesen Bezugston können genau dann weitere Sprachparameter wie beispielsweise Anklingzeit und Abklingzeit eines Lautes abgefragt werden, wenn diesem n-dimensionalen Raum eine Metrik aufgeprägt wird. Dies kann mit Hilfe der Gruppentheorie auf der Basis von Matrizen-Operationen durchgeführt werden.

[0037] Dieses Bezugsintervall kann als Bezugston aufgefaßt werden. Dann können viele weitere Parameter für die Spracherkennung herangezogen werden, wie beispielsweise die Anklingzeit und die Abklingzeit eines Tones.

[0038] Gibt es ein Bezugsintervall, dann muß sich das Rechenverfahren diese Elemente so lange merken, bis alle Elemente miteinander verglichen wurden. Erst nach Abschluß dieses Sortierungsprozesses weiß das Verfahren, welche Elemente mit anderen Intervallbeziehungen haben.

[0039] Alle die Frequenzen, die über die Intervalle Beziehungen miteinander haben, stehen schließlich mit allen anderen Frequenzen innerhalb der gleichen Hüllkurve und damit des gleichen Lautes der Sprache in Beziehung. Das Verfahren merkt sich all diese Elemente. Am Ende des Rechenprozesses werden alle solche Elemente in den Speicher für Sprache abgelegt. Alle anderen Frequenzen, die sich nicht in dieses Beziehungssystem einbinden lassen, sind beziehungslose Elemente und kommen in den Speicher für Nichtsprache. Ein Teil der Nichtsprache wird hierdurch bereits von der Sprache getrennt.

[0040] Elemente, die miteinander durch symmetrische Beziehungen dieser Intervalle verbunden sind, sind Elemente der Sprache. Elemente die in keinem symmetrischen Zusammenhang mit allen anderen Elementen innerhalb der Hüllkurve stehen sind keine Sprache. Sie übertragen keine Information.

2. Verbessertes Trennen von Sprache und Nichtsprache durch eine Verknüpfung der Tonhöhendifferenz mit den Intensitäten



[0041] Es wird eine zweistellige Relation der Intervalle so definiert, daß ein Bezugston innerhalb von mehreren Koordinaten des Äquivalenzklassenraumes dem Element aus dem zu untersuchenden Signal genau entspricht.

[0042] Die Elemente der existierenden Faktormenge der Frequenzintervalle aus den Äquivalenzklassen werden nun als Harmonien definiert.

[0043] In der folgenden Formel wird die Tonhöhendifferenz mit dem logarithmischen Verhältnis der Amplituden in Beziehung gebracht.

es bedeuten:

V = Intervall aus den Äquivalenzklassen aller zahlentheoretischen Funktionen;

f1/f2 = Verhältnis der Frequenzen = Tonhöhenabstand, (A1/A2) = Verhältnis der Intensitäten



[0044] Mit Hilfe dieser Beziehung wird ein Bezugston definiert.

[0045] Dann wiederholt sich das vorhergehende Verfahren.

[0046] Diese Gruppenoperation verbessert die Qualität der Trennung Sprache von Nichtsprache.

3. Trennen von Sprache und Nichtsprache mit Hilfe einer Amplitudenbandbeziehung im Frequenzraum



[0047] Wenn das Band um die Amplituden sehr viel kleiner als 1 gemacht wird, dann wechselwirken die Intervalle der Äquivalenzklassen die ihrerseits kleiner als 1 sind mit den zu vergleichenden Frequenzen des zu untersuchenden Sprachsignals.
Beispielsweise sei das Maximum des ersten Wellenpaketes bei 500 Einheiten. Um alle zu vergleichenden Amplituden sei das Amplitudenband mit 50 Einheiten Bandbreite durch den ganzen Frequenzraum als Eingangsband für das Verarbeitungsprogramm eingestellt.

[0048] Es entsteht ein neuer Effekt, wenn diesem Verarbeitungsprogramm ein Vorprogramm vorgeschaltet wird, bei dem nur die Bandbreite des Amplitudenbandes viel kleiner als 1 eingestellt, beispielsweise auf 0,05 statt 50.

[0049] Dann trennt dieses Verfahren Sprache von Nichtsprache mit Hilfe der besprochenen Methode des Äquivalenzklassen genau umgekehrt. Man muß dann die Speicherzuweisung umkehren, da sich dieses Verfahren umgekehrt verhält.
Dieser Effekt trennt einen Teil der Nichtsprache von Sprache. Weil das Verfahren sehr schnell ist, bietet es sich an, damit zu beginnen. Da jedes Verfahren, das Nichtsprache entfernt, die Arbeit nachfolgender Verfahren beschleunigt, muß man mit dem schnellsten Verfahren beginnen.

4. Trennen von Sprache und Nichtsprache mit Hilfe der Symmetriegrenze



[0050] Wenn das Frequenzverhältnis zu groß wird, beispielsweise größer als 8, dann nähert man sich der Symmetriegrenze für Wohlklang oder Konsonanz. Wenn man Frequenzen entfernt, deren Intervalle größer als ein bestimmter Faktor werden, dann handelt es sich um Nichtsprache.

Qualität der Trennung



[0051] Je mehr richtig berechnete Intervalle in einer Gruppe sind, um so besser wird der Trennprozeß.

[0052] Wenn in einer Gruppe Intervalle doppelt oder mehrfach sind, dann verschlechtert sich der Trennprozeß.

[0053] Je mehr verschiedene zahlentheoretische Funktionen so eingesetzt werden, daß jede sich in einer eigenen Gruppe befindet, um so besser wird der Trennprozeß.

[0054] Wenn verschiedene zahlentheoretische Funktionen in einer Gruppe zusammengefaßt werden, dann verschlechtert sich der Trennprozeß.

[0055] Wenn die Intervalle beispielsweise durch nicht geeignete zahlentheoretische Funktionen berechnet werden, dann verschlechtert sich der Trennprozeß.

Existenz der Intervalle



[0056] Aus der Musiktheorie kennt man seit Jahrhunderten die Existenz von Intervallen. Schon Kepler suchte nach allgemeinen Harmoniegesetzen. Er suchte nach Weltharmoniegesetzen. Neben vielen ist aber besonders Leonhard Euler zu nennen, der den Zusammenhang zwischen der Zerlegung der natürlichen Zahlen in Produkte von Primzahlpotenzen, den Fermatschen Sätzen und der Zahlentheorie mit zahlentheoretischen Funktionen erkannte.

[0057] Der Mathematiker Leonhard Euler stellte eine komplizierte zahlentheoretische Funktion (Eulersche Gradusfunktion) zur Berechnung solcher Intervalle auf und berechnete sie für die Zahlen 1 bis 10. Das sind dann 92 Intervalle für die Musikklänge.

[0058] Leibnitz und Herder sagten, daß unsere Seele unbewußt zähle.

[0059] Für das erfindungsgemäße Verfahren zur Spracherkennung kann die Eulersche Gradusfunktion besonders vorteilhaft als zahlentheoretische Funktion angewandt werden.

[0060] Es gibt weiter zahlentheoretische Funktionen. Dahinter stehen komplizierte Strukturen und Sachverhalte der Zahlentheorie und der Algebra, wie beispielsweise die Gammafunktion.

[0061] Die Intervalle werden mit zahlentheoretischen Funktionen berechnet. Es entsteht aus n zahlentheoretischen Funktionen ein n-dimensionaler metrischer Raum, der aus den Feldern der Äquivalenzklassen der Symmetriebeziehungen besteht. Es werden n zahlentheoretische Funktionen, beispielsweise 10, zur Berechnung der Intervalle eingesetzt. Diese n zahlentheoretischen Funktionen erzeugen Intervalle die sich zu einem n-dimensionalen metrischen Raum der Äquivalenzklassen aufspannen lassen. Möglicherweise erzeugen diese Funktionen alle Intervalle für alle menschlichen Sprachen.

[0062] Die Beziehungen zwischen den Elementen wird wichtiger als die Elemente selbst.

Die Intervallgruppen der Sprache können z.B. durch folgende zahlentheoretische Funktionen erzeugt werden:


1. Funktion ist die Eulersche Gradusfunktion



[0063] Jede natürliche Zahl n wird aus Primzahlen P1, P2, ... Pn zusammengesetzt. Dann wird eine Zahl n zu:

a1, a2, am müssen ganze Zahlen sein.

Beispiel: 1440 = 25 · 32 · 51

Dabei ist P1 = 2, P2 = 3, P3 = 5

A1 = 5; a2 = 2; a3 = 1

Euler definierte den Gradus als

Beispiel mit Zahlen:

Für die Intervallmaße muß einem beliebigen Intervall a : b eine Zahl n so zugeordnet werden, daß n sinngemäß als Grad von a : b betrachtet werden kann. Entsprechend muß verfahren werden, wenn eine Verhältniskette a : b : c oder a1 : a2 : ... an vorliegt, also ein Mehrklang.

[0064] n muß somit selbst eine Funktion des Systems (a1, a2, ... an) sein. Dieser Wert einer Konsonanz ist der Quotient aus dem kleinsten gemeinschaftlichen Vielfachen und dem größten gemeinschaftlichen Teiler der einen Klang beschreibenden natürlichen Zahlen.

[0065] Die Gradusfunktion für gekürzte Brüche a/b ergibt sich aus


2. Funktion



[0066] 


3. Funktion



[0067] 


4. Funktion



[0068] 


5. Funktion



[0069] 


6. Funktion



[0070] 


7. Funktion



[0071] 


8. Funktion



[0072] 


9. Funktion



[0073] 


10. Funktion



[0074] 


































Ansprüche

1. Verfahren zur Trennung von Sprache und Geräuschen, mit folgenden Verfahrensschritten:

- Das von Störungen zu befreiende digitalisierte Sprachsignal wird in seine Einzelklänge mit Hilfe einer Hüllkurvenmethode zerlegt.

- Mittels Integraltransformationen wird das Sprachsignal von der Darstellung Intensität über die Zeit in eine Darstellung Amplitude über die Frequenz und Frequenz über die Zeit transformiert.

- Im Frequenzraum wird ein Band um die Intensitäten gelegt. Hierdurch wird ein Vergleich aller übrigen Intensitäten nur innerhalb dieses Bandes zugelassen. Die Größe des Bandes hängt unter anderem von der Intensität beziehungsweise von der Lautstärke ab.

- Mittels zahlentheoretischer Funktionen werden Intervalle der Sprache berechnet und ein Raum der Äquivalenzklassen der Sprachtöne erzeugt.
Die eigentliche Trennung von Sprache und Geräuschen erfolgt anschließend durch eines oder mehreren der folgenden Verfahrensschritte:

- Die Frequenzen innerhalb eines Lautes (Hüllkurve) werden durch geeignete Schleifenverfahren miteinander paarweise verglichen. Es entstehen dann für jedes Frequenzpaar aus der Teilung Intervalle. Diese Intervalle werden mit den berechneten Intervallen der Äquivalenzklassen verglichen. Ales Ergebnis dieser Überprüfung ergibt sich, ob die betrachteten Frequenzen miteinander harmonische Beziehungen haben oder nicht. Diese harmonischen Beziehungen haben Sprachfrequenzen mit allen anderen Sprachfrequenzen innerhalb einer Hüllkurve oder eines Lautes. Nur dann, wenn im Raum der Äquivalenzklassen ein Bezugsintervall gefunden wird, wird die entsprechende Frequenz in die Datei Sprache überwiesen. Wenn es kein Bezugsintervall gibt, wird die Frequenz in die Datei Nichtsprache überwiesen.

- Trennen von Sprache und Nichtsprache mit Hilfe eines Amplitudenbandes im Frequenzraum:
Wenn das Band um die Amplituden sehr viel kleiner als 1 gemacht wird, dann wechselwirken die Intervalle der Äquivalenzklassen die ihrerseits kleiner als 1 sind mit den zu vergleichenden Frequenzen des zu untersuchenden Sprachsignals. Dieser Effekt trennt einen Teil der Nichtsprache von Sprache.

- Aus dem Verhältnis der Tonhöhendifferenz wird durch eine logarithmische Beziehung zwischen den Amplituden eine neue Beziehung gebildet und für die Trennung Geräusch/Sprache genutzt. Für das Ergebnis dieser Beziehung wird die Prozedur wiederholt, in dem Raum der Äquivalenzklassen ein Bezugsintervall zu suchen.

- Trennen von Sprache und Nichtsprache mit Hilfe der Symmetriegrenze:
Wenn das Frequenzverhältnis größer als 8 wird, dann nähert man sich der Symmetriegrenze für Wohlklang oder Konsonanz. Es werden diejenigen Frequenzen entfernt, deren Intervalle größer als ein bestimmter Faktor sind.


 




Zeichnung