[0001] Die vorliegende Erfindung betrifft ein Verfahren zum automatischen Einstellen eines
Geräts. Darüber hinaus betrifft die vorliegende Erfindung einen Klassifikator für
ein automatisch einstellbares Gerät. Bei dem Gerät handelt es sich beispielsweise
um einen zu regelnden Transformator, eine zu regelnde Industrieanlage oder eine Hörvorrichtung.
Unter einer Hörvorrichtung wird hier jedes im oder am Ohr tragbare, einen Schallreiz
erzeugende Gerät verstanden, wie ein Hörgerät, ein Headset, Kopfhörer und dergleichen.
[0002] Hörgeräte sind tragbare Hörvorrichtungen, die zur Versorgung von Schwerhörenden dienen.
Um den zahlreichen individuellen Bedürfnissen entgegenzukommen, werden unterschiedliche
Bauformen von Hörgeräten wie Hinter-dem-Ohr-Hörgeräte (HdO), Hörgerät mit externem
Hörer (RIC: receiver in the canal) und In-dem-Ohr-Hörgeräte (IdO), z.B. auch Concha-Hörgeräte
oder Kanal-Hörgeräte (ITE, CIC), bereitgestellt. Die beispielhaft aufgeführten Hörgeräte
werden am Außenohr oder im Gehörgang getragen. Darüber hinaus stehen auf dem Markt
aber auch Knochenleitungshörhilfen, implantierbare oder vibrotaktile Hörhilfen zur
Verfügung. Dabei erfolgt die Stimulation des geschädigten Gehörs entweder mechanisch
oder elektrisch.
[0003] Hörgeräte besitzen prinzipiell als wesentliche Komponenten einen Eingangswandler,
einen Verstärker und einen Ausgangswandler. Der Eingangswandler ist in der Regel ein
Schallempfänger, z. B. ein Mikrofon, und/oder ein elektromagnetischer Empfänger, z.
B. eine Induktionsspule. Der Ausgangswandler ist meist als elektroakustischer Wandler,
z. B. Miniaturlautsprecher, oder als elektromechanischer Wandler, z. B. Knochenleitungshörer,
realisiert. Der Verstärker ist üblicherweise in eine Signalverarbeitungseinheit integriert.
Dieser prinzipielle Aufbau ist in FIG 1 am Beispiel eines Hinter-dem-Ohr-Hörgeräts
dargestellt. In ein Hörgerätegehäuse 1 zum Tragen hinter dem Ohr sind ein oder mehrere
Mikrofone 2 zur Aufnahme des Schalls aus der Umgebung eingebaut. Eine Signalverarbeitungseinheit
3, die ebenfalls in das Hörgerätegehäuse 1 integriert ist, verarbeitet die Mikrofonsignale
und verstärkt sie. Das Ausgangssignal der Signalverarbeitungseinheit 3 wird an einen
Lautsprecher bzw. Hörer 4 übertragen, der ein akustisches Signal ausgibt. Der Schall
wird gegebenenfalls über einen Schallschlauch, der mit einer Otoplastik im Gehörgang
fixiert ist, zum Trommelfell des Geräteträgers übertragen. Die Energieversorgung des
Hörgeräts und insbesondere die der Signalverarbeitungseinheit 3 erfolgt durch eine
ebenfalls ins Hörgerätegehäuse 1 integrierte Batterie 5.
[0004] Hörgeräte sind in der Lage, bestimmte Geräteeinstellungen selbstständig entsprechend
der jeweiligen Hörsituation vorzunehmen. Eine solche Geräteeinstellung kann z. B.
das Aktivieren einer Rauschunterdrückung oder eines Richtmikrofons sein. Die momentane
Hörsituation wird hierbei durch einen Eingangsvektor (input feature vector) beschrieben.
Dieser Eingangsvektor wird auf Parameter abgebildet, die die entsprechende Geräteeinstellung
beschreiben (nachfolgend auch Einstellgrößen genannt). Die Abbildungsvorschrift, die
Eingangsvektoren auf Parameter abbildet, wird zunächst vom Hersteller festgelegt,
wobei diese meist mittels maschineller Lernverfahren auf einer Datenbank mit bekannten
Hörsituationen trainiert wird. Im späteren Betrieb können Anpassungen aufgrund von
Benutzereingaben erfolgen. Benutzereingaben können das Ändern einer bestimmten Einstellung
(z. B. "lauter"), das Zuweisen zu einer bestimmten Klasse (z. B. "dies ist Musik")
sein oder auch indirekt erfolgen, indem lediglich die Modifikation der jeweiligen
Einstellung signalisiert wird. Hierbei treten folgende Probleme auf:
[0005] P1: Die Hörsituationen beim jeweiligen Benutzer können unterschiedlich zu denen sein,
die zum Training beim Hersteller verwendet werden. Konkret bedeutet dies, dass sich
die Eingangsvektoren im Merkmalsraum anders verteilen als vom Hersteller angenommen.
Ein Grund kann das Auftreten einer gänzlich neuen Hörsituation sein. Ein anderer Grund
kann sein, dass sich der Benutzer häufig in bestimmten Situationen aufhält (z. B.
Mischsituation "Sprache mit Hintergrundmusik und Störgeräuschen"), die in der Datenbank
wenig repräsentiert sind, sodass die entsprechenden Übergänge im Merkmalsraum nur
relativ grob modelliert sind. Das Problem ließe sich zwar durch bessere Datenbanken
verringern, diese existieren jedoch nur eingeschränkt und prinzipbedingt können niemals
alle möglichen Hörsituationen hinterlegt sein.
[0006] P2: Die Abweichungen zwischen den Eingangsvektoren beim Benutzer und denen beim Hersteller
können zu einem unerwünschten Verhalten des Hörgeräts führen. Insbesondere kann in
Mischsituationen der ausgegebene Parameterwert zeitig instabil sein, z. B. mehrfach
zwischen stark unterschiedlichen Werten springen, was vom Benutzer als sehr störend
empfunden wird.
[0007] P3: Üblicherweise ändert das Hörgerät sein Verhalten im späteren Betrieb nur aufgrund
von Benutzereingaben. Das heißt, ohne Eingriff durch den Benutzer bleibt auch ein
instabiles Verhalten in Mischsituationen bestehen, obwohl es eigentlich unerwünscht
wäre.
[0008] P4: Fehlerhafte (z. B. unkonsistente/sinnlose) Benutzereingaben oder das Nichtauftreten
einer bestimmten Situation über einen längeren Zeitraum dürfen das Systemverhalten
für bestimmte Situationen nicht wesentlich verschlechtern. Das heißt, die notwendige
Adaptivität des Hörgeräts muss abgewogen werden gegen das Bewahren eines bestimmten
Grundverhaltens, z. B. gute Sprachverständlichkeit in Ruhe.
[0009] Für die obigen Probleme gibt es gewisse bekannte Lösungsansätze. So wird beispielsweise
in dem Artikel
Lamarche et al.: "Adaptive environment classification system for hearing aids", J.
Acoust. Soz. und Am. 127 (5), Mai 2010, Seiten 3125 bis 3135 ein adaptiver Klassifikator beschrieben, der es erlaubt, bestehende Klassen zu teilen
und/oder zu verschmelzen je nach Verteilung der Eingangsvektoren. Das Problem P1 ist
damit zwar prinzipiell lösbar, jedoch mit folgenden Nachteilen: (a) das Festlegen
entsprechender Kriterien, wann geteilt/verschmolzen werden soll, ist schwierig. (b)
für eine neue abgespaltete Subklasse können statistische Größen wie Mittelwertvektor
und optional Kovarianzmatrix geschätzt werden, was ungenau ist, sofern nicht bereits
viele Eingangsvektoren der Subklasse angehören.
[0010] Die Probleme P2 und P3 sind damit schlecht lösbar, da eine abgespaltene Klasse zunächst
die Parameterwerte der Klasse erbt, aus der sie hervorgeht. Regionen des Eingaberaums,
die Mischsituationen präsentieren, können benachbarte Subklassen mit gegebenenfalls
stark unterschiedlichen Parameterwerten enthalten, was zu einem instabilen Ausgabeverlauf
führen kann. Problem P4 wird von dem Ansatz nicht adressiert.
[0011] In der Druckschrift
WO2008/084116 A2 ("Method for operating a hearing device") wird eine adaptive Kombination mehrerer
einzelner Klassifikatoren betrachtet. Bei einer neuen Hörsituation, die von den bisherigen
Klassifikatoren nicht korrekt behandelt wird (erkennbar durch eine Benutzereingabe
in dieser Situation), wird ein neuer Klassifikator für die neue Situation hinzugefügt.
Das Verfahren nutzt halbüberwachtes Lernen, um die Gewichtungsfunktion zur Kombination
der Einzelklassifikatoren zu bestimmen. Nachteilig ist hier eine hohe Komplexität
(Rechenaufwand) des Verfahrens. Grundlage für die obige Patentanmeldung ist die Dissertation
Tser Ling Yvonne Moh, "Semi-supervised online learning for accoustic data mining",
DISS. ETH NO. 19395, ETH ZÜRICH, 2010 (http://e-collection.library.ethz.ch/eserv/eth:2801/eth-2801-01.pdf). In der genannten Arbeit werden Klassifikationsaufgaben betrachtet. Die Verwendung
als Regressionsfunktion, d.h. als direkte Abbildung von Eingangsvektoren auf Parameterwerte
ist nicht enthalten. Eine Clusterung der Eingangsvektoren wird nicht durchgeführt;
stattdessen werden die Eingangsvektoren eines zu definierenden Zeitfensters betrachtet.
[0012] Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zum automatischen
Einstellen eines Geräts bereitzustellen, mit dem eine verbesserte Einstellung erzielt
werden kann, wenn sich Eingangssignale in einem unvorhergesehenen Bereich des Eingangsraums
befinden.
[0013] Erfindungsgemäß wird diese Aufgabe nach Patentanspruch 1 gelöst durch ein Verfahren
zum automatischen Einstellen eines Geräts durch
- Ermitteln eines Merkmalsvektors aus einem Eingangssignal des Geräts,
- Bereitstellen (mindestens) eines bewegbaren und (mindestens) eines festen Clusters
in einem mehrdimensionalen Raum, wobei sich das feste Cluster an einer festen ersten
Clusterposition in dem mehrdimensionalen Raum befindet,
- Verschieben des bewegbaren Clusters in Richtung auf den Merkmalsvektor zu einer zweiten
Clusterposition,
- Zuordnen je einer Einstellgröße, mit der das Gerät einstellbar ist, zu dem bewegbaren
Cluster und dem festen Cluster ist, und
- Einstellen des Geräts auf der Basis der ersten Clusterposition, der zweiten Clusterposition
und der Einstellgrößen.
[0014] Darüber hinaus wird erfindungsgemäß bereitgestellt ein Klassifikator für ein automatisch
einstellbares Gerät mit
- einer Signaleingangseinrichtung zum Bereitstellen eines elektrischen Eingangssignals,
- einer Merkmalsextraktionseinrichtung zum Ermitteln eines Merkmalsvektors aus dem Eingangssignal,
- einer Positionszuordnungseinrichtung, in der ein bewegbares und ein festes Cluster
in einem mehrdimensionalen Raum bereitgestellt sind, wobei sich das feste Cluster
an einer festen ersten Clusterposition in dem mehrdimensionalen Raum befindet,
- einer Adaptionseinrichtung zum Verschieben des bewegbaren Clusters in Richtung auf
den Merkmalsvektor zu einer zweiten Clusterposition,
- wobei je eine Einstellgröße, mit der das Gerät einstellbar ist, zu dem bewegbaren
Cluster und dem festen Cluster zugeordnet ist, und
- einer Ausgabeeinrichtung zum Ausgeben einer Ausgabegröße zum Einstellen des Geräts
auf der Basis der ersten Clusterposition, der zweiten Clusterposition und der Einstellgrößen.
[0015] In vorteilhafter Weise werden für das automatische Einstellen des Geräts sowohl mindestens
ein bewegbares Cluster als auch mindestens ein festes Cluster verwendet. Jedem der
Cluster ist eine Einstellgröße (im vorliegenden Dokument auch "Label" genannt) zugeordnet,
die einen oder mehrere Werte beinhalten kann, mittels welchen sich das Gerät einstellen
lässt. Außerdem besitzen die Cluster jeweils eine Clusterposition. Die Position des
bewegbaren Clusters wird anhand des Merkmalsvektors des Eingangssignals verschoben,
während die Position des festen Clusters unverändert bleibt. Das Verschieben der beweglichen
Cluster wird im Folgenden Eingangsadaption (input adaptation) genannt. Die Wirkung
dieser Eingangsadaption besteht darin, dass die Einstellung des Geräts auch dann sanft
verändert werden kann, wenn das Eingangssignal außerhalb der ursprünglich vorgegebenen
Signalklassen liegt.
[0016] Vorzugsweise erfolgt das Verschieben des beweglichen Clusters in Abhängigkeit von
einem Triggersignal, das von dem Eingangssignal verschieden ist. Damit ist es nicht
notwendig, dass das bewegliche Cluster mit jedem Einganssignal verschoben wird. Vielmehr
kann das Verschieben gezielt auf andere Weise angestoßen werden.
[0017] Beispielsweise handelt es sich bei dem Triggersignal um ein Einschaltsignal, ein
Zeitsignal oder ein Nutzereingabesignal. So kann es unter Umständen günstig sein,
eine Verschiebung der Cluster nur zu Beginn des Betriebs des jeweiligen Geräts vorzunehmen.
Alternativ kann es von Vorteil sein, das Verschieben der Cluster zeitlich mit einem
Zeitsignal zu steuern, und so beispielsweise periodisch eine Adaption herbeizuführen.
Eine weitere Alternative besteht darin, dass die Adaption bzw. das Verschieben der
beweglichen Cluster durch ein Nutzereingabesignal, also auf eine manuelle Eingabe
hin, erfolgt.
[0018] In einer Ausgestaltung des erfindungsgemäßen Verfahrens liegt eine Vielzahl bewegbarer
Cluster vor, und der Merkmalsvektor wird demjenigen der bewegbaren Cluster zugeordnet,
zu dem er den geringsten räumlichen Abstand besitzt, und dieses Cluster wird schließlich
verschoben. Dies hat den Vorteil, dass in dem Eingaberaum sehr spezifisch eines oder
ein paar wenige Cluster gezielt verschoben werden können. Darüber hinaus können eine
oder mehrere Einstellgrößen (Label) zumindest teilweise durch eine Nutzereingabe verändert
werden. Dies hat den Vorteil, dass das betreffende Gerät sehr individuell an den jeweiligen
Nutzer angepasst werden kann.
[0019] Günstigerweise ist jede der Einstellgrößen der festen und/oder bewegbaren Cluster
nur in einem jeweils spezifisch vorgegebenen Bereich veränderbar. Dadurch kann gewährleistet
werden, dass eine Grundcharakteristik des einzustellenden Geräts erhalten bleibt.
[0020] Vorteilhafterweise wird die Einstellgröße des verschobenen Clusters bzw. der Cluster
über nachbarschaftsbasierte Regression oder rekursives Fortschreiben ermittelt. Dadurch
ergibt sich ein verminderter Rechenaufwand gegenüber dem Prinzip des halbüberwachten
Lernens.
[0021] Die Einstellgröße (Label) kann ein Parameterwert, ein Parametervektor oder ein vorgegebener
oder gradueller Klassenwert sein. Somit kann die Einstellgröße also einen eindimensionalen
oder mehrdimensionalen Wert, aber auch eine Zwischengröße (Klassenwert) zur Ermittlung
von Parameterwerten oder Parametervektoren verkörpern.
[0022] In einem bevorzugten Ausführungsbeispiel wird eine Hörvorrichtung und insbesondere
ein Hörgerät mit dem oben genannten Klassifikator ausgestattet, wobei das Eingangssignal
ein Audiosignal ist. Damit kann die Hörvorrichtung auch dann eine sanfte Veränderung
ihrer Einstellung vornehmen, wenn das Eingangssignal nicht direkt einer der vorgegebenen
Cluster (Klassen) zugeordnet werden kann.
[0023] Der erfindungsgemäße Klassifikator bzw. das erfindungsgemäße Verfahren können auch
allgemein für Industrieanlagen verwendet werden, bei denen Aktionsauswahlregeln für
den Betrieb notwendig sind. Die beweglichen Cluster sorgen auch hier für eine Eingangsadaption,
während die festen Cluster dafür garantieren, dass ein Grundverhalten des Systems
erhalten bleibt. Durch Nutzereingaben können dann seitens des Anwenders Korrekturen
in das System eingegebene werden. Der Begriff Nutzereingabe kann in einer industriellen
Anwendung auch abstrahiert werden zu einem externen Mess- oder Fehlersignal. Anhand
dieses externen Signals werden die Label-Werte der Cluster so verändert, dass die
Einstellung des zugrundeliegenden Gerätes stärker dem gewünschten Verhalten entspricht.
[0024] Ein konkretes Beispiel für eine zu regelnde Industrieanlage wäre beispielsweise ein
Transformator, der eine Mittelspannung auf eine Niederspannung transformiert. Dabei
wird einerseits gefordert, dass die Ausgangsspannung konstant bleibt, und andererseits,
dass die Einstellung nicht zu oft verändert wird. Die Einstellungen des Systems können
mit den Eingangssignalen nachgeführt werden, wobei die festen Cluster wieder dafür
sorgen, dass ein Grundverhalten des Systems gewährleistet bleibt. Als Nutzerinteraktion
könnte hier die Eingabe einer Zentrale gedeutet werden, die sich nur dann einschaltet,
wenn eine grobe Abweichung von Sollvorgaben stattfindet. Speziell könnte das erfindungsgemäße
Verfahren bzw. der erfindungsgemäße Klassifikator auch für die Kopplung von Industrieprozessen
verwendet werden.
[0025] Die obigen Verfahrensmerkmale lassen sich auch auf den genannten Klassifikator übertragen,
wodurch sich entsprechende Funktionen der jeweiligen Einrichtungen des Klassifikators
ergeben.
[0026] Die vorliegende Erfindung wird anhand der beigefügten Zeichnungen näher erläutert,
in denen zeigen:
- FIG 1
- eine Skizze eines Hörgeräts gemäß dem Stand der Technik;
- FIG 2
- ein Signalflussdiagramm für ein Online-Training;
- FIG 3
- ein Signalflussdiagramm für den Betrieb eines Geräts nach dem Training;
- FIG 4
- eine zweidimensionale Projektion von Clustern in einem Eingangsmerkmalsraum vor einer
Eingabeadaption;
- FIG 5
- eine zweidimensionale Projektion der Cluster in dem Eingangsmerkmalsraum nach der
Eingabeadaption;
- FIG 6
- das zeitliche Verhalten mehrerer Klassifikatoren;
- FIG 7
- eine Ausgangssituation von Clusterlabeln mit einer Benutzerinteraktion; und
- FIG 8
- die aufgrund der Benutzerinteraktion angepassten Clusterlabel.
[0027] Die nachfolgend näher geschilderten Ausführungsbeispiele stellen bevorzugte Ausführungsformen
der vorliegenden Erfindung dar.
[0028] Die Beispiele können sich insbesondere auf Hörvorrichtungen und speziell Hörgeräte
der eingangsgenannten Art beziehen. Dementsprechend können die nachfolgend geschilderten
Verfahren in einer Hörvorrichtung bzw. einem Hörgerät ausgeführt werden. Ebenso kann
der erfindungsgemäße Klassifikator in einer Hörvorrichtung eingesetzt werden, die
die eingangserwähnten weiteren Komponenten besitzt. Die Beispiele lassen sich auch
auf Transformatoren z. B. für sogenannte "Smart Grids" oder andere zu steuernde bzw.
zu regelnde Industrieanlagen übertragen.
[0029] Gemäß FIG 2 wird bei einem Online-Training beispielsweise in einem Hörgerät nach
dem Mikrofon oder in einem Klassifikator von einer Signaleingangseinrichtung ein Audiosignal
10 bereitgestellt. Bei einem anderen Gerät handelt es sich dabei um ein entsprechend
anderes Eingangssignal. Das Eingangssignal 10 wird einer Merkmalsextraktionseinrichtung
11 zugeführt. Dort werden etwaige Merkmale wie für ein Hörgerät "Sprache in Störgeräusch",
"Sprache in Ruhe", "Störgeräusch", "Musik" oder "Autogeräusch" von dem Eingangssignal
10 gewonnen und ein entsprechender Eingangsmerkmalsvektor e gebildet. Die Menge aller
Eingangsmerkmalsvektoren bildet den Eingangsraum. Jeder Eingangsmerkmalsvektor lässt
sich einer Klasse bzw. einem Cluster zuordnen.
[0030] Cluster (vorzugsweise definiert durch ihre Mittelwertsvektoren, optional auch Kovarianzmatritzen)
werden im Eingangsraum (z. B. durch eine Positionszuordnungseinrichtung) positioniert.
Eine Teilmenge der Cluster ist fest positioniert, wird hier FC (Factory Cluster) genannt
und repräsentiert die Einstellungen des Herstellers. Die Positionen der fest positionierten
Cluster FC im mehrdimensionalen Raum werden mit FC Pos 12 bezeichnet. Eine andere
Teilmenge der Cluster ist beweglich, wird hier als MC (Movable Cluster) bezeichnet
und folgt den dynamischen Hörsituationen des jeweiligen Benutzers im Eingangsraum.
Die entsprechende Position der MCs wird hier mit MC Pos 13 bezeichnet.
[0031] Die beweglichen Cluster MC können mit jedem Eingangsmerkmalsvektor e im Raum durch
eine Adaptionseinrichtung verschoben werden. Das Nachführen der beweglichen Cluster
MC im Eingangsraum wird im Folgenden Eingangsadaption IA (Input Adaption) genannt.
Von dem Nachführen ist entweder eines, mehrere oder alle beweglichen Cluster betroffen.
Während des Online-Trainings ist es in der Regel nicht notwendig, dass die Position
MC Pos eines, mehrerer oder aller beweglichen Cluster ständig aktualisiert wird. Vielmehr
genügt es, abhängig von einem vorgegebenen Ereignis aktuelle Positionen der beweglichen
Cluster MC zu verwenden. So kann beispielsweise ein Triggersignal dazu verwendet werden,
die aktuellen Positionen MC Pos 13 in einen speziellen Speicher des Geräts zu schreiben
und für das weitere Online-Training einzusetzen. Diese tatsächlich verwendeten Clusterpositionen
werden hier mit MC Pos_dep 14 bezeichnet. Als Triggersignal kann beispielsweise das
Einschaltsignal, ein Zeitsignal oder ein Nutzereingabesignal verwendet werden.
[0032] Bei der Eingangsadaption erfolgt also eine kontinuierliche Anpassung der Position
im Eingangsraum für eines oder mehrere Cluster, die beweglich sind, während die festen
Cluster nicht angepasst werden. Es werden deshalb keine Kriterien für das Aufspalten
und Verschmelzen von Clustern benötigt.
[0033] Die genannten Probleme P1 und P2 werden dadurch insoweit gelöst, als die beweglichen
Cluster vermehrt in den Regionen des Eingaberaums bereitgestellt werden, die beim
jeweiligen Benutzer häufig bzw. aktuell angesprochen werden. Damit ist es möglich,
beispielsweise Übergangszonen zwischen Klassen feiner zu repräsentieren und/oder ein
glattes zeitliches Ausgabeverhalten zu erreichen (vgl. FIG 6). Darüber hinaus ist
das Problem P3 lösbar, sofern die Label der beweglichen Cluster MC auch ohne Benutzereingabe
periodisch neu berechnet werden, z. B. beim Systemstart.
[0034] Jedes Cluster besitzt eine Einstellgröße bzw. ein Label, das die Werte eines oder
mehrerer Parameter zum Einstellen des Geräts (z. B. Hörvorrichtung oder Transformator)
beschreibt. Ein Label bezeichnet beispielsweise eine Einstellung für die Lautstärke
in mehreren Einstellschritten. Sie kann aber auch eine kontinuierliche Größe für die
Einstellung, d. h. im Ausgangsraum, bezeichnen. Somit ließe sich beispielsweise mit
einem Label eine graduelle (z. B. probabilistische) Klassenzugehörigkeit beschreiben.
Ein veränderbares Label eines beweglichen Clusters wird hier als MC L 15 bezeichnet.
Ein ebenfalls veränderbares Label eines festen Clusters FC wird hier als FC L 16 dargestellt.
Außerdem verfügt das System über nicht veränderbare Label FC L_ini 17, die fest vom
Hersteller vorgegeben sind. Natürlich ist die Verwendung von festen und veränderbaren
Labels an die jeweilige Situation anpassbar. So können bei einem Online-Training auch
nur feste oder nur veränderbare Labels für feste Cluster verwendet werden.
[0035] Die Label für verschobene Cluster müssen neu berechnet werden. Dazu eignen sich verschiedene
Methoden. Gemeinsam ist allen Methoden, dass Cluster, die im Eingaberaum der Benutzereingabe
benachbart sind, ähnliche Label wie die Benutzereingabe bekommen. Mögliche Methoden
zur Berechnung der Clusterlabel sind:
- halbüberwachtes Lernen wie es beispielsweise in der Druckschrift WO2008/084116 A2 verwendet wird.
- nachbarschaftsbasierte Regression: Das Label eines bei der Eingangsadaption verschobenen
Clusters wird mit Hilfe der Label der Nachbarcluster ermittelt. Sei hierbei L die
Menge der Cluster mit bekanntem Label, so umfasst L die vom Hersteller vorbelegten
festen Cluster FC sowie eine Anzahl von gespeicherten Benutzereingaben 18 (UI; User
Input). Sei darüber hinaus M die Menge aller Cluster, mit L als Teilmenge aus M.
[0036] Für jedes Cluster aus M werden mittels einer geeigneten Metrik die lokalen Nachbarn
in L berechnet, dann deren Label gemittelt und dem Cluster als neues Label zugewiesen.
[0037] Die lokalen Nachbarn können alle Nachbarn mit einem Abstand innerhalb eines festen
Radius sein oder die k-nächsten Nachbarn sein (k fest oder auch variabel).
[0038] Statt einer gewichteten Mittelung kann alternativ ein gewichteter Median verwendet
werden.
[0039] Als Metrik kann beispielsweise der Abstand der Cluster in einem Nachbarschafts-Graph
benutzt werden. Der Graph verbindet ähnliche Cluster, sodass die Metrik die Abstände
der Cluster in einer sogenannten Mannigfaltigkeit des Eingaberaums widerspiegelt.
Der Graph selbst kann durch halbüberwachtes Lernen ermittelt werden.
[0040] Der Hauptunterschied zum halbüberwachten Lernen ist, dass die nachbarschaftsbasierte
Regression einfacher zu berechnen ist als das halbüberwachte Lernen (letzteres erfordert
unter anderem eine Matrixinversion).
- rekursives Fortschreiben der Clusterlabel:
Die zur Benutzereingabe benachbarten Cluster werden ermittelt und deren Label wird
jeweils rekursiv aktualisiert, y_new=f(y_old, d, u) mit y_new als das neue Label,
y_old als das alte Label, d als der Abstand zwischen der Benutzereingabe und dem Cluster
in einer geeigneten Metrik, u als das Label der Benutzereingabe und f als geeignete
Funktion, bei der der Einfluss von u auf y_new mit zunehmendem Abstand d kleiner wird
(vgl. FIG 7 und 8).
[0041] Neben dem Label besitzt jedes Cluster vorzugsweise eine Angabe, wie weit sich der
aktuelle Labelwert von einem initial vorgegebenen Wert verändern darf. Es kann also
eine cluster-spezifische Limitierung der Label-Veränderungen vorgegeben werden. Hierdurch
kann sichergestellt werden, dass eine bestimmte Grundfunktionalität des Hörgeräts,
insbesondere ein bestimmtes Systemverhalten in bestimmten Hörsituationen, immer gegeben
ist, während für andere Hörsituationen (z. B. überlappende Regionen im Eingaberaum
bei Musik und Sprachein-Rauschen) der Benutzer mehr Veränderungsmöglichkeiten erhält.
Die Grenzen der erlaubten Veränderung können cluster-spezifisch sein, sie müssen es
aber nicht. Beispielsweise kann ein festes Cluster FC, das Merkmalsvektoren der Klasse
"Sprache in Ruhe" umfasst, sehr enge Grenzen haben, während für ein festes Cluster
FC der Klasse "Musik" oder einer Mischsituation stärkere Änderungen durch Benutzereingaben
erlaubt sind.
[0042] Die Grenzen können beispielsweise während des Trainings beim Hersteller aufgrund
der Klassenreinheit des jeweiligen Clusters automatisch festgelegt werden. Dies kann
z. B. in der Form erfolgen, dass gut separierte Cluster, denen nur Eingangsvektoren
einer einzigen Klasse zugeordnet sind, engere Grenzen bekommen als Cluster, die Eingangsvektoren
mehrerer Klassen enthalten, d.h. in einem Randgebiet liegen und deren Label damit
eher durch den Benutzer veränderbar sein soll. Auf diese Weise kann ein Schutz gegen
inkonsistente Benutzereingaben im Hinblick auf Problem P4 erreicht werden.
[0043] Die Label MC L 15 der beweglichen Cluster und die Label FC L 16 der festen Cluster
werden mit Hilfe einer Recheneinheit 19 zusammen zu bestimmten Zeitpunkten berechnet.
Dabei werden gegebenenfalls neben den ursprünglichen Labeln MC L und FC L auch feste
Label FC L_ini sowie die variablen Clusterpositionen MC Pos_dep und die festen Clusterpositionen
FC Pos verwendet. Außerdem können natürlich Labelwerte L von Benutzereingaben 18 für
die Ermittlung der neuen Label berücksichtigt werden. Der jeweilige Zeitpunkt für
die Berechnung der Label kann durch eine Benutzereingabe, periodisch oder z. B. beim
Systemstart erfolgen.
[0044] Bei der Eingangs- bzw. Inputadaption wird also ein bewegliches Cluster an einen Eingangsvektor
angepasst. Dazu wird beispielsweise das nächstgelegene bewegliche Cluster bestimmt.
Dieses bewegliche Cluster wird ein kleines Stück in die Richtung des Eingangsvektors
verschoben. Dabei kann die Schrittweite beispielsweise 1 % oder 1 ‰ des Abstands zwischen
dem beweglichen Cluster und dem Eingangsvektor für eine Abtastrate von 10 Hz betragen.
[0045] Nach dem Online-Training gemäß FIG 2 können die gelernten Cluster und Label während
des Betriebs des Geräts verwendet werden. Dabei wird wieder aus dem Eingangssignal
10 durch die Merkmalsextraktionseinheit 11 ein Eingangsmerkmalsvektor e gewonnen,
wie dies in FIG 3 dargestellt ist. Aus den Clusterpositionen MC Pos_dep 14 und FC
Pos 12 sowie den Labeln MC L 15 und FC L 16 gegebenenfalls auch FC L_ini 17 werden
mit Hilfe beispielsweise eines k-nächster-Nachbar-Algorithmus 20 eine Ausgabegröße
21, insbesondere ein Parametervektor berechnet. Dieser Parametervektor dient zum automatischen
Einstellen des Geräts. Durch die bei der Eingangsadaption veränderten Cluster können
vorteilhafterweise insbesondere weichere Übergänge in Grenzsituationen erreicht werden,
bei denen das Eingangssignal nicht eindeutig den ursprünglichen Clustern zugeordnet
werden könnte. Es können damit benachbarte Eingangswerte eher benachbarten Ausgangswerten
zugeordnet werden.
[0046] Die FIG 4 und 5 zeigen ein konkretes Beispiel für eine Eingangsadaption. FIG 4 zeigt
eine zweidimensionale Projektion von Clustern im Eingangsmerkmalsraum vor einer Adaption.
Bewegbare Cluster sind als Dreiecke dargestellt, während fest vorgegebene Cluster
als Punkte dargestellt sind. Insbesondere sind Cluster der Klasse "Sprache in Störgeräusch"
SiN (Speach in Noise), der Klasse "Störgeräusch" N (Noise), der Klasse "Musik" M (Music)
und der Klasse "Autogeräusch" C (Car) mit unterschiedlichen Symbolen eingezeichnet.
Die festen Cluster und die beweglichen Cluster sind vor der Adaption deckungsgleich.
Das Hörgerät wurde hier ohne die Klasse "Sprache in Ruhe" SiQ (Speach in Quiet) trainiert.
Das so trainierte Hörgerät kann also Audiosignale der Klasse "Sprache in Ruhe" vor
dem Training nicht eindeutig klassifizieren.
[0047] Zum Training wird dem Hörgerät beispielsweise eine Zufallsmischung von 90 Minuten
Sprache in Ruhe und 45 Minuten von Schallbeispielen anderer Klassen präsentiert. Durch
das Training bewegen sich einige der beweglichen Cluster (Dreiecke) in eine neue Region
22, die als SiQ-Region bezeichnet werden kann. Zukünftig kann damit das Hörgerät auch
Schallbeispiele der Klasse Sprache in Ruhe besser klassifizieren.
[0048] FIG 6 zeigt, dass die Eingangsadaption die zeitliche Stabilität des Ausgangssignals
verbessert. Insbesondere ist das Ausgangssignal von drei verschiedenen Verfahren dargestellt,
mit denen eine Testaudiodatei, die aus einer Mischung von Sprache und Störgeräusch
besteht, klassifiziert wird. Die Kurven stellen die Ausgabe eines Störgeräuschparameters
über der Zeit t dar. Die Kurve 23 zeigt das Ausgangssignal eines Klassifikators, der
nur binäre Ausgangssignale (0, 1) ausgeben kann. Das Ausgangssignal zeigt unerwünscht
hohe Sprünge. Die Kurve 24 zeigt das Ausgangssignal eines Systems, mit dem auch Zwischenwerte
zwischen 0 und 1 produziert werden können. Das Ausgangssignal zeigt aber immer noch
deutliche Sprünge, da die Testeingangssignale verschiedenen Clustern mit unterschiedlichen
Parameter-Label (z. B. 0.8, 0.12, 0.05) zugeordnet werden. Die Kurve 25 gibt das Ausgangssignal
des gleichen Systems wie dasjenige von Kurve 24 jedoch mit Eingangsadaption wieder.
Die Ausgangsvariation verschwindet komplett, da die Testeingangssignale bewegbaren
Clustern zugeordnet werden, die hier die gleichen Parameter-Label besitzen. Die Eingangsadaption
führt also zu einem deutlich verbesserten Höreindruck. FIG 6 zeigt damit an, wie stark
die jeweils jetzige Situation eine Störgeräusch- bzw. Rauschsituation ist.
[0049] Die FIG 7 und 8 zeigen ein konkretes Beispiel zur Berechnung der Clusterlabel über
rekursives Fortschreiben. Die Kreise in den beiden Figuren stellen Cluster dar. Die
Werte in den Kreisen repräsentieren Cluster-Label. Die Verbindungslinien zwischen
den Clustern repräsentieren die jeweiligen Clusterabstände. In einem Iterationsschritt
n ergeben sich die in FIG 7 dargestellten Werte im Graphen. Es erfolgt zusätzlich
an der Clusterposition 26 eine Nutzereingabe mit dem Label-Wert "2".
[0050] In dem in FIG 8 dargestellten Iterationsschritt n+1 sind die Clusterlabel neu berechnet.
Das der Clusterposition 26 nächstliegende Cluster erhält den Label-Wert "2". Die Label
für den Iterationsschritt n+1 werden nach folgender Formel berechnet:
y(n+1)=(1-λc)yc(n)+λcyl, für alle Cluster c. Dabei bezeichnet y den jeweiligen Label-Wert, n den diskreten
Zeitschritt. λc, das Werte zwischen 0 und 1 annehmen kann, stellt den Einfluss der Nutzereingabe
auf das jeweilige Cluster-Label dar und kann beispielsweise eine monotone Funktion
der jeweiligen Distanz auf dem Graphen sein.
1. Verfahren zum automatischen Einstellen eines Geräts durch
- Ermitteln eines Merkmalsvektors (e) aus einem Eingangssignal (10) des Geräts,
- Bereitstellen eines bewegbaren und eines festen Clusters in einem mehrdimensionalen
Raum, wobei sich das feste Cluster an einer festen ersten Clusterposition (12) in
dem mehrdimensionalen Raum befindet,
- Verschieben des bewegbaren Clusters in Richtung auf den Merkmalsvektor zu einer
zweiten Clusterposition (13, 14),
- Zuordnen je einer Einstellgröße (15, 16), mit der das Gerät einstellbar ist, zu
dem bewegbaren Cluster und dem festen Cluster, und
- Einstellen des Geräts auf der Basis der ersten Clusterposition (12), der zweiten
Clusterposition (13, 14) und der Einstellgrößen (15, 16).
2. Verfahren nach Anspruch 1, wobei das Verschieben des beweglichen Clusters in Abhängigkeit
von einem Triggersignal erfolgt.
3. Verfahren nach Anspruch 2, wobei das Triggersignal ein Einschaltsignal, ein Zeitsignal
oder ein Nutzereingabesignal ist.
4. Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Vielzahl bewegbarer
Cluster vorliegt, und der Merkmalsvektor demjenigen der bewegbaren Cluster zugeordnet
wird, zu dem er den geringsten räumlichen Abstand besitzt, und dieses Cluster von
dem Verschieben betroffen ist.
5. Verfahren nach einem der vorhergehenden Ansprüche, wobei eine oder mehrere der Einstellgrößen
zumindest teilweise durch eine Nutzereingabe verändert wird/werden.
6. Verfahren nach Anspruch 5, wobei jede der Einstellgrößen der festen und/oder bewegbaren
Cluster nur in einem jeweils spezifischen vorgegebenen Bereich veränderbar ist.
7. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Einstellgröße (15) des
verschobenen Clusters über nachbarschaftsbasierte Regression oder rekursives Fortschreiben
ermittelt wird.
8. Verfahren nach einem der vorhergehenden Ansprüche, wobei die jeweilige Einstellgröße
(15, 16) ein Parameterwert, ein Parametervektor oder ein vorgegebener oder gradueller
Klassenwert ist.
9. Klassifikator für ein automatisch einstellbares Gerät mit
- einer Signaleingangseinrichtung zum Bereitstellen eines elektrischen Eingangssignals
(10),
- einer Merkmalsextraktionseinrichtung zum Ermitteln eines Merkmalsvektors (e) aus
dem Eingangssignal (10),
- einer Positionszuordnungseinrichtung, in der ein bewegbares und ein festes Cluster
in einem mehrdimensionalen Raum bereitgestellt sind, wobei sich das feste Cluster
an einer festen ersten Clusterposition (12) in dem mehrdimensionalen Raum befindet,
- einer Adaptionseinrichtung zum Verschieben des bewegbaren Clusters in Richtung auf
den Merkmalsvektor zu einer zweiten Clusterposition (13, 14),
- wobei je eine Einstellgröße (15, 16), mit der das Gerät einstellbar ist, zu dem
bewegbaren Cluster und dem festen Cluster zugeordnet ist, und
- einer Ausgabeeinrichtung zum Ausgeben einer Ausgabegröße (21) zum Einstellen des
Geräts auf der Basis der ersten Clusterposition (12), der zweiten Clusterposition
(13, 14) und der Einstellgrößen (15, 16).
10. Hörvorrichtung mit dem Klassifikator nach Anspruch 9, wobei das Gerät die Hörvorrichtung
und das Eingangssignal (10) ein Audiosignal ist.