(19)
(11) EP 1 102 242 A1

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
23.05.2001  Patentblatt  2001/21

(21) Anmeldenummer: 99440325.1

(22) Anmeldetag:  22.11.1999
(51) Internationale Patentklassifikation (IPC)7G10L 19/00
(84) Benannte Vertragsstaaten:
AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE
Benannte Erstreckungsstaaten:
AL LT LV MK RO SI

(71) Anmelder: ALCATEL
75088 Paris (FR)

(72) Erfinder:
  • Trompf, Michael, Dr.-Ing.
    71296 Heimsheim (DE)
  • Sienel, Jürgen, Dipl.-Ing.
    71229 Leonberg (DE)
  • Kopp, Dieter, Dipl.-Ing.
    75428 Illingen (DE)
  • Lecomte, Daniel
    F-75116 Paris (FR)

(74) Vertreter: Knecht, Ulrich Karl, Dipl.-Ing. 
Alcatel Intellectual Property Department, Stuttgart
70430 Stuttgart
70430 Stuttgart (DE)

   


(54) Verfahren zur Personalisierung von Sprachausgabe


(57) Die Erfindung betrifft ein Verfahren zur Steuerung einer Sprachausgabe mit einem Satz von Parametern zur Personalisierung der Sprachausgabe bei dem ein Satz von Parametern und/oder mindestens ein Codebuch über ein Netzwerk von einem Server zu einem Decodierer in einem Terminal übertragen wird. Die Personalisierung der Sprachausgabe erfolgt durch Decodieren des mindestens einen Codebuchs mit Hilfe des Satzes von Parametern in dem Decodierer. Anschließend erfolgt die Sprachausgabe an dem Terminal




Beschreibung


[0001] Die Erfindung betrifft ein Verfahren zur Personalisierung von Sprachausgabe an einem Terminal. Es ist bekannt, einen Sprach-Decodierer in einem Telefon, insbesondere in einem Handy, vorzusehen und Sprache in codierter Form, z.B. als Codebücher, zum Benutzer zu übertragen.

[0002] Aus der Veröffentlichung von W. Jia und W.-Y. Chan, "Personal Speech Coding" erschienen in Proceedings ICASSP, 1998, ist es bekannt, die Sprachausgabe eines Sprach-Decodierers über geeignete Parameter zu beeinflussen, z.B. die Tonlage der Sprachausgabe zu verändern. Dadurch kann beispielsweise die Sprachausgabe wie eine männliche oder weibliche Stimme klingen.

[0003] Der Nachteil existierender Sprachausgabesyteme ist es, daß nur eine begrenzte Menge von Information in einer Ausgabeeinheit, wie z.B. einem Terminal, gespeichert werden kann. Es ist daher nicht möglich, genügend Parameter und Codebücher zur Verfügung zu haben, um die Sprachausgabe optimal auf den Benutzer abzustimmen. Somit ist keine optimale Mensch-Maschine Schnittstelle gegeben.

[0004] Die Aufgabe der Erfindung besteht darin, ein Verfahren zur Personalisierung von Sprachausgabe an einem Terminal zu verbessern, bei möglichst geringer Speicherung von Daten im Terminal.

[0005] Erfindungsmäßig gelöst werden soll die Aufgabe durch ein Verfahren zur Steuerung einer Sprachausgabe mit einem Satz von Parametern, der mindestens einen Parameter aufweist, zur Personalisierung der Sprachausgabe,
mit folgenden Schritten:

a) Übertragung von einem Satz von Parametern und/oder von mindestens einem Codebuch über ein Netzwerk von einem Server zu einem Decodierer in einem Terminal

b) Personalisierung der Sprachausgabe durch Decodieren des mindestens einen Codebuches mit Hilfe des Satzes von Parametern in dem Decodierer

c) Sprachausgabe an dem Terminal



[0006] Dies hat den Vorteil, daß für eine Vielzahl von Benutzern die Codebücher und Parameter nur einmal, nämlich in einem Server, gespeichert werden müssen, was eine große Ersparnis bei den Speichermedien in den Terminals zur Folge hat. Außerdem können in einem Server mehr Informationen gespeichert werden als in jedem Terminal. Deshalb ist eine bessere Personalisierung der Sprachausgabe möglich, da sich jedes Terminal individuell auf den Benutzer einstellen kann und dem Benutzer die Bedienung so sehr viel angenehmer machen kann.

[0007] Eine Weiterbildung des Verfahrens zeichnet sich dadurch aus, daß mindestens ein Codebuch im Terminal gespeichert wird. Dies hat den Vorteil, daß weniger Information über das Netzwerk übertragen werden muß. Außerdem gewährleistet es einen unterbrechungsfreien Betrieb des Terminals, falls die Netzwerkverbindung zum Server unterbrochen sein sollte.
Eine andere Verfahrensvariante besteht darin, daß mindestens ein Parameter mindestens eine Adresse zur Adressierung des mindestens einen Codebuchs im Terminal aufweist. Dies hat den Vorteil, daß nur die Adresse und nicht ein gesamtes Codebuch codiert und übertragen werden muß, was zu einer Entlastung des Netzwerks führt. Es versteht sich von selbst, daß die Adressierung der Codebücher im Terminal direkt oder indirekt, z.B. über Zeiger, erfolgen kann.

[0008] Weiterhin ist es möglich, daß der Satz von Parametern mindestens ein Codebuch enthält. Dies hat den Vorteil, daß ein Codebuch aus einer größeren Bibliothek von Codebüchern ausgewählt werden kann, als dies der Fall wäre, wenn Codebücher nur im Terminal gespeichert würden.

[0009] Eine Weiterbildung des Verfahrens besteht darin, daß mindestens ein Parameter die Tonlage (pitch) der Sprachausgabe bestimmt. Es ist somit möglich, eine Frauenstimme oder eine Männerstimme auszugeben. Je nach Themengebiet könnte zwischen Männer- und Frauenstimme umgeschaltet werde. Beim Vorlesen von Nachrichten könnte eine Männerstimme für den Politikteil und eine Frauenstimme für den kulturellen Teil verwendet werden.

[0010] In einer weiteren Verfahrensvariante ist vorgesehen, daß mindestens ein Parameter die Sprache der Sprachausgabe bestimmt. Je nach Benutzer kann die Sprachausgabe in einer anderen Landessprache erfolgen, was z.B. von Vorteil ist, wenn man eine Telefonansage in einem Land abfragt, dessen Landessprache man nicht mächtig ist.

[0011] Eine Weiterbildung des Verfahrens sieht vor, daß mindestens ein Parameter die Lautstärke der Sprachausgabe bestimmt. Eine Anpassung der Lautstärke der Sprachausgabe ist nötig für schwerhörige Benutzer oder für die Benutzung des Terminals in einer Umgebung mit starken Hintergrundgeräuschen.

[0012] Eine weitere Verfahrensvariante zeichnet sich dadurch aus, daß mindestens ein Parameter den Klang (sound) der Sprachausgabe bestimmt. Dadurch ist es möglich, die Sprachausgabe an das Alter des Benutzers anzupassen. Die Sprachausgabe könnte sich z.B. nach der Stimme einer älteren Person oder eines Kindes anhören.

[0013] In einer besonders vorteilhaften Verfahrensvariante wird mindestens ein Eingangssignal an dem Terminal angenommen. Das Annehmen eines Eingangssignals am Terminal hat den Vorteil, daß Informationen über den Benutzer bekannt werden, die benutzt werden können, um die Sprachausgabe gezielt zu personalisieren. Mehrere Aufnahmemedien sind für das Eingangssignal denkbar. Beispielsweise seien Mikrophon und Kamera genannt.

[0014] Eine Weiterbildung dieses Verfahrens besteht darin, daß das Eingangssignal in eine über das Netzwerk übertragbare Information umgewandelt wird. Dadurch wird es möglich, die Benutzerinformation über das Netzwerk zu übertragen.

[0015] Eine weitere Ausbildungsform des Verfahrens zeichnet sich dadurch aus, daß Information von dem Terminal über das Netzwerk an den Server übertragen wird. Dies hat den Vorteil, daß die Benutzerinformation zur Auswahl der Codebücher und Parameter im Server verwendet werden kann.

[0016] Eine Weiterbildung des Verfahrens ist, daß die Auswahl des Satzes von Parametern zur Personalisierung der Sprachausgabe gemäß dem Eingangssignal erfolgt. Dies hat den Vorteil, daß die Sprachausgabe am Terminal optimal personalisiert werden kann.

[0017] In einer bevorzugten Ausführungsform ist das Eingangssignal eine Stimme. Aus der Frequenzlage der Stimme kann das Geschlecht und evtl. das Alter des Benutzers bestimmt werden. Diese Information kann dann verwendet werden, um die Sprachausgabe zu personalisieren.

[0018] Alternativ kann das Eingangssignal ein Sprachsignal sein. Durch Erkennung von Worten, die einer bestimmten Sprache angehören, kann die Muttersprache des Benutzers festgestellt werden und die Sprachausgabe entsprechend in der Muttersprache des Benutzers erfolgen.

[0019] In einer weiteren Alternative kann das Eingangssignal ein Signal von einem Bildtelefon stammen. Über das Bildtelefon kann Information über den Benutzer und dessen Umgebung aufgenommen werden. So können Alter und Geschlecht des Benutzers bestimmt werden. Weiterhin könnte die Lautstärke der Sprachausgabe geregelt werden, sollte sich aufgrund der Bilder im Bildtelefon ergeben, daß der Benutzer sich z.B. auf einem Flughafen oder in einer Fabrikhalle befindet, wo die Hintergrundgeräusche in der Regel sehr laut sind.

[0020] Eine weitere Verfahrensvariante zeichnet sich dadurch aus, daß das Eingangssignal ein Tastsignal ist, insbesondere von einer Touch Screen. Der Benutzer könnte anhand einer Touch Screen z.B. die Sprache der Sprachausgabe wählen.

[0021] In einer Weiterbildung des Verfahrens ist es möglich, daß an dem Terminal eine Wahlmöglichkeit von Parametern für einen Benutzer besteht. Der Benutzer kann also selbst auswählen, welche Art der Sprachausgabe ihm besonders angenehm erscheint. Er kann z.B. wählen, ob er von einer Männer- oder Frauenstimme angesprochen werden will.

[0022] Weitere Merkmale und Vorteile der Erfindung ergeben sich aus den nachfolgenden Beschreibungen von Ausführungsbeispielen der Erfindung, anhand der Figur der Zeichnung, die erfindungswesentliche Einzelheiten zeigt, und aus den Ansprüchen. Die einzelnen Merkmale können je einzeln für sich oder zu mehreren in beliebiger Kombination bei einer Variante der Erfindung verwirklicht sein.

[0023] Ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist in der schematischen Zeichnung dargestellt und wird in der nachfolgenden Beschreibung erläutert.

[0024] Die einzige Figur zeigt einen Server, der mit einem Terminal in Verbindung steht.

[0025] Von einem Server 1, in dem Informationen wie, im Beispiel Codebücher und Parameter zur Personalisierung einer Sprachausgabe gespeichert sind, werden über ein Netzwerk 2 Parameter und Codebücher zu einem Decodierer 3 in einem Terminal 4 übertragen. In dem Decodierer 3 werden die Codebücher mit Hilfe der Parameter decodiert und die Sprachausgabe personalisiert. Die Personalisierung erfolgt dadurch, daß ein Parameter festlegt, ob eine Männer- oder Frauenstimme ausgegeben werden soll. Die Sprachausgabe an dem Terminal 4 erfolgt über einen Lautsprecher 5.

[0026] Bei anderen Ausbildungsformen, wird am Terminal 4 ein Eingangssignal aufgenommen, im Beispiel eine Stimme über ein Mikrophon 6. Dieses Eingangssignal wird dann im Terminal in übertragbare Information umgewandelt und an den Server 1 über das Netzwerk 2 weitergeleitet, mit Hilfe dieser Information kann der Satz von Parametern und die Codebücher zur Personalisierung der Sprachausgabe ausgewählt werden.

[0027] Im übrigen betrifft die Erfindung ein Verfahren zur Steuerung einer Sprachausgabe mit einem Satz von Parametern zur Personalisierung der Sprachausgabe bei dem ein Satz von Parametern und/oder mindestens ein Codebuch über ein Netzwerk von einem Server zu einem Decodierer in einem Terminal übertragen wird. Die Personalisierung der Sprachausgabe erfolgt durch Decodieren des mindestens einen Codebuchs mit Hilfe des Satzes von Parametern in dem Decodierer. Anschließend erfolgt die Sprachausgabe an dem Terminal

BEZUGSZEICHENLISTE



[0028] 
1
Server
2
Netzwerk
3
Decodierer
4
Terminal
5
Lautsprecher
6
Mikrophon



Ansprüche

1. Verfahren zur Steuerung einer Sprachausgabe mit einem Satz von Parametern, der mindestens einen Parameter aufweist, zur Personalisierung der Sprachausgabe,
mit folgenden Schritten:

a) Übertragung von einem Satz von Parametern und/oder von mindestens einem Codebuch über ein Netzwerk von einem Server zu einem Decodierer in einem Terminal

b) Personalisierung der Sprachausgabe durch Decodieren des mindestens einen Codebuches mit Hilfe des Satzes von Parametern in dem Decodierer

c) Sprachausgabe an dem Terminal


 
1. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mindestens ein Codebuch im Terminal gespeichert wird.
 
2. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß mindestens ein Parameter mindestens eine Adresse zur Adressierung des mindestens einen Codebuchs im Terminal aufweist.
 
3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Satz von Parametern mindestens ein Codebuch enthält.
 
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mindestens ein Parameter die Tonlage (pitch) der Sprachausgabe bestimmt.
 
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mindestens ein Parameter die Sprache der Sprachausgabe bestimmt.
 
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mindestens ein Parameter die Lautstärke der Sprachausgabe bestimmt.
 
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mindestens ein Parameter den Klang der Sprachausgabe bestimmt.
 
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mindestens ein Eingangssignal an dem Terminal angenommen wird.
 
9. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das Eingangssignal in eine über das Netzwerk übertragbare Information umgewandelt wird.
 
10. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, daß Information von dem Terminal über das Netzwerk an den Server übertragen wird.
 
11. Verfahren nach Anspruch 9, 10 oder 11, dadurch gekennzeichnet, daß die Auswahl des Satzes von Parametern zur Personalisierung der Sprachausgabe gemäß dem Eingangssignal erfolgt.
 
12. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das Eingangssignal eine Stimme ist.
 
13. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das Eingangssignal ein Sprachsignal ist.
 
14. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das Eingangssignal ein Signal von einem Bildtelefon ist.
 
15. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das Eingangssignal ein Tastsignal ist, insbesondere von einer Touch Screen.
 
16. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß an dem Terminal eine Wahlmöglichkeit von Parametern für einen Benutzer besteht.
 
17. Computersystem, das Mittel zur Durchführung des Verfahrens aufweist.
 




Zeichnung







Recherchenbericht