Verfahren zum akustischen Ausgeben von Text und Sprachausgabesystem

(19)

(11)

EP 0 984 427 A2

(12)	EUROPÄISCHE PATENTANMELDUNG

(43)	Veröffentlichungstag:
	08.03.2000 Patentblatt 2000/10

(21)	Anmeldenummer: 99710007.8

(22)	Anmeldetag: 03.09.1999

(51)	Internationale Patentklassifikation (IPC)⁷: G10L 13/08

(84)	Benannte Vertragsstaaten:
	AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE
	Benannte Erstreckungsstaaten:
	AL LT LV MK RO SI

(30)

Priorität:

03.09.1998 DE 19840890

(71)	Anmelder: SIEMENS AKTIENGESELLSCHAFT
	80333 München (DE)

(72)	Erfinder:
	fehrmann, Walter 93096 Köfering (DE)

(54)	Verfahren zum akustischen Ausgeben von Text und Sprachausgabesystem

(57) Bei einem Verfahren zum akustischen Ausgeben von Text und einem Sprachausgabesystem wird ein Text von einem Mikroprozessor (1; 7) auf für eine Sprache charakteristische Wörter- oder Abkürzungen untersucht, um die Sprache des Textes zu identifizieren. Der Text wird anschließend mit einem Algorithmus, der speziell für die identifizierte Sprache geschaffen ist, in Wortsilben umgerechnet und über einen Lautsprecher wiedergegeben.

Beschreibung

[0001] Die Erfindung betrifft ein Verfahren zum akustischen Ausgeben von Text und ein Sprachausgabesystem, das eine akustische Ausgabe von Text erlaubt.

[0002] Aus der Offenlegungsschrift DE 195 03 419 A1 ist die akustische Ausgabe von digital codierten Verkehrsmeldungen mittels synthetisch erzeugter Sprache bekannt. Ortsbezogene Wörter werden in derjenigen Sprache an eine Sprachsynthese-Einrichtung weitergeleitet, in der die zugehörigen Sätze aus einem Speicher entnommen wurden. Eine Anpassung von fremdsprachigen Wörtern an den Klang der zugehörigen Sätze erfolgt durch eine Prosodie-Konversion.

[0003] Aus dem Textverarbeitungsprogramm Nisus® Writer von Nisus Software, Inc. ist eine Sprachausgabe oder ein "Vorlesen" von geschriebenem Text bekannt. Für jede Sprache, in der ein Text akustisch ausgegeben werden kann, steht ein eigener Sprachumwandlungs-Algorithmus (Text-to-speach-Algorithmus) zur Verfügung. Ein solcher Algorithmus wandelt Schriftzeichen in aufeinanderfolgende Phoneme oder Wortsilben um. Der Benutzer kann aus einem Menü für eine bestimmte Sprache den entsprechenden Sprachumwandlungs-Algorithmus wählen. Liegt der Text in einer Sprache vor, für die der Sprachumwandlungs-Algorithmus nicht bestimmt ist, so ist die Sprachausgabe nicht verständlich.

[0004] Bei verschiedenen Anwendungen ist es unvorteilhaft, wenn eine Benutzeraktion erforderlich ist, um für einen Text in einer bestimmten Sprache den dazugehörigen Sprachumwandlungs-Algorithmus auszuwählen. Insbesondere in einem Kraftfahrzeug wird der Sicherheitsvorteil für einen Fahrzeugführer, der in der akustischen Ausgabe eines Texts liegt, wenigstens teilweise zunichte gemacht, wenn der Fahrzeugführer zunächst die Sprache des Textes überprüfen muß und anschließend den entsprechenden Sprachumwandlungs-Algorithmus suchen und auswählen muß.

[0005] In der Patentanmeldung EP 0 889 626 Al ist ein Nachrichtenübermittlungssystem für Fernsprechteilnehmer bekannt, bei dem ein System für aufgezeichnete akustische Nachrichten (voice mail) mit einem E-mail-System gekoppelt ist. E-mails können akustisch an einen Teilnehmer ausgegeben werden. Um für die Sprachausgabe den richtigen Sprachumwandlungs-Algorithmus wählen zu können, werden E-mails auf Buchstabenkombinationen mit drei aufeinanderfolgenden Buchstaben untersucht. Aufgrund der Häufigkeit des Auftretens der Buchstabenkombinationen werden Rückschlüsse auf die verwendete Sprache gezogen. Dieses Verfahren benötigt erheblichen Aufwand für die Implementierung des Systems. Es müssen in einem solchen System erhebliche Ressourcen an Speicher und Rechenleistung für den Programmablauf und für entsprechende Bibliotheken zur Verfügung gestellt werden. Dies ist insbesondere bei Anwendungen in Kraftfahrzeugen unerwünscht. Außerdem ist eine zuverlässige Unterscheidung zwischen ähnlichen Sprachen insbesondere dann problematisch, wenn die Nachrichten kurz sind und mit anderssprachlichen Fachbegriffen angereichert sind.

[0006] Es ist ein Ziel der Erfindung, ein Verfahren zum akustischen Ausgeben von Text und ein Sprachausgabesystem bereit zu stellen, die auf besonders effiziente und zuverlässige Weise eine korrekte Wiedergabe von Texten erlauben, die in unterschiedlichen Sprachen vorliegen können.

[0007] Dieses Ziel wird mit einem Verfahren und einem Sprachausgabesystem erreicht, wie sie in den unabhängigen Patentansprüchen definiert sind. Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen angegeben.

[0008] Vor Beginn der Sprachausgabe wird ein Text auf Wörter oder Abkürzungen untersucht, die für eine Sprache charakteristisch sind, um die Sprache des Textes zu identifizieren. Aufgrund der erkannten Sprache wird ein speziell der erkannten Sprache zugeordneter Algorithmus für die akustische Ausgabe des Textes automatisch gewählt. Dadurch werden die synthetisch erzeugten Phoneme, bzw. die Wortsilben oder Laute, richtig betont.

[0009] Trifft beispielsweise ein schriftlicher Text über Rundfunk oder Mobilfunk, insbesondere Mobiltelefon, z. B. über das Radio-Daten-System (RDS) bzw. beim Mobilfunk über Short Message Service (SMS), in einen Personenkraftwagen ein, so kann der Text ohne Bedienaktion des Fahrzeugführers in der für die Sprache des Textes geeignetes Sprechweise wiedergegeben werden. Dies ist insbesondere bedeutsam für Geschäftsreisende, die auch Kontakte mit fremdsprachigen Kunden pflegen.

[0010] Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der Erfindung ergeben sich aus der Beschreibung von bevorzugten Ausführungsbeispielen in Verbindung mit den Zeichnungen. Es zeigen:

Figur 1: ein Sprachausgabesystem, bei dem ein zentraler Mikroprozessor Text in Sprachdaten umwandelt, und
Figur 2: ein Sprachausgabesystem mit digitalem Signalprozessor.

[0011] Das in Figur 1 veranschaulichte Sprachausgabesystem ist in ein Multifunktions-Bedienteil eines Kraftfahrzeugs integriert, mit dem ein Autoradio, ein Mobiltelefon, ein Navigationssystem und eine Klimaanlage gesteuert werden.

[0012] Ein Mikroprozessor 1 weist einen Textspeicher 2, bei dem es sich um ein RAM handelt, auf. Über ein Telefonmodul oder eine Mobilfunkeinheit 3 kann der Mikroprozessor 1 drahtlos Nachrichten empfangen, wie beispielsweise ein E-Mail oder ein Telefax.

[0013] Ein Benutzer kann durch Betätigung eines einzigen Bedienelements, beispielsweise eines mit dem Buchstaben "E" gekennzeichneten Druckknopfs, den Mikroprozessor 1 veranlassen, eine Verbindung mit seiner Mailbox beim Internet-Provider aufzubauen und eingetroffene E-Mails abzurufen. Der empfangene Text wird dann im Textspeicher 2 gespeichert und ohne weitere Aktion des Benutzers ausgegeben.

[0014] Empfängt die Mobilfunkeinheit 3 ein Telefax, so wird der im Telefax als Bildpunkte enthaltene Text von einer Texterkennungssoftware in Worte mit definierten Schriftzeichen umgesetzt, um in dem Textspeicher 2 gespeichert zu werden. Der Mikroprozessor 1 lädt nacheinander die im Textspeicher 2 gespeicherte Worte und wandelt diese in digitalisierte Phoneme, also in eine Aufeinanderfolge von Lauten oder Wortsilben um.

[0015] Die digitalisierten Phoneme werden an ein Ausgabesystem ausgegeben, das aus einem Digital-/Analogwandler 4, einem Audioverstärker 5 und mindestens einem Lautsprecher 6 besteht.

[0016] Der Digital-/Analogwandler 4 wandelt die digitalisierten Phoneme in analoges Sprachsignal um, das vom Audioverstärker 5 auf eine vom Benutzer gewünschte Lautstärke verstärkt und vom Lautsprecher 6 akustisch wiedergegeben wird.

[0017] Der Mikroprozessor 1 untersucht einen Text auf das Vorkommen von Schlüsselwörtern und typischen Buchstabenkombinationen in denjenigen Sprachen, in denen er jeweils über einen Sprachumwandlungs-Algorithmus verfügt. Solche Schlüsselwörter sind Anreden und Grußformeln, wie beispielsweise "Sehr geehrte(r)", "Herr", "Frau", "Dear", "Cher", "Chère", etc. Ferner sind Artikel, Pronomen und Konjunktionen Wörter, anhand denen auf einfache Weise eine Sprache identifizierbar ist. Ähnliches gilt für typische Schriftzeichenkombinationen oder Abkürzungen wie "H.", "Hr.", "F.", "Fr.", "Mr.", "Ms.", "M.", "Mme".

[0018] Da manchmal die Anrede und der sich anschließende Text in unterschiedlichen Sprachen gehalten sind, führt der Mikroprozessor, nachdem er das erste Schlüsselwort oder die erste typische Schriftzeichenkombination einer konkreten Sprache zuordnen konnte, seine Suche im Text fort. Treten Widersprüche auf, so daß mehr als eine Sprache aufgrund der identifizierten charakteristischen Wörter oder Schriftzeichen erkannt wird, so erfolgt eine Mehrheitsentscheidung. Die Sprachausgabe wird dann in derjenigen Sprache vorgenommen, die am häufigsten im Text erkannt wurde. Damit führen auch Schreibfehler nicht zu einer Fehlinterpretation der Sprache.

[0019] Figur 2 zeigt ein Sprachausgabesystem, bei dem zusätzlich ein digitaler Signalprozessor 7 und ein Bildschirm 8 zur zusätzlichen optischen Informationsausgabe vorgesehen sind.

[0020] Die Mobilfunkeinheit 3 empfängt eine Textnachricht und übergibt sie an den Mikroprozessor 1. Dieser leitet den Text in den Textspeicher 2 weiter.

[0021] Der digitale Signalprozessor 7 untersucht den Text auf charakteristische Wörter und Zeichenkombinationen in den zur Verfügung stehenden Sprachen und wählt zur Sprachkonversion den zugehörigen Sprachumwandlungs-Algorithmus aus. Die synthetisch erzeugten Phoneme gibt der Signalprozessor 7 an das Ausgabesystem 4, 5, 6 weiter.

[0022] Handelt es sich bei der von der Mobilfunkeinheit 3 empfangenen Nachricht um ein Telefax, so führt der digitale Signalprozessor 7 in einem ersten Schritt eine Texterkennung durch, um erst anschließend die Sprache des Texts zu überprüfen und die erkannten Schriftzeichen in Phoneme zu wandeln.

Ansprüche

1. Verfahren zum akustischen Ausgeben von Text, bei dem

- ein Text von einem Mikroprozessor (1) auf für eine Sprache charakteristische Wörter oder Abkürzungen untersucht wird, um die Sprache des Texts zu identifizieren, und

- der Text mit einem Algorithmus, der für die identifizierte Sprache geschaffen ist, in Wortsilben umgerechnet wird, um über einen Lautsprecher wiedergegeben zu werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei Identifizierung von Wörtern oder Schriftzeichenkombinationen unterschiedlicher Sprachen diejenige Sprache gewählt wird, die am häufigsten identifiziert wurde.

3. Verfahren nach einem der vorhergehenden Patentansprüche, dadurch gekennzeichnet, daß der Text drahtlos in einem Fahrzeug empfangen und an einen Fahrzeugführer ausgegeben wird.

4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß eine mit einer Mobilfunkeinheit (3) empfangene Telefax-Nachricht in Schriftzeichen aufgelöst und akustisch ausgegeben wird.

5. Sprachausgabesystem für ein E-mail-System, das mit einer Mobilfunkeinheit (3) gekoppelt ist, das aufweist:

- ein Bedienelement, über dessen Betätigung automatisch eine Anwahl in eine Internet-Mailbox des Benutzers und ein Laden der eingegangenen E-mails erfolgt,

- einen Textspeicher (2),

- einen Mikroprozessor (1; 7), mit dem die für einen in dem Textspeicher (2) gespeicherter Text verwendete Sprache aufgrund von für eine Sprache charakteristischen Wörtern oder Abkürzungen identifizierbar ist und mit dem der Text in digitalisierte Phoneme der identifizierten Sprache umwandelbar ist,

- ein Ausgabesystem (4, 5, 6) zur Ausgabe der digitalisierten Phoneme als Sprache.

Zeichnung