[0001] Die vorliegende Erfindung bezieht sich auf ein Verfahren sowie ein System, das beliebige
geschriebene maschinenlesbare Text-Nachrichten, beispielsweise E-Mails oder Fax-Nachrichten,
über ein geeignetes akustisches Wiedergabesystem, beispielsweise über ein Mobiltelephon,
auf Grundlage eines zuvor generierten Stimmenprofils akustisch ausgibt.
[0002] Nach dem Stand der Technik ist es bekannt, in einer Multimedia-Umgebung Inhalte von
E-Mails, Fax-Nachrichten oder sonstigen Texten mittels fest vorgegebener synthetisch
erzeugter Stimmen auszugeben. Um die Kommunikation in einer Multimedia-Umgebung (in
der Literatur wird in diesem Zusammenhang häufig von einem "Unified Message System"
gesprochen) so natürlich wie möglich erscheinen zu lassen, ist es von Interesse, die
entsprechende Text-Nachricht mit der Stimme des jeweiligen Autors auszugeben.
[0003] Aus der DE 198 41 683 A1 ist eine Vorrichtung und ein Verfahren zur digitalen Sprachbearbeitung
bekannt. Die in eine Sprachausgabe umsetzbaren Wörter sind in einer Tabelle (Wörterbuch)
zusammen mit Informationen zu ihrer Aussprache (phonetische Einträge, phonetische
Entsprechungen) verzeichnet. Ein Übersetzer erzeugt aus den phonetischen Einträgen
der einzelnen Worte eine Sprachnachrichten-Datei, die in einem Editor (Editiereinrichtung)
in Form einer Lautschrift angezeigt und bearbeitet werden kann. Zur Bearbeitung werden
Parameter (Modifikatoren) hinzugefügt oder verändert. Die Parameter verschiedener
Sprechertypen (Mann, Frau, Kind etc.) sind in jeweils einem Sprachprofil (Sprechermodell)
zusammengefasst und als Standardmodelle vorgegeben. Durch Anpassung der Parameter
gestaltet (editiert) der Benutzer die "Stimme" der anschließenden synthetischen Sprachausgabe
bis zum gewünschten qualitativen Zustand.
[0004] Bei dem bekannten Verfahren hat sich als nachteilig erwiesen, dass die erzeugte,
natürlichen Stimmen nachempfundene Sprachausgabe meist immer noch künstlich oder fremd
klingt und dem Hörer nicht vertraut ist.
[0005] Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, eine Sprachwiedergabe
von maschinenlesbaren Texten mit synthetisch erzeugten Stimmen so zu erreichen, dass
ein Befremden beim Hören der erzeugten Stimme vermieden wird.
[0006] Diese Aufgabe wird gemäß der Erfindung durch die Merkmale der unabhängigen Ansprüche
gelöst. Die abhängigen Ansprüche bilden den zentralen Gedanken in vorteilhafter Weise
weiter.
[0007] Erfindungsgemäß wird vorgeschlagen, dass zur automatischen Umsetzung von Text-Nachrichten
in Sprach-Nachrichten eines Benutzers Sprachprobedaten des Benutzers analysiert werden
und auf Grundlage dieser Analyse ein Sprachprofil erstellt wird. Auf Grundlage des
erstellten Sprachprofiles können beliebige Text-Nachrichtendaten angenähert, also
gut wiedererkennbar, mit der Stimme des Benutzers auszugeben werden. Insbesondere
ist ein Erkennen des Absenders anhand der Stimme möglich, wenn die Text-Nachrichtendaten
den Stimmen ensprechend zugeordnet werden.
[0008] Das Erstellen des Sprachprofiles kann dabei beispielsweise durch einen Vergleich
eines schriftlichen Referenz-Textes mit einem durch akustische Artikulation eines
Sprechers erzeugten Referenz-Text erfolgen.
[0009] Erfindungsgemäß wird weiterhin ein System zur Umsetzung von Text-Nachrichten in Sprach-Nachrichten
beansprucht. Dieses weist einen Sprachanalysator auf, der auf Grundlage einer Analyse
von Sprachprobedaten ein Sprachprofil für eingegebene Sprachprobedaten erzeugt. Außerdem
enthält dieses System einen Sprachgenerator, der auf Grundlage des Sprachprofils eine
beliebige Text-Nachricht in synthetische Sprachprobedaten umsetzt.
[0010] Weitere Vorteile, Merkmale und Eigenschaften der vorliegenden Erfindung werden im
folgenden anhand eines Ausführungsbeispiels unter Bezugnahme auf die begleitende Zeichnung
näher erläutert.
[0011] Die Figur zeigt schematisch eine Technik zur automatischen Umsetzung von Text-Nachrichten
in Sprach-Nachrichten.
[0012] In der Figur ist schematisch ein Verfahren bzw. ein System zur automatischen Umsetzung
von Text-Nachrichten in Sprach-Nachrichten dargestellt. Ein von einer beliebigen Person
gesprochener Text 1 wird in einem Schritt S1 von einem Analysator 2 analysiert. Dies
geschieht in der Regel dadurch, dass die akustischen Signale analog registriert werden
und durch einen A/D-Wandler in digitale Sprachdateien umgesetzt werden. Mit einer
entsprechenden Software kann in einem Schritt S3 auf Grundlage der erfolgten Analyse
der digitalen Sprachdateien ein Sprachprofil 3 dieser Person erzeugt werden. Dabei
kann der gesprochene Text 1 ein beliebiger Freitext oder ein Referenztext 8 sein,
der in einem Schritt S2 im Rahmen der Analyse mit der schriftlichen Form des Referenztextes
8 verglichen wird.
[0013] Auf Grundlage des Sprachprofils 3 lässt sich im folgenden jede beliebige Text-Nachricht
5 über einen Sprachgenerator 4 in synthetische Sprachnachrichtendaten 6 übersetzen
(Schritt S5 und Schritt S6). Die Textnachricht 5 kann anschließend in einem Schritt
S7 gemäß dem erstellten Sprachprofil 3 akustisch ausgegeben werden.
[0014] So kann anhand einer Sprachprobe 1 eines Sprechers über das dadurch gewonnene Sprachprofil
3 ein Sprachgenerator 4 für eine synthetisch erzeugte Sprache so eingestellt werden,
dass beliebige Texte 5 mit der Stimme dieses Sprechers akustisch ausgegeben werden
können. Durch die dadurch mögliche Sprachausgabe mit einer natürlichen und vor allem
vertrauten Stimme wird ein Befremden beim Hören der ausgegebenen Sprache vermieden.
Natürlich ist es auch denkbar, dass dem Sprachgenerator Sprachproben verschiedener
Personen und damit mehrere Sprachprofile zur Verfügung stehen. Damit ist eine Auswahl
verschiedener Sprecher möglich.
[0015] Dies ist insbesondere innerhalb von Multimediaumgebungen von großem Wert, wenn nämlich
die Verknüpfung von synthetisch erzeugter Sprache zu Dokumenten des Sprechers automatisch
erstellt werden kann. Der Hörer kann den Absender der Nachricht dann anhand der Stimme
erkennen, was einer angenehmen Kommunikation mit modernen technischen Mitteln entspricht.
Dabei ist es zudem äußerst vorteilhaft, dass die Profilgenerierung für die Ausgabe
der Sprache automatisch aus einer beliebigen Sprachprobe innerhalb des Multimediaumfeldes
erfolgen kann.
[0016] Normalerweise werden innerhalb eines einheitlichen Nachrichten-Systems (Unified Message
System) verschiedene Dokumente, wie z.B. Sprachnachrichten (Anrufbeantworter), E-Mails,
Faxnachrichten usw., des gleichen Autors verwaltet. Um beispielsweise E-Mails innerhalb
dieses Systems z.B. auf einem Mobiltelephon auszugeben, wird der E-Mail-Text erfindungsgemäß
in Sprache übersetzt. Vorteilhafterweise kann dabei mit Hilfe einer in demselben System
eingegangenen Sprach-Nachricht 1 des gleichen Autors und des daraus generierten Stimmenprofils
3 die E-Mail-Nachricht mit der Stimme dieses Autors ausgegeben werden. Bei entsprechender
Vorlage einer Sprachprobe anderer Personen, wie z.B. prominenter Personen, wäre auch
eine Wiedergabe der Dokumente mit deren Stimme möglich.
[0017] Im zuvor beschriebenen Beispiel sendet also ein Autor einem Empfänger eine E-Mail-Nachricht.
Als Zieladresse gibt der Autor die Telefonnummer des Empfängers an. Das verwendete
Unified Message System stellt fest, dass als Empfänger kein E-Mail-Anschluß, sondern
ein Fernsprechanschluß ausgewählt wurde und setzt daher den eingegebenen Text in eine
Sprachnachricht um. Dazu wird ein Sprachprofil verwendet, welches zuvor anhand einer
Sprechprobe dieses Autors erstellt worden ist. Damit wird die Stimme der synthetisch
erzeugten Sprachausgabe der natürlichen Stimme des Autors soweit angenähert, dass
der Empfänger die synthetische Stimme als die vertraute Stimme der sendenden Person
erkennt. Das Unified Message System veranlasst nun den Aufbau einer Verbindung zum
Fernsprechanschluß des Empfängers und gibt die Sprachnachricht mit der Stimme des
Autors aus.
1. Verfahren zur automatischen Umsetzung von Text-Nachrichten (5) in Sprach-Nachrichten
(6), mit den folgenden Schritten:
- Erstellen (S3) eines Sprachprofils (3) und
- Umsetzen (4) von eingegebenen Text-Nachrichtendaten (5) in synthetische Sprach-Nachrichtendaten
(6) auf Grundlage des Sprachprofils (3),
dadurch gekennzeichnet,
dass das Sprachprofil (3) nach Analyse (S1 von Sprachprobedaten (1) eines Benutzers auf
Grundlage der vorgenommenen Analyse (S1) erstellt wird, um den Text angenähert mit
der Stimme des Benutzers auszugeben.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass das Erstellen des Sprachprofils (3) auf Grundlage eines Vergleichs (S2) von Referenz-Textdaten
(8) mit Referenz-Sprachprobedaten (1) erfolgt, wobei die Referenz-Sprachprobedaten
(1) durch akustische Wiedergabe der Referenz-Textdaten (8) durch einen Sprecher erzeugt
werden.
3. System zur Umsetzung von Text-Nachrichten (5) in Sprach-Nachrichten (6),
- mit einem Sprachanalysator (2), der auf Grundlage einer Analyse (S1) von Sprachprobedaten
(1) ein Sprachprofil (3) für eingegebene Sprachprobedaten (1) erzeugt, und
- mit einem Sprachgenerator (4), der auf Grundlage des Sprachprofils (3) eine beliebige
Text-Nachricht (5) in synthetische Sprachprobedaten (6) umsetzt.
4. System nach Anspruch 3,
dadurch gekennzeichnet,
dass der Sprachgenerator (4) dazu ausgelegt ist, das Sprachprofil (3) auf Grundlage eines
Vergleichs eines schriftlichen Referenz-Textes (8) mit der von einem Benutzer gesprochenen
Form (1) dieses Referenz-Textes (8) zu erzeugen.
5. System nach Anspruch 3 oder 4,
dadurch gekennzeichnet,
dass in Multimediaumgebungen der Sprachanteil von Sprachnachrichten (1) automatisch analysiert
wird (S1) und zur akustischen Wiedergabe (7) von Textnachrichten (5) verwendet wird.
6. Mobiltelephon, aufweisend ein System nach Anspruch 3, 4 oder 5,
dadurch gekennzeichnet,
dass die Text-Nachrichten (5) Dokumente in einer Multimediaumgebung, beispielsweise E-Mail-Texte,
sind, die auf dem Mobiltelephon in der Sprache gemäß dem zuvor erzeugten Sprachprofil
(3) akustisch ausgegeben werden.