|
(11) | EP 0 865 026 B1 |
| (12) | EUROPÄISCHE PATENTSCHRIFT |
|
|
| (54) |
Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen Method for modifying speech speed Méthode pour la modification du débit de parole |
|
|
|||||||||||||||||||||||||||
| Anmerkung: Innerhalb von neun Monaten nach der Bekanntmachung des Hinweises auf die Erteilung des europäischen Patents kann jedermann beim Europäischen Patentamt gegen das erteilte europäischen Patent Einspruch einlegen. Der Einspruch ist schriftlich einzureichen und zu begründen. Er gilt erst als eingelegt, wenn die Einspruchsgebühr entrichtet worden ist. (Art. 99(1) Europäisches Patentübereinkommen). |
- ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
- ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
- eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt ah den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L-N und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
- aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer definierten Länge L+N entnommen werden,
- diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,
- die gewichteten Segmente jeweils um eine definierte Anzahl von Abtastwerten L versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal für α > 1 verkürzt und für α < 1 verlängert wird,
- nacheinander an den Stetten der Entnahme der Segmente aus dem digitalisierten Sprachsignal das dort entnommene, mit der Fensterfunktion gewichtete Segment mit dem nachfolgend entnommenen, ebenfalls mit der Fensterfunktion gewichteten Segment unter Ähnlichkeitsaspekten verglichen wird, dadurch gekennzeichnet,
- dass zum schnellen Vergleich der Ähnlichkeit der Segmente lediglich der N Werte lange dritte, mit dem fallenden Fensterabschnitt gewichtete Abschnitt des Segmentes mit dem jeweils ersten, mit dem steigenden N Werte langen Fensterabschnitt gewichteten Abschnitt des nachfolgend entnommenen Segmentes verglichen wird,
- dass diese Segmente so zueinander versetzt aufaddiert werden daß die Ähnlichkeit der beiden Segmentalschnitte maximal wird, und
- dass zur Berechnung der Ähnlichkeit, als deren Maß, eine Korrelation verwendet wird.
- ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
- ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
- eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L-N und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
- aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,
- diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,
- die gewichteten Segmente jeweils um eine definierte Anzahl von Abtastwerten L versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal für α > 1 verkürzt und für α < 1 verlängert wird,
- nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, jeweils das dort entnommene Segment mit dem Segment des verlängerten oder verkürzten Sprachsignals, welches dieses entnommene Segment repräsentiert, verglichen wird, dadurch gekennzeichnet,
- dass zum schnellen Vergleich der Abweichung des verlängerten oder verkürzten Sprachsignals vom digitalisierten Sprachsignal lediglich der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird,
- dass die entnommenen Segmente so zueinander versetzt aufaddiert werden, daß die ermittelte Abweichung minimal ist und
- dass als Maß für die Abweichung der relative Fehler oder der absolute quadratische Fehler herangezogen wird.
- an analog voice signal is digitized, thereby producing a digitized voice signal that is stored in a memory,
- a factor α is defined by which the voice signal is lengthened or shortened,
- a window function having a first, rising section of length N, a second, constant section of length L+N directly adjoining the first section and a third, falling section directly adjoining the second section is defined, wherein, if the first, rising section of a window overlaps the third, falling section of another window and the two sections are added in the overlap region, the result amounts to one, which corresponds to the value of the second section of the window function,
- segments of a defined length L+N are extracted from the digitized, stored voice signal at irregular intervals of mean length αL,
- said segments extracted from the digitized, stored voice signal are weighted with the window function in the time domain,
- the weighted segments, each offset by a defined number of sample values L, are added, which shortens the voice signal thus produced for α > 1 and lengthens it for α < 1,
- the segment extracted successively at the points of extraction of the segments from the digitized voice signal is compared there with the subsequently extracted segment, likewise weighted with the window function, for similarity,
characterized- in that, for the purpose of rapidly comparing the similarity of the segments, only the N-value-long, third section, weighted with the falling window section, of the segment is compared with each first section, weighted with the rising N-value-long window section, of the subsequently extracted segment,
- in that said segments, are added in an offset manner with respect to one another in such a way that the similarity of the two segment sections becomes maximal,
- in that, to calculate the similarity, a correlation is used as a measure thereof.
- an analog voice signal is digitized, thereby producing a digitized voice signal that is stored in a memory,
- a factor α is defined by which the voice signal is lengthened or shortened,
- a window function having a first, rising section of length N, a second, constant section of length L+N directly adjoining the first section and a third, falling section directly adjoining the second section is defined, wherein, if the first, rising section of a window overlaps the third, falling section of another window and the two sections are added in the overlap region, the result amounts to one, which corresponds to the value of the second section of the window function,
- segments of a length L+N are extracted from the digitized, stored voice signal at irregular intervals of mean length αL,
- said segments extracted from the digitized, stored voice signal are weighted with the window function in the time domain,
- the weighted segments, each offset by a defined number of sample values L, are added, which shortens the voice signal thus produced for α > 1 and lengthens it for α < 1,
- the segment extracted successively at the points of extraction of the segments from the digitized voice signal is compared there in each case with the segment of the lengthened or shortened voice signal that represents said extracted segment,
characterized- in that, for the purpose of rapidly comparing the deviation of the lengthened or shortened voice signal from the digitized voice signal, only the N-value-long, third section of the segment extracted last is used as reference,
- in that the segments extracted are added in an offset manner to one another in such a way that the deviation determined is a minimum, and
- the relative error or the absolute square error is used as a measure of the deviation.
- un signal vocal analogique est numérisé, ce qui fait apparaître un signal vocal numérisé qui est mémorisé dans une mémoire,
- un facteur α est défini, facteur avec lequel le signal vocal est allongé ou raccourci,
- une fonction fenêtre comportant une première section montante de longueur N, une seconde section constante de longueur L-N, qui se raccorde directement à la première section, une troisième section' retombante, qui se raccorde à la seconde section, est définie, auquel cas lors d'une superposition de la première section montante d'une fenêtre avec la troisième section retombante d'une autre fenêtre et lors d'une addition des deux sections dans la zone de chevauchement, on obtient le résultat un, qui correspond à la valeur de la seconde section de la fonction fenêtre,
- αL segments ayant une longueur définie L+N sont prélevés du signal vocal numérisé et mémorisé, à des intervalles irréguliers ayant une longueur moyenne,
- ces segments prélevés du signal numérisé et mémorisé sont pondérés avec la fonction fenêtre dans le domaine temporel,
- les segments pondérés sont additionnés en étant décalés respectivement d'un nombre défini de valeurs d'échantillonnage L, ce qui a pour effet que le signal vocal ainsi obtenu est raccourci pour α > 1 et est allongé pour α < 1,
- le segment prélevé dans le signal vocal numérisé, et pondéré avec la fonction fenêtre est comparé, et ce successivement aux emplacements du prélèvement des segments à partir du signal vocal numérisé, au segment prélevé ensuite, également pondéré avec la fonction fenêtre, selon des aspects de similitude,
caractérisé en ce- que pour la comparaison rapide de la similitude des segments, seule la troisième section du segment, qui possède une longueur de N valeurs et est pondérée par la section fenêtre retombante du segment est comparée à la section montante d'une longueur de N valeurs, qui est pondérée par la section fenêtre, du segment prélevé ensuite,
- que ces segments sont additionnés en étant décalés les uns par rapport aux autres de telle sorte que la similitude des sections de segments devienne maximale, et
- que pour le calcul de la similitude, on utilise une corrélation en tant que mesure de cette similitude.
- la similitude des deux sections comparées de segment devient maximale lorsqu'on rend maximum le degré de similitude par rapport au décalage réciproque des segments.
- un facteur α est défini, facteur avec lequel le signal vocal est allongé ou raccourci,
- une fonction fenêtre comportant une première section montante de longueur N, une seconde section constante de longueur L-N, qui se raccorde directement à la première section, et une troisième section retombante, qui se raccorde à la seconde section, est définie, auquel cas lors d'une superposition de la première section montante d'une fenêtre avec la troisième section retombante d'une autre fenêtre et lors d'une addition des deux sections dans la zone de chevauchement, on obtient le résultat un, qui correspond à la valeur de la seconde section de la fonction fenêtre,
- αL segments ayant une longueur définie L+N sont prélevés du signal vocal numérisé et mémorisé, à des intervalles irréguliers ayant une longueur moyenne,
- ces segments prélevés du signal numérisé et mémorisé sont pondérés avec la fonction fenêtre dans le domaine temporel,
- les segments pondérés sont additionnés en étant décalés respectivement d'un nombre défini de valeurs d'échantillonnage L, ce qui a pour effet que le signal vocal ainsi obtenu est raccourci pour α > 1 et est allongé pour α < 1,
- le segment prélevé dans le signal vocal numérisé, et pondéré avec la fonction fenêtre est comparé, et ce successivement aux emplacements de prélèvement des segments à partir du signal vocal numérisé, au segment du signal vocal allongé ou raccourci, qui représente ce segment prélevé,
caractérisé en ce- que pour la comparaison rapide de l'écart entre le signal vocal allongé ou le signal vocal raccourci par rapport au signal vocal numérisé, on utilise comme référence uniquement la troisième section, d'une grandeur de N valeurs, du signal prélevé en dernier,
- qu'on additionne les segments prélevés d'une manière décalée entre eux de telle sorte que l'écart déterminé est minimum, et
- qu'on utilise comme mesure de l'écart l'erreur relative ou l'erreur quadratique absolue.