[0001] La présente invention concerne un dispositif et un procédé d'aide vocale pour des
personnes ayant subi une ablation du larynx.
[0002] La laryngectomie, opération souvent pratiquée en cas de cancer du larynx, prive le
patient de sa faculté de parler. En effet, l'enlèvement partiel ou total des cordes
vocales empêche la génération d'une excitation harmonique nécessaire pour la production
de voyelles ou de consonnes voisées.
[0003] Traditionnellement, une rééducation longue et pénible est nécessaire pour permettre
au patient de remplacer la source d'excitation manquante, c'est-à-dire le larynx.
Dans ce cas, il doit apprendre à emmagasiner de l'air dans l'oesophage, puis à le
libérer. L'oesophage et le pharynx produisent ainsi une vibration basse fréquence
remplaçant celle du larynx. L'élocution oesophagienne obtenue se caractérise toutefois
par une faible intensité, une médiocre stabilité en fréquence et une fréquence fondamentale
anormalement basse comparée à celle de l'élocution laryngienne. En outre, les difficultés
d'apprentissage sont importantes, et les efforts pour parler, considérables.
[0004] Une solution à ces problèmes est le recours à un larynx artificiel. Une source d'excitation
synthétique est alors créée par un dispositif inséré dans l'oesophage du patient ou
porté sur la gorge. L'utilisation de ce type de larynx artificiel réduit, certes,
l'effort à fournir et la durée d'apprentissage, mais elle résulte en une voix artificielle
où toutes les caractéristiques de la voix humaine ont été éliminées, rendant impossible
l'expression des divers sentiments et émotions. Une telle excitation électronique
n'est donc pas idéale.
[0005] La présente invention pallie cet inconvénient, en proposant un dispositif portable
et un procédé de traitement de l'élocution altérée, permettant, d'une part, le rétablissement
d'une voix perçue comme naturelle et, d'autre part, la diminution des efforts pour
la générer. L'invention permet, par ailleurs, d'éviter toute intervention chirurgicale
supplémentaire, et propose un dispositif compact, portable, permettant son utilisation
en toutes circonstances.
[0006] La publication de
D. Rentzos et Al. « Transformation of speaker characteristics for voice conversion
», Automatic speech recognition and understanding, 2003. ASRU '03. 2003 IEEE Workshop
on St. Thomas, VI, USA, Nov. 30-Dec. 3, 2003, divulgue, certes, un procédé de restauration d'une élocution altérée, qui consiste
à extraire l'excitation originale et les paramètres de l'articulation, à restaurer
l'excitation originale à partir d'éléments issus de l'élocution altérée et d'éléments
issus d'une élocution saine, puis à reconstruire l'élocution à partir des paramètres
de l'articulation et de l'excitation originale restaurée. Il faut noter cependant
que cette publication décrit essentiellement un procédé et ne suggère pas sa mise
en oeuvre dans un dispositif portable de restauration d'une élocution altérée.
[0007] Certes, la publication de K. Matsui et Al. « Enhancement of esophageal speech using
formant synthesis » propose un dispositif de restauration de l'élocution, mais il
ne suggère, d'aucune manière, le recours aux éléments issus de l'élocution altérée
et d'une élocution saine qui permettent une restauration optimale.
[0008] La présente invention concerne un tel dispositif, qui comprend :
- un système d'acquisition de l'élocution altérée produisant un signal électrique qui
la représente, ledit signal, qui provient d'un microphone, étant sensiblement périodique
et possédant un motif de base,
- un processeur de ce signal, programmé pour effectuer l'extraction et la séparation
de l'excitation originale et des paramètres de l'articulation, la restauration de
l'excitation originale à partir d'éléments issus de ladite élocution altérée, comportant
l'amplitude moyenne instantanée et la fréquence fondamentale moyenne instantanée,
et d'éléments issus d'une élocution saine, comportant la variabilité en fréquence,
la forme du motif et sa variabilité, et la reconstruction de l'élocution à partir
desdits paramètres de l'articulation et de ladite excitation originale restaurée,
afin de produire un signal représentatif de l'élocution reconstruite, et
- un système de haut-parleur transformant le signal délivré par ledit processeur en
signal acoustique.
[0009] De façon avantageuse le processeur est, en outre, programmé pour estimer la probabilité
d'un son voisé, en parallèle avec l'extraction de l'excitation et des paramètres de
l'articulation et la restauration de l'excitation originale, et pour mélanger l'excitation
originale restaurée et l'excitation originale à partir de la probabilité d'un son
voisé.
[0010] La présente invention concerne également un procédé de restauration d'une élocution
altérée par traitement d'un signal électrique, provenant d'un microphone, représentatif
de ladite élocution, ledit signal étant sensiblement périodique et possédant un motif
de base. Ce procédé comporte les principales étapes suivantes:
- extraction et séparation de l'excitation originale et des paramètres de l'articulation,
- restauration de l'excitation originale à partir d'éléments issus de l'élocution altérée,
comportant la fréquence fondamentale moyenne instantanée et l'amplitude moyenne instantanée,
et d'éléments issus d'une élocution saine, comportant la variabilité en fréquence,
la forme du motif et sa variabilité, et
- reconstruction de l'élocution à partir desdits paramètres de l'articulation et de
ladite excitation originale restaurée afin de produire un signal acoustique représentatif
de l'élocution reconstruite.
[0011] D'autres caractéristiques de l'invention apparaîtront plus clairement à la lecture
de la description qui suit, faite en référence aux dessins annexés, dans lesquels
:
- la figure 1 illustre un modèle de production de la parole,
- la figure 2 illustre schématiquement les étapes du procédé de restauration de l'élocution
selon l'invention,
- la figure 3 détaille une étape clé de ce procédé, et
- la figure 4 représente schématiquement un mode de réalisation du système d'aide vocale
selon l'invention.
[0012] La présente invention repose sur la supposition que le sujet est, de préférence,
déjà capable, après avoir effectué l'entraînement nécessaire, de produire, par modulation
du flux d'air émis, une élocution altérée, par exemple de type oesophagienne, exprimant
le message qu'il souhaite transmettre. Les sons qu'il émet sont captés par un microphone
extérieur dont les signaux de sortie sont traités par un circuit de traitement chargé
de restaurer la voix originale, émise alors, par exemple, par un haut-parleur. Il
convient de noter qu'il existe d'autres types d'élocution altérée que l'élocution
oesophagienne. On peut mentionner, à titre d'exemple, l'élocution trachéoesophagienne,
l'élocution supraglottale, etc. Dans la suite de la description, la désignation d'élocution
oesophagienne sera supposée désigner tout autre type d'altération de l'élocution résultant
de l'ablation total ou partielle du larynx.
[0013] Le principe, selon l'invention, de restauration de l'élocution oesophagienne repose
sur un modèle connu de production de la parole, schématisé sur la figure 1 et décrit
en détail dans l'article de
G. Fant (Q. Prog. Status Rep. Speech Transmiss. Lab.1, 21-37). Selon ce modèle, la génération d'un son est décomposée en deux blocs distincts.
Ceux-ci sont constitués, d'une part, de l'excitation 1 générée par la source, les
poumons et le larynx chez le sujet sain, ou l'oesophage et le pharynx chez le sujet
laryngectomisé, et, d'autre part, de l'articulation 2 réalisée par l'appareil vocal
constitué de la glotte, l'épiglotte, le pharynx, la bouche et le nez.
[0014] Chez un sujet sain, l'excitation 1 est de deux types, en fonction de la configuration
du larynx.
[0015] En configuration ouverte, l'air génère des turbulences dans les cavités vocales,
sans faire vibrer les cordes vocales. L'excitation produite s'apparente à un signal
bruité 3 et est utilisée pour générer des consonnes non voisées (p, t, s, etc...).
[0016] En configuration tendue, les vibrations du larynx excitent les cordes vocales qui
produisent une onde acoustique harmonique, appelée encore onde glottale 4, dont le
motif et la fréquence fondamentale moyenne, située entre 100 et 250Hz, sont caractéristiques
de chaque individu. Cette excitation permet de produire les voyelles et consonnes
voisées (b, d, z, etc...).
[0017] Chez un sujet sain, l'excitation 1 se présente donc sous la forme d'une suite de
signaux harmoniques 4 alternant ou se mêlant avec des signaux bruités 3. En outre,
l'expression des émotions, du stress et de divers sentiments, se traduit par de subtiles
modulations de la fréquence fondamentale et de l'amplitude du signal harmonique 4
émis.
[0018] Chez un sujet ayant subi une laryngectomie, le premier type d'excitation, produit
par des turbulences d'air dans les cavités vocales, n'est pas affecté. L'élocution
de consonnes non voisées, à l'aide d'un signal bruité 3, est, par conséquent, satisfaisante.
[0019] Il en va tout autrement de l'élocution des voyelles et consonnes voisées. En effet,
l'excitation par le larynx en configuration tendue est remplacée par un enchaînement
d'éructations générées par l'oesophage. L'onde acoustique produite présente une fréquence
fondamentale particulièrement instable, déplacée vers les valeurs basses, puisqu'elle
se situe autour de 70Hz, et dont le motif est déformé. La production de voyelles et
consonnes voisées en est fortement perturbée.
[0020] Il en résulte que l'excitation, chez un sujet sans larynx, se présente sous la forme
d'une suite de signaux quasi-harmoniques alternant ou se mêlant avec des signaux bruités.
[0021] Par ailleurs, l'appareil vocal d'une personne ayant subi une ablation du larynx étant
fonctionnel, l'articulation 2, qui constitue le deuxième bloc de la génération de
la parole, est faiblement altérée. On notera également que l'élocution altérée, par
exemple de type oesophagienne, bien que déficiente au niveau de la production d'une
onde acoustique harmonique, est capable de réaliser les subtiles modulations de fréquence
et d'amplitude caractéristiques de la voix humaine.
[0022] Il s'ensuit que la restauration de l'élocution altérée de type oesophagienne requiert
principalement la restauration de l'excitation durant les alternances voisées de la
parole, c'est à dire la restauration de l'onde glottale 4, les alternances non voisées
et l'articulation n'étant relativement pas affectées par l'ablation du larynx.
[0023] On se référera maintenant à la figure 2 qui illustre le procédé de reconstruction
de la voix selon l'invention, basé sur le modèle exposé ci-dessus. Il comprend diverses
étapes de traitement du signal délivré par le microphone, qui sont menées en parallèle
ou en série, et permettent de passer de la voix oesophagienne, à une voix de type
laryngienne exprimée par le haut-parleur.
[0024] Le signal entrant est un signal électrique numérisé représentant la voix oesophagienne.
Dans un premier bloc 10, ce signal original subit un traitement de rehaussement du
signal (voir en particulier le brevet européen
EP 1'253'581 de la demanderesse intitulé "Method and System for Enhancing Speech in a Noisy Environnement"),
puis le signal obtenu est dirigé en parallèle vers un bloc d'estimation de la probabilité
d'un son voisé 12 et une série de trois blocs 14, 16 et 18 visant à reconstituer les
deux types d'excitations selon le modèle d'élocution décrit en regard de la figure
1.
[0025] Comme exposé plus haut, un son d'origine laryngienne est de type voisé ou non voisé
ou un mélange des deux. Dans le cas de l'élocution oesophagienne, il est parfois difficile
de distinguer clairement entre les deux types de sons. C'est pourquoi, le bloc 12
réalise une estimation de la probabilité d'un son voisé, à l'aide de modules de classification
automatique connus de l'homme de métier et tels que décrits dans l'article de
J.M. Solà et al ("Environmental Robust Features for Speech Detection", Proc. INTERSPEECH-ICSLP'04,
Jeju Island, Korea, October 2004). Cette estimation, sous la forme d'un nombre compris entre zéro et un, est ensuite
dirigée vers un bloc 20 destiné à effectuer un mélange entre excitation harmonique
et excitation bruitée, comme explicité ultérieurement.
[0026] Parallèlement à l'étape décrite précédemment, les blocs en série 14 et 16, d'une
part, et 14, 16 et 18, d'autre part, visent à produire une excitation respectivement
originale et harmonique.
[0027] Les blocs 14 et 16, communs aux deux chemins, réalisent respectivement la décomposition
en sous-bandes et l'identification des paramètres de l'articulation, opérations connues
de l'homme de métier.
[0028] La décomposition en sous-bandes consiste en un découpage en bandes du spectre en
fréquences obtenu par transformée de Fourrier du signal, et un rééquilibrage de ce
spectre par l'augmentation en amplitude des bandes les moins bruitées par rapport
aux autres. Cette opération, bien qu'efficace pour filtrer le signal, est facultative.
[0029] L'identification des paramètres de l'articulation, par contre, est une étape cruciale
visant à séparer, au sein du signal entrant, l'excitation des paramètres de l'articulation.
Une description de la méthode utilisée est donnée dans un article de
Yingyong Qi (J. Acoust. Soc. Am. 88 (3), September 1990). En sortie du bloc 16, on trouve donc, d'une part, l'excitation originale sous forme
d'un signal amplitude en fonction du temps et, d'autre part, les paramètres de l'articulation
sous forme d'un vecteur.
[0030] L'excitation originale est ensuite dirigée, d'une part, vers le bloc de restauration
de l'onde glottale 18 et, d'autre part, vers le bloc 20 de mélange des deux excitations.
[0031] Le bloc 18, qui constitue le coeur de l'invention, est dissocié en différents blocs
représentés en figure 3 et fait l'objet d'une description complète ultérieure. Son
rôle est de restaurer l'excitation harmonique fortement altérée chez le sujet ayant
subi une laryngectomie. Une fois cette restauration réalisée, le signal est dirigé
vers le bloc de mélange flou 20.
[0032] Dans le bloc 20, les excitations harmonique restaurée et originale inchangée sont
mélangées dans des proportions fixées par l'estimation de probabilité d'un son voisé.
Si l'excitation est estimée purement bruitée, seule l'excitation originale sera conservée
en sortie du bloc 20. En revanche, si l'excitation est estimée purement harmonique,
seule l'excitation harmonique restaurée sera conservée en sortie du bloc 20. Dans
les cas intermédiaires, le bloc 20 effectuera un mélange entre excitation harmonique
restaurée et excitation originale inchangée, le dernier signal n'étant pas un signal
purement bruité mais une superposition des signaux bruités et quasi-harmoniques. En
sortie du bloc 20, l'excitation restaurée est de type laryngienne.
[0034] Les paramètres de l'articulation ainsi restaurés et l'excitation reconstituée sont
dirigés vers un bloc 24 qui procède à une convolution de l'excitation par les paramètres
de l'articulation afin de reconstituer la parole.
[0035] Enfin, une dernière correction est apportée par un bloc 26 qui effectue un redressement
du signal afin de corriger une décroissance de la puissance observée sur les voyelles
longues.
[0036] Ainsi est proposé un procédé de reconstitution de la parole pour un sujet laryngectomisé.
On notera que cet algorithme peut être également utile à d'autres sujets, présentant
des pathologies différentes, mais ayant des difficultés à émettre un son voisé.
[0037] On se référera maintenant à la figure 3 qui illustre en détail les opérations de
restauration de l'excitation harmonique, réalisées par le bloc 18 et constituant le
coeur de la présente invention.
[0038] Le bloc 18 est constitué de 4 sous-blocs 18a, 18b, 18c et 18d assurant les différentes
fonctions nécessaires à la restauration de l'excitation harmonique. Comme déjà exposé,
l'excitation harmonique se présente sous la forme d'un signal sensiblement périodique
possédant un motif de base, dont la forme dépend uniquement de la physiologie de la
source d'excitation, et une fréquence fondamentale moyenne, caractéristiques d'un
individu. Chez un sujet larynctomisé, la restauration du signal glottal consiste principalement
en une restauration du motif de base, fortement déformé, un décalage vers le haut
et une stabilisation de la fréquence fondamentale moyenne. Toutefois, ces trois opérations,
à elles seules, ne suffisent pas à restituer une voix devant être perçue comme humaine.
En effet, chez un sujet sain, le caractère humain de la voix, par opposition à une
voix robotisée, est donné par ses imperfections et par l'émotion qu'elle véhicule.
Au niveau du signal acoustique, les particularités de la voix humaine se traduisent
par plusieurs éléments.
- Premièrement, la variabilité de la fréquence fondamentale moyenne, c'est-à-dire les
très faibles variations du laps de temps entre deux motifs de base consécutifs. Un
écart constant entre deux motifs de base résulte en une voix robotisée.
- Deuxièmement, la variabilité du motif, c'est-à-dire les très faibles variations de
forme et d'amplitude du motif de base au cours du temps. Comme précédemment, la reproduction
à l'identique d'un motif de base conduit à une voix robotisée.
- Troisièmement, la modulation en amplitude et en fréquence du signal harmonique, qui
introduisent de l'émotion dans la voix. On notera que la modulation en fréquence et
en amplitude n'est pas la variabilité de ces grandeurs, mais est une variation, plus
lente dans le temps et contrôlée, de la fréquence fondamentale moyenne et de l'amplitude
moyenne.
[0039] Les trois éléments énumérés ci-dessus doivent se retrouver sur l'excitation harmonique
restaurée afin de donner l'illusion d'une voix humaine. Les opérations de restauration
de l'excitation harmonique selon l'invention visent donc à restaurer le motif de base,
tout en introduisant une variabilité, restaurer la fréquence fondamentale moyenne,
en introduisant également une variabilité, et moduler le signal obtenu en amplitude
et en fréquence.
[0040] Une première opération, réalisée par le bloc d'identification des paramètres harmoniques
18a, consiste donc à estimer et extraire du signal entrant la fréquence fondamentale
moyenne et la puissance moyenne instantanées, calculées sur un intervalle de temps
donné, par exemple 20ms. Cette opération est plus complexe que chez un sujet sain,
en raison de la déformation de l'onde quasi-harmonique. Une méthode, basée sur l'histogramme
des enveloppes supérieures et inférieures détectées, est utilisée pour déterminer,
à intervalle régulier, par exemple toutes les 8ms, cette fréquence fondamentale moyenne
instantanée. Pour plus de précisions sur la méthode utilisée, on se référera à l'article
de
V. Parsa et al. (Journal of Speech, Langauge and Hearing Research, Vol42, 112-126,
February 1999).
[0041] Puis, le bloc 18b procède à la correction de ces paramètres harmoniques selon le
processus suivant:
- La puissance moyenne instantanée est conservée sans être modifiée puisque le sujet
ayant subi une ablation du larynx est capable d'effectuer des modulations en amplitude
exprimant ses émotions.
- Puis, un décalage de la fréquence fondamentale moyenne instantanée vers les valeurs
hautes est réalisé afin de la ramener dans la fourchette standard.
- Enfin, une variabilité issue d'une voix saine est introduite au niveau de cette même
fréquence.
[0042] Pour ce faire, une table de référence a été constituée au préalable à partir d'une
voix saine, de préférence celle du sujet avant son opération. Cette table, figurée
par le bloc 18c, contient un grand nombre de motifs de base enregistrés au cours de
la parole et présentant une variabilité caractéristique de la voix humaine. Elle contient
aussi des statistiques sur la variabilité de la fréquence fondamentale moyenne, également
caractéristique de la voix humaine enregistrée, et calculées à partir de l'enregistrement.
Le bloc 18b est ainsi connecté au bloc 18c de façon à recevoir les informations sur
la variabilité en fréquence fondamentale telles que contenues dans la table de référence.
Le signal issu du bloc 18b contient donc toutes les données nécessaires pour reconstituer
un signal harmonique modulé en amplitude, dont la fréquence fondamentale moyenne instantanée
et la variabilité en fréquence fondamentale correspondent à celles d'un sujet sain.
A ce stade de la restauration, par contre, le motif de base du signal est encore caractéristique
d'une élocution oesophagienne.
[0043] Les signaux issus des blocs 18b et 18c sont alors dirigés vers le bloc 18d de reconstruction
de l'onde glottale. Là, une onde glottale possédant toutes les caractéristiques de
l'onde glottale humaine est reconstituée à partir des motifs de base sains et des
paramètres de l'onde harmonique, corrigés ou non, au niveau du bloc 18b. La perception
de l'excitation émise à l'issu du bloc 18d est celle d'une voix humaine, où les émotions
sont exprimées grâce à la modulation en amplitude et en fréquence, réalisée par le
sujet larynctomisé.
[0044] Ainsi est proposé un algorithme particulièrement efficace de reconstruction d'une
onde glottale humaine expressive.
[0045] L'invention porte également sur le dispositif d'aide vocale permettant la mise en
oeuvre du procédé décrit précédemment. Ce système, représenté schématiquement en figure
4, comporte essentiellement un dispositif d'acquisition de la voix 30, tel qu'un microphone,
destiné à capter le signal acoustique oesophagien émis par le patient et le transformer
en un signal électrique. Ce microphone est relié à un premier module d'amplification
32 chargé de régler l'échelle dynamique et lui-même connecté en sortie à un module
A/D 34 de conversion du signal analogique en signal digital.
[0046] En sortie du convertisseur 34, le signal est appliqué à un processeur de signal digital
DSP 36 (de l'anglais Digital Signal Processing) qui effectue les différentes opérations
de restauration de la voix décrites précédemment.
[0047] Les signaux digitaux issus du processeur 36 sont reçus par un module D/A 38 de transformation
du signal digital en signal analogique, lui même relié à un deuxième module d'amplification
40. En sortie de ce dernier, un haut-parleur 42 transforme le signal électrique en
signal acoustique. Il convient de noter que tout type d'appareil de restitution du
son est également applicable. En particulier, le signal peut être traité par un appareil
téléphonique adapté.
[0048] Le microphone 30 peut être de type portable, pour une utilisation quotidienne, ou
fixe, par exemple pour un discours en public. Les modules 32 à 40 sont, par exemple,
intégrés dans un seul et même boîtier, portable ou non, et le haut-parleur 42 peut
être fixé aux épaules du patient ou en toute autre position stratégique.
[0049] L'utilisation d'un haut-parleur 42 en association avec un processeur de signal digital
36 permet, en outre, la compensation du signal acoustique émis par le sujet. Cette
possibilité peut s'avérer très utile pour une discussion en petit comité, dans laquelle
la voix du laryngectomisé se superpose à la voix corrigée par le dispositif. Un module
actif d'annulation de la première voix, faisant partie du processeur de signal digital,
permet alors d'éliminer la gêne causée par cette superposition, et accroît le confort
des auditeurs comme de l'orateur.
1. Dispositif portable de restauration d'une élocution altérée,
caractérisé en ce qu'il comprend :
- un système d'acquisition de cette élocution altérée (30) produisant un signal électrique
qui la représente, ledit signal, qui provient d'un microphone,
- un processeur (36) de ce signal, programmé pour effectuer l'extraction et la séparation
de l'excitation originale et des paramètres de l'articulation, la dite excitation
originale étant sensiblement périodique et possédant un motif de base, la restauration
de l'excitation originale à partir de paramètres issus de ladite élocution altérée,
comportant la puissance moyenne instantanée et la fréquence fondamentale moyenne instantanée
de l'excitation originale, et d'éléments prédéterminés issus d'une élocution saine,
comportant des informations sur la variabilité en fréquence fondamentale, la forme
du motif et sa variabilité, et la reconstruction de l'élocution à partir desdits paramètres
de l'articulation et de ladite excitation originale restaurée, afin de produire un
signal représentatif de l'élocution reconstruite, et
- un système de haut-parleur (42) transformant le signal délivré par ledit processeur
en signal acoustique.
2. Dispositif selon la revendication 1, caractérisé en ce que ledit processeur (36) est, en outre, programmé pour estimer la probabilité d'un son
voisé, en parallèle avec l'extraction de l'excitation et des paramètres de l'articulation
et la restauration de l'excitation originale, et pour mélanger l'excitation originale
restaurée et l'excitation originale à partir de ladite probabilité d'un son voisé.
3. Dispositif selon l'une des revendications 1 et 2,
caractérisé en ce que, pour réaliser la restauration de l'excitation originale, ledit processeur (36) est
programmé pour :
- calculer la puissance moyenne instantanée et la fréquence fondamentale moyenne instantanée
de l'excitation originale,
- décaler la fréquence fondamentale moyenne instantanée et introduire une variabilité
en fréquence fondamentale issue d'une élocution saine, et
- reconstruire une excitation harmonique présentant le motif issu d'une élocution
saine et sa variabilité caractéristique, la puissance moyenne instantanée calculée,
la fréquence fondamentale moyenne instantanée décalée et la variabilité de fréquence
fondamentale issue d'une élocution saine.
4. Dispositif selon l'une des revendications 1 à 3,
caractérisé en ce qu'il comprend, en outre :
- un premier module d'amplification (32) en sortie du système d'acquisition de la
parole (30),
- un module de transformation du signal analogique en signal digital (34) entre le
premier module d'amplification (32) et le processeur de signal (36),
- un module de transformation du signal digital en signal analogique (38) en sortie
du processeur de signal (36), et
- un deuxième module d'amplification (40) entre le module de transformation du signal
digital en signal analogique (38) et le système de haut-parleur (42).
5. Dispositif selon l'une des revendications 1 à 4, caractérisé en ce qu'il comporte, en outre, un module de compensation de l'élocution altérée.
6. Procédé de restauration d'une élocution altérée par traitement d'un signal électrique,
provenant d'un microphone, représentatif de ladite élocution,
caractérisé en ce qu'il comporte les principales étapes suivantes:
- extraction et séparation (16) de l'excitation originale et des paramètres de l'articulation,
la dite excitation originale étant sensiblement périodique et possédant un motif de
base
- restauration (18) de l'excitation originale à partir de paramètres issus de ladite
élocution altérée, comportant la fréquence fondamentale moyenne instantanée et la
puissance moyenne instantanée de l'excitation originale, et d'éléments prédéterminés
issus d'une élocution saine, comportant des informations sur la variabilité en fréquence
fondamentale, la forme du motif et sa variabilité, et
- reconstruction de l'élocution (24) à partir desdits paramètres de l'articulation
et de ladite excitation originale restaurée afin de produire un signal acoustique
représentatif de l'élocution reconstruite.
7. Procédé selon la revendication 6,
caractérisé en ce qu'il comporte, en outre :
- une étape d'estimation de la probabilité d'un son voisé (12), effectuée en parallèle
avec les étapes d'extraction de l'excitation et des paramètres de l'articulation (16),
et de restauration de l'excitation originale (18), et
- une étape de mélange de l'excitation originale restaurée et de l'excitation originale
(20) à partir de ladite probabilité d'un son voisé.
8. Procédé selon l'une des revendications 6 et 7,
caractérisé en ce que l'étape de restauration de l'excitation originale comprend les opérations suivantes
:
- calcul de la puissance moyenne instantanée et de la fréquence fondamentale moyenne
instantanée de l'excitation originale (18a),
- décalage de la fréquence fondamentale moyenne instantanée et introduction d'une
variabilité en fréquence fondamentale issue d'une élocution saine (18c), et
- reconstruction d'une excitation harmonique (18d) présentant le motif issu d'une
élocution saine et sa variabilité caractéristique, la puissance moyenne instantanée
calculée, la fréquence fondamentale moyenne instantanée décalée et la variabilité
de fréquence fondamentale issue d'une élocution saine.
1. A portable device for restoring impaired diction,
characterized in that it comprises:
- a system for acquiring such impaired diction (30) producing an electric signal representing
the latter, said signal resulting from a microphone,
- a processor (36) for said signal, programmed for performing the extraction and separation
of the original excitation and parameters of articulation, said original excitation
being substantially periodic and having a base pattern, the restoration of the original
excitation from parameters resulting from said impaired diction, comprising the instantaneous
mean power and the instantaneous mean fundamental frequency of the original excitation,
and from predetermined elements resulting from sound diction comprising information
on variability in fundamental frequency, the shape of the pattern and the variability
thereof, and the reconstruction of diction from said parameters of articulation and
said restored original excitation, in order to produce a signal representing reconstructed
diction, and
- a loudspeaker system (42) transforming the signal delivered by said processor into
an acoustic signal.
2. The device according to claim 1, characterized in that said processor (36) is further programmed for estimating the probability of a voiced
sound, in parallel with the extraction of the excitation and the parameters of articulation
and the restoration of the original excitation, and for mixing the original restored
excitation and the original excitation from said probability of a voiced sound.
3. The device according to any of claims 1 and 2,
characterized in that, for carrying out the restoration of the original excitation, said processor (36)
is programmed to:
- calculate the instantaneous mean power and the instantaneous mean fundamental frequency
of the original excitation,
- shift the instantaneous mean fundamental frequency and introduce a variability in
fundamental frequency resulting from sound diction, and
- reconstruct a harmonic excitation having the pattern resulting from sound diction
and the characteristic variability thereof, the calculated instantaneous mean power,
the shifted instantaneous mean fundamental frequency, and the variability in fundamental
frequency resulting from sound diction.
4. The device according to any of claims 1 to 3,
characterized in that it further comprises:
- a first gain module (32) at the output of the speech acquisition system (30),
- a module for transforming the analog signal into a digital signal (34) between the
first gain module (32) and the signal processor (36),
- a module for transforming the digital signal into an analog signal (38) at the output
of the signal processor (36), and
- a second gain module (40) between the module for transforming the digital signal
into an analog signal (38) and the loudspeaker system (42).
5. The device according to any of claims 1 to 4, characterized in further comprising a module for compensating impaired diction.
6. A method for restoring impaired diction by processing an electric signal, resulting
from a microphone, representing said diction,
characterized in that it comprises the following main steps:
- extracting and separating (16) the original excitation and parameters of articulation,
said original excitation being substantially periodical and having a base pattern,
- restoring (18) the original excitation from parameters resulting from said impaired
diction, comprising the instantaneous mean fundamental frequency and the instantaneous
mean power of the original excitation, and from predetermined elements resulting from
sound diction, comprising information on the variability in fundamental frequency,
the shape of the pattern, and variability thereof, and
- reconstructing diction (24) from said parameters of articulation and said restored
original excitation in order to produce an acoustic signal representing reconstructed
diction.
7. The method according to claim 6,
characterized in that it further comprises:
- a step of estimating the probability of a voiced sound (12) performed in parallel
with the steps of extracting the excitation and parameters of articulation (16), and
restoring the original excitation (18), and
- a step of mixing the restored original excitation and the original excitation (20)
from the probability of a voiced sound.
8. The method according to any of claims 6 and 7,
characterized in that the step of restoring the original excitation comprises the following operations:
- calculating the instantaneous mean power and the instantaneous mean fundamental
frequency of the original excitation (18a),
- shifting the instantaneous mean fundamental frequency and introducing a variability
in fundamental frequency resulting from sound diction (18c), and
- reconstructing a harmonic excitation (18d) having the pattern resulting from sound
diction and the characteristic variability thereof, the calculated instantaneous mean
power, the shifted instantaneous mean fundamental frequency, and the variability of
fundamental frequency resulting from sound diction.
1. Tragbare Vorrichtung zur Wiederherstellung einer beeinträchtigten Sprechweise,
dadurch gekennzeichnet, dass sie folgendes umfasst:
- ein System zum Erfassen dieser beeinträchtigten Sprechweise (30), das ein elektrisches
Signal hervorbringt, das diese darstellt, wobei das Signal aus einem Mikrofon kommt,
- einen Prozessor (36) für dieses Signal, der programmiert ist, um eine Entnahme und
eine Trennung der ursprünglichen Erregung und der Ausspracheparameter vorzunehmen,
wobei die ursprüngliche Erregung im Wesentlichen periodisch ist und ein Grundmuster
aufweist, die Wiederherstellung der ursprünglichen Erregung vorzunehmen ausgehend
von Parametern, die sich aus der beeinträchtigten Sprechweise ergeben und welche die
momentane mittlere Leistung und die momentane mittlere Grundfrequenz der ursprünglichen
Erregung umfassen, und von vorherbestimmten Elementen, die sich aus einer gesunden
Sprechweise ergeben, die Informationen über die Variabilität der Grundfrequenz, die
Form des Musters und seine Variabilität umfassen, und die Rekonstruktion der Sprache
vorzunehmen ausgehend von den Ausspracheparametern und der wiederhergestellten ursprünglichen
Erregung, um ein Signal hervorzubringen, das die rekonstruierte Sprechweise darstellt,
und
- ein Lautsprechersystem (42), das das von dem Prozessor gelieferte Signal in ein
akustisches Signal umsetzt.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass der Prozessor (36) ferner programmiert ist, um die Wahrscheinlichkeit eines stimmhaften
Tons, parallel zur Entnahme der Erregung und den Ausspracheparametern und der Wiederherstellung
der ursprünglichen Erregung zu schätzen, und um die ursprüngliche wiederhergestellte
Erregung und die ursprüngliche Erregung ausgehend von der Wahrscheinlichkeit eines
stimmhaften Tons zu mischen.
3. Vorrichtung nach einem der Ansprüche 1 und 2,
dadurch gekennzeichnet, dass zum Durchführen der Wiederherstellung der ursprünglichen Erregung der Prozessor (36)
programmiert ist zum:
- Berechnen der momentanen mittleren Leistung und der momentanen mittleren Grundfrequenz
der ursprünglichen Erregung,
- Verlagern der momentanen mittleren Grundfrequenz und Einführen einer Variabilität
der Grundfrequenz, die sich aus einer gesunden Sprechweise ergibt, und
- Rekonstruieren einer harmonischen Erregung, die das Muster, das sich aus einer gesunden
Sprechweise ergibt, und die dafür charakteristische Variabilität, die berechnete momentane
mittlere Leistung, die verlagerte momentane mittlere Grundfrequenz und die Variabilität
der Grundfrequenz, die sich aus einer gesunden Sprechweise ergibt, aufweist.
4. Vorrichtung nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet, dass sie ferner folgendes umfasst:
- ein erstes Verstärkungsmodul (32) am Ausgang des Spracherfassungssystems (30),
- ein Modul zum Umsetzen des Analogsignals in ein Digitalsignal (34) zwischen dem
ersten Verstärkungsmodul (32) und dem Signalprozessor (36),
- ein Modul zum Umsetzen des Digitalsignals in ein Analogsignal (38) am Ausgang des
Signalprozessors (36), und
- ein zweites Verstärkungsmodul (40) zwischen dem Modul zum Umsetzen des Digitalsignals
in ein Analogsignal (38) und dem Lautsprechersystem (42).
5. Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass es ferner ein Modul umfasst zum Kompensieren einer beeinträchtigten Sprechweise.
6. Verfahren zur Wiederherstellung einer beeinträchtigten Sprechweise durch die Verarbeitung
eines elektrischen Signals, das aus einem Mikrofon kommt und die Sprechweise darstellt,
dadurch gekennzeichnet, dass es die folgenden Hauptschritte umfasst:
- Entnehmen und Trennen (16) der ursprünglichen Erregung und der Ausspracheparameter,
wobei die ursprüngliche Erregung im Wesentlichen periodisch ist und ein Grundmuster
aufweist,
- Wiederherstellen (18) der ursprünglichen Erregung ausgehend von Parametern, die
sich aus der beeinträchtigten Sprechweise ergeben und die momentane mittlere Grundfrequenz
und die momentane mittlere Leistung der ursprünglichen Erregung umfassen, und von
vorherbestimmten Elementen, die sich aus einer gesunden Sprechweise ergeben und Informationen
über die Variabilität der Grundfrequenz, die Form des Musters und seine Variabilität
umfassen, und
- Rekonstruieren der Sprechweise (24) ausgehend von den Ausspracheparametern und der
wiederhergestellten ursprünglichen Erregung, um ein akustisches Signal hervorzubringen,
das die rekonstruierte Sprechweise darstellt.
7. Verfahren nach Anspruch 6,
dadurch gekennzeichnet, dass es ferner folgendes umfasst:
- einen Schritt des Einschätzens der Wahrscheinlichkeit eines stimmhaften Tons (12),
der parallel zu den Schritten des Entnehmens der Erregung und der Ausspracheparameter
(16) und des Wiederherstellens der ursprünglichen Erregung (18) erfolgt, und
- einen Schritt des Mischens der wiederhergestellten ursprünglichen Erregung und der
ursprünglichen Erregung (20) ausgehend von der Wahrscheinlichkeit eines stimmhaften
Tons.
8. Verfahren nach einem der Ansprüche 6 und 7,
dadurch gekennzeichnet, dass der Schritt des Wiederherstellens der ursprünglichen Erregung folgende Vorgänge umfasst:
- Berechnen der momentanen mittleren Leistung und der momentanen mittleren Grundfrequenz
der ursprünglichen Erregung (18a),
- Verlagern der momentanen mittleren Grundfrequenz und Einführen einer Variabilität
der Grundfrequenz, die sich aus einer gesunden Sprechweise (18c) ergibt, und
- Rekonstruieren einer harmonischen Erregung (18d), die das Muster, das sich aus einer
gesunden Sprechweise ergibt, und die dafür charakteristische Variabilität, die berechnete
momentane mittlere Leistung, die verlagerte momentane mittlere Grundfrequenz und die
Variabilität der Grundfrequenz, die sich aus einer gesunden Sprechweise ergibt, aufweist.