Verfahren und Vorrichtung zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten binauralen Ausgangssignals

(19)

(11)

EP 1 519 628 A2

(12)	EUROPÄISCHE PATENTANMELDUNG

(43)	Veröffentlichungstag:
	30.03.2005 Patentblatt 2005/13

(21)	Anmeldenummer: 04103766.4

(22)	Anmeldetag: 05.08.2004

(51)	Internationale Patentklassifikation (IPC)⁷: H04S 5/00

(84)	Benannte Vertragsstaaten:
	AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR
	Benannte Erstreckungsstaaten:
	AL HR LT LV MK

(30)

Priorität:

29.09.2003 DE 10345167

(71)	Anmelder: SIEMENS AKTIENGESELLSCHAFT
	80333 München (DE)

(72)	Erfinder:
	Lucioni, Gonzalo 58454 Witten (DE)

(54)	Verfahren und Vorrichtung zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten binauralen Ausgangssignals

(57) Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten, aus einem ersten Ausgangssignal und einem zweiten Ausgangssignal bestehenden binauralen Ausgangssignals über mindestens einen ersten und einen zweiten Lautsprecher einer binauralen Kopfsprechgarnitur insbesondere für VoIP-Anwendungen.

Beschreibung

[0001] Die Erfindung betrifft ein Verfahren zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten, aus einem ersten Ausgangssignal und einem zweiten Ausgangssignal bestehenden binauralen Ausgangssignals sowie eine Vorrichtung zur Durchführung des Verfahrens nach dem Oberbegriff des Patentanspruches 1 bzw. des Patentanspruches 8.

[0002] In der modernen Kommunikationswelt werden zunehmend intelligente Datenendeinrichtungen, wie z. B. PCs oder PDAs, für die Sprachkommunikation eingesetzt, wobei eine Verknüpfung dieser Datenendeinrichtungen beispielsweise über VoIP erfolgt.

[0003] Die paketbasierte Kommunikation mit Hilfe von VoIP und der damit verbundene Einsatz sogenannter VoIP-Codecs verursacht unerwünschte Einflüsse auf die Sprachqualität. Beispielsweise ist mit mittleren bis höheren Laufzeiten bei der Signalübertragung zu rechnen, wodurch hörbare Echos entstehen. Zusätzlich muss gerade bei einer paketbasierten Kommunikation mit Rückwürfen gerechnet werden, deren Laufzeiten oftmals höher und deren Dämpfung niedriger sind als dies in einer natürlichen Umgebung vorzufinden ist. Daher sind Maßnahmen zur Unterdrückung störender Echos vorzusehen, vorzugsweise durch den Einsatz von Echo Cancellern in den Datenendgeräten.

[0004] Echo Canceller orientieren sich an gängigen Normen, wie z.B. ITU-T G.168 (2002), wo u.a. Gateway-Übergänge in das klassische Telefonnetz besprochen werden. Für VoIP-Endeinrichtungen kann alternativ ITU-T G.165 (1993) herangezogen werden, wobei diese bzgl. Echodispersion und zu erreichender Unterdrückung wesentlich mildere Vorgaben festlegen als dies bei Standards der klassischen Telefonie der Fall ist.

[0005] Sind die Datenendgeräte selbst als VoIP-Endgeräte ausgelegt, weisen sie gegenüber dedizierten VoIP-Endgeräten die Nachteile höherer Laufzeiten bei der Signalübertragung und fehlender Echo-Canceller auf. Insbesondere aufgrund des fehlenden Cancellers müssen bei einer paketbasierten Kommunikation dieser Art Kopfsprechgarnituren (Headsets) eingesetzt werden.

[0006] Allerdings erzeugen herkömmliche binaurale Kopfhörer ein eher unnatürliches Hörereignis, weil der Schall vom Kopf und vom Außenohr nicht mehr beeinflusst wird. Beim natürlichen Hören empfangen beide Ohren die Signale aller Schallquellen, so dass Zeitverzögerungen, Pegelunterschiede und Klangunterschiede einen räumlichen Höreindruck schaffen. Untersuchungen zur Richtungswahrnehmung von eintreffendem Schall zeigen, dass interaurale Laufzeit- und Pegelunterschiede nur hinsichtlich einer horizontalen Symmetrieebene des Kopfes relevant sind, so dass hier die Richtung des eintreffenden Schalls bestimmt werden kann. Bezüglich einer vertikalen Symmetrieebene des Kopfes treten keine Zeitverzögerungen oder Pegelunterschiede auf, allerdings ist hier eine Richtungswahrnehmung des eintreffenden Schalls über Klangunterschiede festzustellen. Dreidimensionales Hören ist maßgebend für die räumliche Orientierung, die Trennung unterschiedlicher Schallquellen (vgl. Blauert, Jens (Juni 1997): Spatial Hearing, MIT Press, Kap. 5.3) und die Unterdrückung der Wahrnehmung von Rückwürfen (ebd., Kap. 5.4) Da sich die Schallquellen bei der Verwendung von Kopfhörern unmittelbar an den Ohren befinden, wird jegliches dreidimensionale Hören unterbunden. Das rechte Ohr empfängt nämlich ausschließlich die Signale des rechten Lautsprechers, wohingegen das linke Ohr lediglich die Signale des linken Lautsprechers empfängt.

[0007] Der Erfindung liegt somit die Aufgabe zugrunde, eine Verfahren und eine Vorrichtung zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten Ausgangssignals dahin gehend weiterzubilden, dass die Qualität von mittels Kopfsprechgarnituren realisierten monauralen VoIP-Sprachverbindungen verbessert wird.

[0008] Diese Aufgabe wird durch ein Verfahren nach Patentanspruch 1 bzw. durch eine Vorrichtung nach Patentanspruch 8 gelöst.

[0009] Erfindungsgemäß wird die Aufgabe durch ein Verfahren gelöst, bei welchem ein aus einem monauralen Eingangssignal erzeugtes, aus einem ersten Ausgangssignal und einem zweiten Ausgangssignal bestehendes binaurales Ausgangssignal über mindestens einen ersten und einen zweiten Lautsprecher einer binauralen Kopfsprechgarnitur insbesondere für VoIP-Anwendungen wiedergegeben wird. Hierbei wird aus dem monauralen Eingangssignal durch Phasenverschiebung- und/oder Amplitudenverstärkung das erste Ausgangssignal und/oder das zweite Ausgangssignal zur binauralen Simulation erzeugt, um ein Hörereignis zu erhalten, das eine subjektiv empfundene statische und/oder dynamische Positionierung eines Schallereignisses darstellt.

[0010] Weiterhin wird die Aufgabe durch eine Vorrichtung gelöst, bei welcher eine binaurale Kopfsprechgarnitur insbesondere für VoIP-Anwendungen mindestens einen ersten und einem zweiten Lautsprecher zur Ausgabe eines aus einem monauralen Eingangssignal erzeugten, aus einem ersten Ausgangssignal und einem zweiten Ausgangssignal bestehenden binauralen Ausgangssignals und eine Verbindung zu einem empfängerseitigen Datenendgerät aufweist. Eine Signalverarbeitungseinrichtung erzeugt aus dem monauralen Eingangssignal durch Phasenverschiebung und/oder Amplitudenverstärkung das erste Ausgangssignal und/oder das zweite Ausgangssignal zur binauralen Simulation, um ein Hörereignis zu erhalten, das eine subjektiv empfundene statische und/oder dynamische Positionierung eines Schallereignisses darstellt.

[0011] Ein wesentlicher Punkt der Erfindung liegt darin, dass aufgrund der binauralen Simulation ein räumliches, weitgehend als natürlich empfundenes Hören trotz Verwendung eines Kopfhörers erreicht wird.

[0012] Dabei wird mit Hilfe von Phasen-, Laufzeit-, Dämpfungsund/oder HRTF (Head Related Transfer Function)-Verarbeitungselementen der natürliche Weg des Schalls simuliert, nämlich die Freifeld-, die Außenohr- und die Gehörgangübertragung, bzw. das aufgrund von Phasendifferenzen, Zeitverzögerungen, Pegelunterschieden und Klangunterschieden bewirkte natürliche Hören. Aufgrund dieser Nachbildung ist es möglich, die Wahrnehmung von Rückwürfen, beispielsweise Klangverfärbungen oder Echos weitestgehend zu unterdrücken, zumal das Auftreten von Rückwürfen bis zu einem bestimmten Grade mental gesteuert ist und u. a. von Erfahrung und Aufmerksamkeit abhängt. Dies rührt insbesondere daher, dass gleichzeitig auftretende Schallereignisse, die von unterschiedlichen Schallquellen stammen, leichter unterscheidbar sind. Dadurch wird die Fähigkeit des Zuhörers verbessert, sich auf eine Schallquelle zu konzentrieren und deren Schallereignisse gegenüber den Schallereignissen der anderen Quellen perzeptiv hervorzuheben. Zudem wird durch die Simulation des dreidimensionalen Hörens der Präzedenzeffekt, d. h. das Gesetz der ersten Wellenfront nutzbar, sobald der Schall von mehreren kohärenten Quellen aus unterschiedlichen Richtungen auf den Hörenden trifft. Das Schallereignis scheint demnach nur aus einer einzigen Richtung zu kommen, wobei Echos nicht wahrgenommen werden.

[0013] So ist in einer ersten bevorzugten Ausführungsform vorgesehen, dass das monaurale Eingangssignal von einem senderund/oder einem empfängerseitigen Datenendgerät der VoIP-Anwendung geliefert wird. Dies hat insbesondere den Vorteil, dass neben dem vom senderseitigen Datenendgerät erzeugten Schallereignis auch das vom empfängerseitigen Datenendgerät erzeugte Schallereignis in die binaurale Simulation einbezogen wird. Auch beim natürlichen Hören wird die eigene Stimme als dreidimensionales Schallereignis hörbar, so dass eine klare Abgrenzung zu einer weiteren Schallquelle, z. B. zu einem weiteren Sprecher, möglich ist.

[0014] Vorteilhafterweise ist vorgesehen, dass durch die Phasenverschiebung in einer ersten Teilfunktion die statische Positionierung des vom senderseitigen Datenendgerät verursachten Schallereignisses simuliert wird. Dazu wird das erste Ausgangssignal durch eine Verzögerung des vom senderseitigen Datenendgerät gelieferten Eingangssignals erzeugt oder eine Vorzeichenumkehr vorgenommen und dieses dem ersten Lautsprecher zugeführt. Durch die unveränderte Wiedergabe des Eingangssignals wird außerdem das zweite Ausgangssignal erzeugt und dieses dem zweiten Lautsprecher zugeführt. Vorzugsweise ist hiermit die statische Positionierung des vom senderseitigen Datenendgerät verursachten Schallereignisses "näher" am zweiten Lautsprecher erreicht. Aufgrund der Phasenverschiebung und den damit verbundenen unterschiedlichen Laufzeiten der beiden Ausgangssignale wird hier vorteilhafterweise eine erste Komponente zur Erzeugung eines dreidimensionalen Hörereignisses implementiert.

[0015] In einer vorteilhaften Ausführungsform wird die dynamische Positionierung des vom senderseitigen Datenendgerät verursachten Schallereignisses in einer zweiten Teilfunktion simuliert. Dazu erfolgt zuerst ein mittlerer Pegelvergleich zwischen dem vom senderseitigen Datenendgerät gelieferten Eingangssignal und dem vom empfängerseitigen Datenendgerät gelieferten monauralen Eingangssignal. Anschließend wird das vom senderseitigen Datenendgerät gelieferte Eingangssignal verzögert, um über diese erste Verzögerung das erste Ausgangssignal zu erzeugen. Eine zweite Verzögerung des Eingangssignals liefert das zweite Ausgangssignal. Das erste Ausgangssignal gelangt an den ersten Lautsprecher, das zweite Ausgangssignal wird dem zweiten Lautsprecher zugeführt. Hierdurch wird die dynamische Positionierung des vom senderseitigen Datenendgerät verursachten Schallereignisses "näher" an dem jeweiligen Lautsprecher erreicht, den das entsprechende Ausgangssignal aufgrund einer unterschiedlichen Laufzeit zuerst erreicht. Hinsichtlich der dynamischen Positionierung von Schallereignissen wird aufgrund der Phasenverschiebung und den damit verbundenen unterschiedlichen Laufzeiten der beiden Ausgangssignale vorteilhafterweise eine weitere Komponente zur Erzeugung eines dreidimensionalen Hörereignisses implementiert.

[0016] Mit statischer und dynamischer Positionierung wird hier die Simulation der Richtungswahrnehmung des eintreffenden Schalls aus Sicht des empfängerseitigen Datenendgeräts bzw. des empfängerseitigen Teilnehmers beschrieben. Mit anderen Worten, es wird simuliert, dass das erzeugte Schallereignis aus einer bestimmten Richtung eintrifft. Wird eine statische Positionierung simuliert, erfolgt die Verarbeitung des gelieferten Schalls derart, dass das durch ihn erzeugte Hörereignis einen "unbewegten" senderseitigen Teilnehmer annehmen lässt. Die Simulation eines bewegten senderseitigen Teilnehmers hingegen beschreibt dessen dynamische Positionierung. Der Schall wird derart verarbeitet, dass ein Ortswechsel des senderseitigen Teilnehmers simuliert wird. Sowohl die Simulation der statischen als auch der dynamischen Positionierung des Schallereignisses erlauben daher im Falle der Audioübertragung ein dem natürlich Hören nachempfundenes Hörerlebnis.

[0017] Vorzugsweise wird in einer dritten Teilfunktion eine statische Positionierung des vom empfängerseitigen Datenendgerät verursachten Schallereignisses simuliert. Dazu erfolgt eine Verzögerung des vom empfängerseitigen Datenendgerät gelieferten monauralen Eingangssignals, um dieses als erstes Ausgangssignal wiederzugeben. Gleichzeitig wird das Eingangssignal unverändert weitergegeben, um es als zweites Ausgangssignal zur Verfügung zu stellen. Das erste Ausgangssignal gelangt anschließend zu dem zweiten Lautsprecher, während das zweite Ausgangssignal dem ersten Lautsprecher zugeführt wird. Die statische Positionierung ist also dadurch realisiert, dass das vom empfängerseitigen Datenendgerät verursachte Schallereignis "näher" am ersten Lautsprecher erscheint.

[0018] Eigene Rückwürfe mit geringer Verzögerung, wie hier vorgeschlagen, sind erwünscht und in der klassischen Telefonie ausführlich beschrieben. Siehe hierzu z. B. ITU-T G.131 (1996) bzw. ITU-T G.111 (1993) Annex A, Stichwort STMR (Side Tone Masking Rating, Talkers's Sidetone).

[0019] Vorteilhafterweise wird die statische Positionierung des vom senderseitigen Datenendgerät verursachten Schallereignisses und die statische Positionierung des vom empfängerseitigen Datenendgerät verursachten Schallereignisses gleichzeitig simuliert. Dies entspricht im Wesentlichen einer Kombination der ersten und der dritten Teilfunktion. Der eintreffende Schall beider an der Sprachübertragung beteiligter Endgeräte ist somit aus unterschiedlichen Richtungen wahrnehmbar, einschließlich des Echos des empfängerseitigen Endgeräts. Gleichzeitig wird eine Verstärkung des Präzedenzeffektes des durch das empfängerseitige Datenendgerät erzeugten Schalls erreicht. Hiernach ist in Fig. 1 der sogenannte Echo Threshold gemäß Blauert eingezeichnet. Siehe dazu Bild 3.13 der ITU-T G.131 für eine typische Verstärkung im Endgerät. Deutlich ist der "Gewinn" an TELR (Talker Echo Loudness Rating) zu erkennen.

[0020] Die erfindungsgemäße Lösung sieht in einer anderen Ausführungsform vor, die dynamische Positionierung des vom senderseitigen Datenendgerät verursachten Schallereignisses und die statische Positionierung des vom empfängerseitigen Datenendgerät verursachten Schallereignisses gleichzeitig zu simulieren. Dies entspricht im Wesentlichen einer Kombination der zweiten und der dritten Teilfunktion. Vorteilhafterweise wird dadurch das vom empfängerseitigen Datenendgerät verursachte Schallereignis, das Echo dieses Schallereignisses und das vom senderseitigen Datenendgerät verursachte Schallereignis aus unterschiedlichen Richtungen wahrgenommen. Hierdurch ist es möglich, den vom senderseitigen Datenendgerät eintreffenden Schall bzw. den vom empfängerseitigen Datenendgerät eintreffenden Schall gegenüber dem Echo des vom empfängerseitigen Datenendgerät eintreffenden Schalls perzeptiv hervorzuheben.

[0021] In einer weiteren bevorzugten Ausführungsform ist die binaurale Kopfsprechgarnitur mit einer Signalverarbeitungseinrichtung ausgebildet, die mindestens ein Laufzeitelement aufweist. Das Laufzeitelement erzeugt demnach die oben beschriebene Phasenverschiebung der jeweiligen Ausgangssignale. Alternativ oder zusätzlich kann die Signalverarbeitungseinrichtung mindestens ein Dämpfungselement und/oder mindestens ein HRTF (Head Related Transfer Function)-Verarbeitungselement vorsehen. Neben der Phasenverschiebungen sind dann auch Amplitudenverstärkungen und/oder Klangunterschiede erzeugbar. Vorteilhafterweise ist mit Hilfe dieser Elemente, mit der Kombination von Elementen und insbesondere mit der Kombination aller Elemente ein realistisches dreidimensionales Hören auch bei Verwendung binauraler Kopfhörer erzeugbar, weil ein natürliches Hören durch Zeitverzögerungen, Intensitätsunterschiede und Klangverfärbungen charakterisiert ist.

[0022] Weitere Merkmale und Vorteile einer erfindungsgemäßen Vorrichtungen ergeben sich aus den Merkmalen und Vorteilen der erfindungsgemäßen Verfahren.

[0023] Nachfolgend wird die Erfindung anhand von einem Ausführungsbeispiel genauer beschrieben, das anhand der Abbildung erläutert wird. Hierbei zeigen:

Fig. 1 eine Graphik zur Akzeptanzbeurteilung der Konversation (Talker Echo Tolerance Curves),

Fig. 2 eine Ausführungsform der Erfindung.

[0024] Fig. 1 zeigt sogenannte "Talker Echo Tolerance Curves", die bzgl. der vorzufindenden Echos auf die Sprachqualität schließen lassen. Die Kurven erlauben demgemäß die Akzeptanzbeurteilung der Konversation. Dabei wird auf der Abszisse die mittlere Echo-Übertragungszeit (Mean Echo Transmission Time) T und auf der Ordinate das Talker Echo Loudness Rating TELR aufgetragen. Die Kurve K1 zeigt die Mithörschwelle (Masked Threshold), die Kurve K2 zeigt die Akzeptable (Acceptable). Die Akzeptable ist äquivalent der Kurve, bei der ein störendes Echo mit einer Wahrscheinlichkeit von 1% auftritt. Die Kurve K3 bezeichnet den Grenzfall (Limiting Case), die Kurve K4 hingegen den binauralen Grenzfall (Binaural Limiting Case) bei einer Anordnung stereophoner Lautsprecher mit einem Winkel von 80°).

[0025] In Fig. 2 ist ein Ausführungsbeispiel der erfindungsgemäßen Vorrichtung als funktionales Blockschaltbild dargestellt. Hierbei ist ein senderseitiges Datenendgerät mit dem Bezugszeichen B und ein empfängerseitiges Datenendgerät mit dem Bezugszeichen A benannt. Das empfängerseitige Datenendgerät A ist idealerweise mit einem binauralen Kopfhörer ausgestattet, der wiederum einen ersten Lautsprecher L und einen zweiten Lautsprecher A aufweist.

[0026] Um den Signalfluss entsprechend zu steuern, befindet sich zwischen den jeweiligen Endgeräten A, B eine Signalverarbeitungseinrichtung 1. In dieser Ausführungsform weist die Signalverarbeitungseinrichtung 1 drei Funktionsblöcke F1, F2, F3 und ein Pegelverarbeitungs-Element PVE auf.

[0027] Die Funktionsblöcke F1, F2 und F3 weisen jeweils mindestens ein Laufzeitelement (nicht gezeigt) auf. Alternativ oder ergänzend können die Funktionsblöcke F1, F2 und F3 auch jeweils mit mindestens einem Dämpfungselement und/oder einem HRTF (Head Related Transfer Function)-Verarbeitungselement (nicht gezeigt) ausgebildet sein.

[0028] In diesem Ausführungsbeispiel sind Funktionsblock F1 und Funktionsblock F2 hintereinander geschaltet, der Funktionsblock F2 ist parallel zu Funktionsblock F1 geschaltet.

[0029] Von dem senderseitigen Datenendgerät B wird eine Sprachverbindung zu einem empfängerseitigen Datenendgerät A aufgebaut, wobei die Verknüpfung mit Hilfe eines Vermittlungsnetzes über VoIP verläuft.

[0030] Das senderseitige Datendendgerät B überträgt ein monaurales Eingangssignal in einem Schritt 100 an den ersten Funktionsblock F1. Gleichzeitig überträgt das senderseitige Datenendgerät B das monaurale Eingangssignal in einem Schritt 101 an den Funktionsblock F2 und in einem Schritt 102 an das Pegelvergleichselement PVE.

[0031] Funktionsblock F1 verzögert das empfangene Signal und überträgt es in einem Schritt 200 an den Funktionsblock F3. Gleichzeitig lässt Funktionsblock F1 das empfangene Signal unverändert passieren und überträgt das unveränderte Signal in einem Schritt 201 ebenfalls an den Funktionsblock F3. Das an Funktionsblock F2 aus Schritt 101 anliegende Signal unterliegt in dem Funktionsblock F2 einer ersten Verzögerung und wird mit dieser in einem Schritt 300 an Funktionsblock F3 geliefert. Gleichzeitig unterliegt das aus Schritt 101 an Funktionsblock F2 anliegende Signal einer zweiten Verzögerung und wird mit dieser in einem Schritt 301 an Funktionsblock F3 übergeben.

[0032] Auch das Pegelvergleichselement PVE empfängt in einem Schritt 102 das vom senderseitigen Datenendgerät B gelieferte Signal. Gleichzeitig liegt an dem Pegelvergleichselement PVE ein vom empfängerseitigen Datenendgerät A geliefertes Signal an, das in einem Schritt 502 weitergegeben wird. Die oben beschriebene, in Funktionsblock F2 durchgeführte erste und zweite Verzögerung des vom senderseitigen Datenendgerät B gelieferte Signals erfolgt dann in Abhängigkeit eines mittleren Pegelvergleichs der von den Datenendgeräten A, B gelieferten Signale.

[0033] An Funktionsblock F3 liegen nun die aus den Schritten 200 und 300 bzw. aus den Schritten 201 und 301 stammenden Signale an. Gleichzeitig liegt an Funktionsblock F3 das aus einem Schritt 501 stammende Signal des empfängerseitigen Datenendgeräts an. Die aus den Schritten 200 und 300 stammenden Signale können in diesem Ausführungsbeispiel Funktionsblock F3 ungehindert passieren und werden in einem Schritt 400 anschließend dem ersten Lautsprecher L zugeführt. Auch die aus den Schritten 201 und 301 resultierenden, an Funktionsblock F3 anliegenden Signale können den letzten Funktionsblock F3 ohne eine weitere Bearbeitung passieren, werden allerdings in einem Schritt 401 dem zweiten Lautsprecher R zugeführt. Aufgrund der bereits vorab in den Funktionsblöcken F1 und F2 durchgeführten Signalverzögerungen erfolgt einerseits eine statische Positionierung eines vom senderseitigen Datenendgerät B induzierten Schallereignisses "näher" an dem zweiten Lautsprecher R, während andererseits eine dynamische Positionierung eines vom senderseitigen Datenendgerät B induzierten Schallereignisses "näher" an dem jeweiligen Lautsprecher erreicht wird, der jeweils die Signale mit den geringeren Verzögerungen empfängt.

[0034] Funktionsblock F3 verzögert das in Schritt 501 übergebene Signal und führt dieses dem zweiten Lautsprecher R zu. Gleichzeitig passiert das in Schritt 501 übertragene Signal den Funktionsblock F3 ungehindert und wird an den ersten Lautsprecher L übergeben. Damit wird, wie bereits oben erwähnt, eine statische Positionierung des vom empfängerseitigen Datenendgerät A induzierten Schallereignisses "näher" an dem ersten Lautsprecher L erreicht.

[0035] Schließlich sendet das empfängerseitige Datenendgerät A in einem Schritt 500 ein Signal ohne weiter Verarbeitung direkt an das empfängerseitige Datenendgerät B.

[0036] Die hier vorgeschlagene Aufspaltung eines monauralen Eingangssignals und dessen Verarbeitung zur Erlangung von Laufzeitunterschieden ermöglicht ein dreidimensionales Hören über einen binauralen Kopfhörer, das einem natürlichen Hören nachempfunden ist. Da das natürliche Hören auf Laufzeitunterschieden, Pegelunterschieden und Klangverfärbungen des eintreffenden Schalls aus unterschiedlichen Schallquellen resultiert, kann ein dreidimensional empfundenes Hören idealerweise dadurch nachempfunden werden, dass sowohl Laufzeitunterschiede als auch Pegelunterschiede und Klangverfärbungen erzeugt werden.

[0037] Das oben beschriebene Ausführungsbeispiel beschreibt die Funktionsblöcke als Signalverarbeitungsblöcke, deren Ziel es ist, Laufzeitunterschiede und damit Phasendifferenzen aus einem monauralen Eingangssignal durch dessen Aufspaltung zu erzeugen. Alternativ ist es möglich, die Laufzeitelemente durch Dämpfungselemente zu ersetzten. Dabei wird ein räumliches Hören nachempfunden, das lediglich über eine Amplitudenverstärkung bzw.-dämpfung realisiert wird. Auch ist es möglich, ausschließlich HRTF (Head Related Transfer Function)-Verarbeitungselemente vorzusehen, um die Beschaffenheit von Kopf und Ohren und damit die Richtcharakteristik des Ohres zu simulieren. Die Funktionsblöcke F1 bis F3 können jedoch auch alle Signalverarbeitungselemente gleichzeitig aufnehmen, um so ein optimales Ergebnis bzgl. der Simulation des natürlichen Hörens zu erreichen.

[0038] Alternativ, jedoch nicht gezeigt, ist es beispielsweise möglich, die Funktionsblöcke F1 und F3 zu kombinieren. Dies entspricht im Wesentlichen der dargestellten Ausführungsform gemäß Fig. 2, ohne jedoch das vom senderseitigen Datenendgerät B gelieferte monaurale Eingangssignal am Funktionsblock F2 zur Verfügung zu stellen. Die Signale durchlaufen dann Funktionsblock F3 unter gleichzeitiger Verarbeitung des vom empfängerseitigen Datenendgerät A gelieferten Eingangssignals, um dann dem Lautsprecher L bzw. R zugeführt zu werden.

[0039] Ferner ist es möglich, jedoch ebenfalls nicht gezeigt, die Funktionsblöcke F2 und F3 miteinander zu kombinieren. Auch hier kann im Wesentlichen die bereits beschriebene Fig. 2 zugrunde gelegt werden, allerdings unter Ausschluss von Funktionsblock F1. Das vom senderseitigen Datenendgerät B gelieferte monaurale Eingangssignal wird hier ausschließlich an Funktionsblock F2 bzw. an das Pegelvergleichs-Element PVE geliefert, um die daraus resultierenden Ausgangssignale über den Funktionsblock F3 an die Lautsprecher L bzw. R weiterzugeben. In Funktionsblock F3 erfolgt gemäß der Teilfunktion F3 die Verarbeitung des monauralen Eingangssignals des empfängerseitigen Datenendgeräts A.

[0040] Die Kombination zweier Funktionsblöcke stellt eine qualitativ hochwertige und trotzdem kostengünstige Variante dar, wobei die Qualität der dreidimensionalen Simulation jeweils mit Rücksicht auf das Einsatzgebiet der Kopfsprechgarnitur abzustimmen ist.

[0041] Die Veränderung des monauralen Signals mit Hilfe eines dieser Verarbeitungselement erzeugt ebenfalls ein Hörereignis, das zumindest Komponenten des natürlichen Hörens widerspiegelt. Damit ist es bei Anwendung der vorgeschlagenen Kopfsprechgarnitur möglich, unterschiedliche Schallquellen zu orten und insbesondere die Wahrnehmung von Rückwürfen zu unterdrücken. Dies begründet sich durch das nachempfundene natürliche Hören, bei dem der Mensch die Unterdrückung der Wahrnehmung von Rückwürfen tatsächlich gelernt hat.

[0042] Die ausschließliche Verwendung einzelner Funktionsblöcke als Laufzeitelemente und/oder Dämpfungselemente und/oder HRTF-Verarbeitungselemente ermöglicht bereits einen räumlichen Höreindruck, der beispielsweise dann ausreichend ist, wenn während der Kommunikation kaum Hintergrundgeräusche auftreten.

[0043] An dieser Stelle sei darauf hingewiesen, dass alle oben beschriebenen Teile für sich alleine gesehen und in jeder Kombination, insbesondere die in der Zeichnung dargestellten Details als erfindungswesentlich beansprucht werden. Abänderungen hiervon sind dem Fachmann geläufig. So können an die Stelle der oben erwähnten Laufzeit- bzw. Verzögerungselemente Mittel zur Vorzeichenumkehr eines der verarbeiteten Signale treten.

Ansprüche

1. Verfahren zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten, aus einem ersten Ausgangssignal und einem zweiten Ausgangssignal bestehenden binauralen Ausgangssignals über mindestens einen ersten und einen zweiten Lautsprecher (L, R) einer binauralen Kopfsprechgarnitur insbesondere für VoIP-Anwendungen,
dadurch gekennzeichnet, dass
aus dem monauralen Eingangssignal durch Phasenverschiebung und/oder Amplitudenverstärkung oder -abschwächung das erste Ausgangssignal und/oder das zweite Ausgangssignal zur binauralen Simulation erzeugt wird, um ein Hörereignis zu erhalten, das eine subjektiv empfundene statische und/oder dynamische Positionierung eines Schallereignisses darstellt.

2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, dass
das monaurale Eingangssignal von einem sender- und/oder einem empfängerseitigen Datenendgerät (B, A) der VoIP-Anwendung geliefert wird.

3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, dass
durch die Phasenverschiebung die statische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses simuliert wird, indem das erste Ausgangssignal durch eine Verzögerung des Eingangssignals und das zweite Ausgangssignal durch eine unveränderte Wiedergabe des Eingangssignals erzeugt und das erste Ausgangssignal dem ersten Lautsprecher (L) und das zweite Ausgangssignal dem zweiten Lautsprecher (R) zugeführt werden.

4. Verfahren einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
durch die Phasenverschiebung die dynamische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses simuliert wird, indem in Abhängigkeit von einem mittleren Pegelvergleich zwischen dem vom senderseitigen Datenendgerät (B) gelieferten Eingangssignal und dem vom empfängerseitigen Datenendgerät (A) gelieferten Eingangssignal das erste Ausgangssignal durch eine erste Verzögerung des vom senderseitigen Datenendgerät (B) gelieferten Eingangssignals und das zweite Ausgangssignal durch eine zweite Verzögerung des Eingangssignals erzeugt und das erste Ausgangssignal dem ersten Lautsprecher (L) und das zweite Ausgangssignal dem zweiten Lautsprecher (R) zugeführt werden.

5. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
durch die Phasenverschiebung die statische Positionierung des vom empfängerseitigen Datenendgerät (B) verursachten Schallereignisses simuliert wird, indem das erste Ausgangssignal durch eine Verzögerung des Eingangssignals und das zweite Ausgangssignal durch eine unveränderte Wiedergabe des Eingangssignals erzeugt und das erste Ausgangssignal dem zweiten Lautsprecher (R) und das zweite Ausgangssignal dem ersten Lautsprecher (L) zugeführt werden.

6. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
die statische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses und die statische Positionierung des vom empfängerseitigen Datenendgerät (A) verursachten Schallereignisses gleichzeitig simuliert werden.

7. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, dass
die dynamische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses und die statische Positionierung des vom empfängerseitigen Datenendgerät (A) verursachten Schallereignisses gleichzeitig simuliert werden.

8. Binaurale Kopfsprechgarnitur insbesondere für VoIP-Anwendungen, mit

- mindestens einem ersten und einem zweiten Lautsprecher (L, R) zur Ausgabe eines aus einem monauralen Eingangssignal erzeugten, aus einem ersten Ausgangssignal und einem zweiten Ausgangssignal bestehenden binauralen Ausgangssignals; und

- einer Verbindung zu einem empfängerseitigen Datenendgerät (A);

gekennzeichnet durch
eine Signalverarbeitungseinrichtung (1), die aus dem monauralen Eingangssignal durch Phasenverschiebung und/oder Amplitudenverstärkung oder -abschwächung das erste Ausgangssignal und/oder das zweite Ausgangssignal zur binauralen Simulation erzeugt, um ein Hörereignis zu erhalten, das eine subjektiv empfundene statische und/oder dynamische Positionierung eines Schallereignisses darstellt.

9. Binaurale Kopfsprechgarnitur nach Anspruch 8,
dadurch gekennzeichnet, dass
die Signalverarbeitungseinrichtung (1) ausgebildet ist, um das monaurale Eingangssignal von dem empfängerseitigen und/oder einem senderseitigen Datenendgerät (A, B) zu empfangen.

10. Binaurale Kopfsprechgarnitur nach Anspruch 8 oder 9,
dadurch gekennzeichnet, dass
die Signalverarbeitungseinrichtung (1) mindestens ein Element zur Phasenbeeinflussung, insbesondere zur Vorzeichenumkehr, oder Laufzeitelement und/oder mindestens ein Dämpfungselement und/oder mindestens ein HRTF (Head Related Transfer Function)-Verarbeitungselement aufweist, um eine Phasenverschiebung und/oder Amplitudenverstärkung und/oder Klangunterschiede zu erzeugen.

11. Binaurale Kopfsprechgarnitur nach einem der Ansprüche 8 bis 10,
dadurch gekennzeichnet, dass
die Signalverarbeitungseinrichtung (1) ausgebildet ist, um durch die Phasenverschiebung die statische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses zu simulieren, indem das mindestens eine Laufzeitelement im Signalweg das erste Ausgangssignal durch eine Verzögerung des Eingangssignals und das zweite Ausgangssignal durch eine unveränderte Wiedergabe des Eingangssignals erzeugt, und das erste Ausgangssignal dem ersten Lautsprecher (L) und das zweite Ausgangssignal dem zweiten Lautsprecher (R) zuführt.

12. Binaurale Kopfsprechgarnitur nach einem der Ansprüche 8 bis 11,
dadurch gekennzeichnet, dass
die Signalverarbeitungseinrichtung (1) ausgebildet ist, um durch die Phasenverschiebung die dynamische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses zu simulieren, indem das mindestens eine Laufzeitelement im Signalweg in Abhängigkeit von einem mittleren Pegelvergleich zwischen dem vom senderseitigen Datenendgerät (B) gelieferten Eingangssignal und dem vom empfängerseitigen Datenendgerät (A) gelieferten Eingangssignal das erste Ausgangssignal durch eine erste Verzögerung des vom senderseitigen Datenendgerät (B) gelieferten Eingangssignals und das zweite Ausgangssignal durch eine zweite Verzögerung des Eingangssignals erzeugt und das erste Ausgangssignal dem ersten Lautsprecher (L) und das zweite Ausgangssignal dem zweiten Lautsprecher (R) zuführt.

13. Binaurale Kopfsprechgarnitur nach einem der Ansprüche 8 bis 12,
dadurch gekennzeichnet, dass
die Signalverarbeitungseinrichtung (1) ausgebildet ist, um durch die Phasenverschiebung die statische Positionierung des vom empfängerseitigen Datenendgerät (A) verursachten Schallereignisses zu simulieren, indem das mindestens eine Laufzeitelement im Signalweg das erste Ausgangssignal durch eine Verzögerung des Eingangssignals und das zweite Ausgangssignal durch eine unveränderte Wiedergabe des Eingangssignals erzeugt und das erste Ausgangssignal dem zweiten Lautsprecher (R) und das zweite Ausgangssignal dem ersten (L) Lautsprecher zuführt.

14. Binaurale Kopfsprechgarnitur nach einem der Ansprüche 8 bis 13,
dadurch gekennzeichnet, dass
die Signalverarbeitungseinrichtung (1) derart ausgebildet ist, dass die statische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses und die statische Positionierung des vom empfängerseitigen Datenendgerät (A) verursachten Schallereignisses gleichzeitig simulierbar sind.

15. Binaurale Kopfsprechgarnitur nach einem der Ansprüche 8 bis 14,
dadurch gekennzeichnet, dass
die Signalverarbeitungseinrichtung (1) derart ausgebildet ist, dass die dynamische Positionierung des vom senderseitigen Datenendgerät (B) verursachten Schallereignisses und die statische Positionierung des vom empfängerseitigen Datenendgerät (A) verursachten Schallereignisses gleichzeitig simulierbar sind.

Zeichnung