(19)
(11) EP 4 000 579 A1

(12) EUROPÄISCHE PATENTANMELDUNG

(43) Veröffentlichungstag:
25.05.2022  Patentblatt  2022/21

(21) Anmeldenummer: 21000319.0

(22) Anmeldetag:  09.11.2021
(51) Internationale Patentklassifikation (IPC): 
A61H 3/06(2006.01)
(52) Gemeinsame Patentklassifikation (CPC) :
A61H 3/061; A61H 2003/063; A61H 3/068; A61H 2201/0188; A61H 2201/5007; A61H 2201/5084; A61H 2201/5092; A61H 2201/1215
(84) Benannte Vertragsstaaten:
AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR
Benannte Erstreckungsstaaten:
BA ME
Benannte Validierungsstaaten:
KH MA MD TN

(30) Priorität: 13.11.2020 DE 102020006971

(71) Anmelder:
  • Bayer, Alexander
    73433 Aalen (DE)
  • Bayer, Thomas
    73433 Aalen (DE)

(72) Erfinder:
  • Bayer, Alexander
    73433 Aalen (DE)
  • Bayer, Thomas
    73433 Aalen (DE)

   


(54) KAMERABASIERTES ASSISTENZSYSTEM MIT KÜNSTLICHER INTELLIGENZ FÜR BLINDE PERSONEN


(57) Es wird ein Deep Learning basiertes Assistenzsystem für blinde Personen angegeben, welches diese auch in komplexeren Situationen in Bezug auf ihre weitere Gehrichtung zuverlässig unterstützt. Dazu wird vorzugsweise mindestens eine Ultra-Weitwinkel-Kamera verwendet, aus deren Aufnahmen durch Depth Estimation ein 3D-Bild generiert wird. In die Bestimmung der empfohlenen Gehrichtung werden auch die Anweisungen einer gegebenenfalls aktiven GPS-Navigation einbezogen. Die gewonnenen Informationen werden zusammen mit dem Kamerabild durch Deep Learning ausgewertet, um dem Benutzer durch einen von einem elektrischen Stellmotor bewegten Zeiger eine Gehrichtung zu empfehlen. Gefahren und sonstige wichtige Informationen über die Umgebung werden dem Benutzer durch unterschiedliche Vibrationsmuster oder Sprache signalisiert. Am Assistenzsystem kann zudem ein Blindenlangstock befestigt werden, sodass für den Benutzer keine lange Eingewöhnungsphase nötig ist. Durch den Deep Learning Ansatz wird auch das Erkennen von glänzenden, spiegelnden, schwarzen sowie durchsichtigen Gegenständen, als auch von Strukturen ermöglicht, die vom Benutzer als scheinbares Hindernis gar nicht umgangen werden müssen.




Beschreibung


[0001] Die Erfindung betrifft ein Assistenzsystem nach dem Oberbegriff des Patentanspruch 1. Derartige Assistenzsysteme sind beispielsweise aus der AU 2020101563 A4 bekannt. Darin wird vorgeschlagen, den Bereich vor der blinden Person mit einem sich horizontal drehenden Ultraschallsensor abzutasten. Darüber hinaus wird auch vorgeschlagen, ein vom Ultraschallsensor erkanntes Hindernis über ein Kamerabild, das durch ein neuronales Netzwerk verarbeitet wird zu validieren, und die blinde Person davon über Ohrhörer zu alarmieren. Das bekannte Assistenzsystem weist den Nachteil auf, dass die blinde Person - da diese lediglich einen akustischen Alarm erhält - weder weiß, welche Art von Hindernis erkannt wurde, in welcher Richtung sich das Hindernis befindet, noch in welcher Richtung sie dem Hindernis ausweichen sollte. Darüber hinaus werden kontinuierliche Audiosignale und das Tragen von Kopfhörern von Blinden als störend und gefährlich empfunden, da dabei leicht Gefahren, wie beispielsweise herannahende Fahrzeuge überhört werden.

[0002] Aus der KR 101321187 B1 ist ein Assistenzsystem für Blinde bekannt, bei dem mehrere Ultraschallsensoren den in Gehrichtung vor der blinden Person gelegenen Bereich abtasten, wobei je nach Lage eines erkannten Hindernisses am Bedienpult des Assistenzsystems ein von der blinden Person erkennbares taktiles Signal abgegeben wird. Dabei kann die Entfernung, ab der das Assistenzsystem ansprechen soll, von der blinden Person individuell eingestellt werden.

[0003] Obgleich dieses Assistenzsystem einer blinden Person auch anzeigt, in welche Richtung einem vor ihr liegenden Hindernis auszuweichen ist, bleibt für diese nach wie vor unklar, um welche Art von Hindernis es sich handelt. Ein weiterer Nachteil dieses Assistenzsystems liegt darin, dass sein Benutzer zwar Informationen über die Existenz von vor ihm liegenden Hindernissen, aber keine Informationen über deren Dimensionen oder Art erhält.

[0004] Darüber hinaus ist die Zuverlässigkeit und Genauigkeit der Signale dadurch erheblich beschränkt, dass Ultraschallsensoren verwendet werden, die zum einen auf schwächer reflektierende Objekte teilweise nicht ansprechen und aufgrund ihrer wellenlängenbedingten geringeren Winkelauflösung nicht richtig erkannt werden.

[0005] Beim Assistenzsystem nach der DE 10 2017 001 476 A1 wird versucht, diesem Nachteil dadurch entgegenzuwirken, dass mehrere Infrarot- oder Ultraschallquellen und entsprechende Empfänger den vor dem Benutzer liegenden Bereich abtasten und die empfangenen Signale von einem Mikrocontroller ausgewertet werden. Die Auswertung geschieht dabei in der Weise, dass durch Vergleich mit standardmäßigen baulichen Gegebenheiten, wie zum Beispiel der Höhe von Treppenstufen, dem Benutzer die Art des Hindernisses akustisch mitgeteilt wird. Darüber hinaus weist dieses Assistenzsystem ein mit dem Boden in Kontakt stehendes Antriebssystem auf, durch welches der Benutzer bei seiner Vorwärtsbewegung aktiv so geführt wird, dass er Hindernissen sicher ausweichen kann.

[0006] Bei diesem Assistenzsystem treten allerdings teilweise Situationen in Bezug auf die Umgebung des Benutzers auf, die nicht den standardmäßig der mittels Ultraschall- und Infrarotsensoren gewonnenen und im Mikrocontroller hinterlegten Daten für bauliche Gegebenheiten entsprechen, wodurch dieser in falscher Weise geführt werden kann.

[0007] Das aus der US 8922759 B2 bekannte Assistenzsystem versucht diesen Nachteil dadurch zu vermeiden, dass zur Verbesserung der Erkennung der Art von Hindernissen ein Blindenlangstock mit einem sogenannten Time-Of-Flight Sensor (TOF oder auch LiDAR Sensor genannt) verwendet wird. Dieser dient zur Erfassung der Art und der Messung von Entfernungen räumlich gegenständlicher Objekte und vermittelt der blinden Person die Messwerte in Form haptischer Signale. Die Verwendung eines TOF-Sensors birgt die Nachteile, dass derartige Sensoren bei hellem Tageslicht bisher nicht zuverlässig genug arbeiten und ein vergleichsweise hohes Gewicht haben. Darüber hinaus werden durch TOF Sensoren glänzende, spiegelnde, schwarze und auch durchsichtige Gegenstände nicht erkannt. Weiterhin kann mit einem solchen TOF-Sensor nicht erkannt werden, ob es sich bei Hindernissen um solche handelt, die wie beispielsweise eine Tür vom Benutzer nicht umgangen werden muss, sondern benutzt werden kann. Umgekehrt soll beispielsweise ein bis zum Boden reichender Spiegel nicht als Durchgang, sondern als Hindernis erkannt werden. Schließlich ist eine solche Unterscheidung beispielsweise auch wichtig für einen auf gleicher Höhe wie eine benachbarte Fahrbahn verlaufender Fußweg, da beide für den TOF-Sensor eine gemeinsame Ebene darstellen.

[0008] Auch dieses Assistenzsystem weist den weiteren Nachteil auf, dass die blinde Person - da diese lediglich Entfernungsangaben zu einem etwa vor ihr liegenden Hindernis erhält - nach wie vor nicht weiß, welche Art von Hindernis erkannt wurde und in welcher Richtung sie dem Hindernis ausweichen sollte.

[0009] Es war daher eine Aufgabe der Erfindung, ein Assistenzsystem für blinde Personen nach dem Oberbegriff des Patentanspruchs 1 so weiterzubilden, dass dieses der blinden Person beim Auftreten eines Hindernisses nicht nur ein einfaches "rechts" oder "links" Signal als allgemeine Richtungsanweisung gibt, sondern auch eine genaue Gehrichtung.

[0010] Weitere Aufgabe der Erfindung ist es, dieses bekannte Assistenzsystem so auszugestalten, dass es vor dem Benutzer sich befindliche, nicht durch ihre Abmessungen von der Umgebung sich abzeichnende Strukturen als solche erkennen kann.

[0011] Diese Aufgabe wird durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.

[0012] Das erfindungsgemäße Assistenzsystem weist den Vorteil auf, dass Benutzer insbesondere in komplexeren Situationen durch genaue Angabe der einzuschlagenden Gehrichtung in die Lage versetzt werden, schmale Durchgänge wie zum Beispiel an U-Bahn Haltestellen oder innerhalb von Zügen zielsicher zu passieren.

[0013] Zusätzlich löst die Erfindung das Problem, dass die bekannten Assistenzsysteme nicht in der Lage waren, eine Gehrichtung zuverlässig zu signalisieren, wenn keine räumlichen Hindernisse vor der blinden Person lagen, wie es beispielsweise in großen Räumen, Fußgängerzonen oder auf Feld- und Gehwegen der Fall ist. Durch diese Fähigkeit des erfindungsgemäßen Assistenzsystems erweitert sich dessen Anwendungsbereich beträchtlich.

[0014] Ein weiterer Vorteil der Erfindung besteht darin, dass es mit dem erfindungsgemäßen Assistenzsystem möglich ist, verschiedene Kategorien (zum Beispiel Personen, Fahrzeuge oder Möbel) von vor der blinden Person liegenden Hindernissen und Gegenständen zu erkennen und der blinden Person zu signalisieren.

[0015] Mit dem erfindungsgemäßen Assistenzsystem ist es auch möglich, mithilfe der vom neuronalen Netzwerk erkannten Anordnung von Gegenständen Situationen zu erkennen, in denen sich der Benutzer befindet. Beispiele dafür sind, dass der Benutzer den Gehweg verlassen hat und sich bereits auf der Straße befindet oder dass er vor einer noch zu öffnenden Türe steht, die bei Assistenzsystemen nach dem Stand der Technik schlicht als Wand interpretiert werden. Das künstliche neuronale Netzwerk wird dazu auf einen möglichst großen Datensatz an Beispielbildern, die manuell mit der korrekten Gehrichtung, sowie den in den Beispielbildern enthaltenen nützlichen Informationen versehen wurden, trainiert.

[0016] Was letztere angeht, so können dies insbesondere sein:
Kameralinse verschmutzt; Achtung Vorsicht geboten: Gehrichtung noch unklar; Zebrastreifen vorhanden; Vorsicht Stufe; Treppe abwärts; Treppe aufwärts; die Liniennummer und das Fahrziel einer einfahrenden Straßenbahn oder Busses; Türe vorhanden; Bahnsteigkante vorhanden; Haltestelle vorhanden

[0017] Das künstliche neuronale Netzwerk kann auch auf komplexe Situationen trainiert werden, sodass es auch in einer Bahnhofsunterführung oder auf einem Marktplatz mit vielen beliebig umherlaufenden Menschen eine empfohlene Gehrichtung signalisieren kann, sodass Kollisionen mit Passanten verhindert werden.

[0018] Die Weiterbildung der Erfindung nach Anspruch 2 bietet den Vorteil, dass durch die Generierung eines Tiefenbildes wesentlich detailliertere Informationen in Bezug auf den vor der blinden Person gelegenen Bereich geliefert werden. So kann die Genauigkeit der empfohlenen Gehrichtung dadurch verbessert werden, dass als Zwischenschritt durch Depth Estimation ein Tiefenbild erzeugt wird, aus dem zusammen mit dem Farbbild die empfohlene Gehrichtung gewonnen wird. Dadurch verbessert sich die Genauigkeit vor allem in Situationen in denen eine Vielzahl von Personen vor der blinden Person stehen (beispielsweise auf einem Marktplatz) oder in denen kein klarer Weg erkennbar ist, sondern sich viele Objekte in der Umgebung befinden (beispielsweise in Innenräumen).

[0019] Die Weiterbildung der Erfindung nach Anspruch 3 bietet den Vorteil, dass durch Verwendung von Stereobildern nicht nur ein Tiefenbild erzeugt, sondern auch die Entfernung von bestimmten Punkten im Bild noch genauer auf einer absoluten Skala erfasst werden kann. Zusätzlich kann die Messung dieser Entfernung bei Situationen verbessert werden, in denen Referenzobjekte mit bekannter Dimension fehlen, wie beispielsweise Personen, oder Fahrzeuge.

[0020] Die Weiterbildung der Erfindung nach Anspruch 4 bietet den Vorteil, dass in Situationen mit sich bewegenden Personen oder Objekten in der Umgebung aus mehreren nacheinander aufgenommenen Bildern bestimmt werden kann, ob die jeweiligen Personen oder Objekte sich auf die blinde Person zu, von ihr weg oder sich seitlich zu dieser bewegen. So stellen vor der blinden Person in die gleiche Richtung gehende Personen kein Hindernis für die Fortbewegung der blinden Person dar, Personen die sich auf die blinde Person zu bewegen jedoch schon. Dadurch kann das Assistenzsystem bei entgegenkommenden Passanten eine Richtung G empfehlen, die dazu führt, dass die blinde Person P der entgegenkommenden Person ausweicht. Außerdem kann aus den aus aufeinanderfolgenden Farb- oder Tiefenbildern gewonnenen Bewegungsinformationen durch das künstliche neuronale Netzwerk eine genauere empfohlene Gehrichtung gewonnen werden, wenn sich vor der blinden Person viele in unterschiedliche Richtungen gehende Menschen befinden. Ebenso stellt ein seitlich neben der von der blinden Person eingeschlagenen Gehrichtung geparktes Fahrzeug kein Hindernis für diese dar, fährt das gleiche Fahrzeug jedoch zu Bildmitte des aufgenommen Kamerabildes, so stellt dieses eine potenzielle Gefahr für die blinde Person dar.

[0021] Die Weiterbildung der Erfindung nach Anspruch 5 bietet den Vorteil, dass für die Berechnung der Ausgabewerte des neuronalen Netzwerks (G, I) deutlich weniger Zeit benötigt wird, als wenn dieselbe Berechnung auf der Hauptrecheneinheit (CPU) durchgeführt würde. Dadurch wird die gesamte Latenzzeit, das heißt die gesamte Zeitdauer von der Aufnahme des letzten Bildes einer Bildserie bis zur Möglichkeit der Ausgabe der empfohlenen Gehrichtung, verringert. Ein weiterer Vorteil besteht darin, dass die Tensor Recheneinheit ("TPU") für die gleiche Berechnung deutlich weniger Energie verbraucht als dies bei Verwendung der Hauptrecheneinheit der Fall wäre, wodurch die Akkulaufzeit des Assistenzsystems erhöht wird.

[0022] Nach Anspruch 6 werden die erfassten Informationen auch noch haptisch durch einen rotierenden Zeiger an die blinde Person weitergegeben, der an einem zum Assistenzsystem gehörenden Griff angebracht ist. Diese wird dadurch in die Lage versetzt, selbst Entscheidungen darüber treffen zu können, wie sie auf die Gegebenheiten, beispielsweise einer Treppe, einer Türe oder einem Zebrastreifen reagieren möchte. Dabei wird sie jedoch stets über die angezeigte Richtung um Hindernisse herumgeführt und immer auf begehbaren Wegen gehalten. So wird der blinden Person nicht nur eine ungefähre Richtung (wie bei einem akustischen rechts/links Signal) gegeben, sondern immer eine exakte Richtungsangabe, die mit den Fingern ertastet werden kann. So kann die blinde Person Ihre Geschwindigkeit erhöhen, da ihr kontinuierlich ein genaues Richtungssignal angezeigt wird, sodass kleine Abweichungen der blinden Person von der empfohlenen Gehrichtung ständig, aber sanft korrigiert werden.

[0023] Die Weiterbildung der Erfindung nach Anspruch 7 bietet den Vorteil, dass die blinde Person durch von einem Vibrationsmotor erzeugte unterschiedliche Vibrationsmuster, sowie akustisch über Sprachsignale - die auch deaktivierbar sind - über vorhandene Türen, Treppen und Gefahren informiert wird. Das ist insofern hilfreich, als mit einem konventionellen Blindenstock eine geschlossene Türe durch Tasten nicht von einer Wand unterschieden werden kann. Außerdem werden mit einem konventionellen Blindenstock Stufen erst etwa in einer Entfernung von ca. 60 cm erkannt, wodurch die blinde Person ihre Gehgeschwindigkeit reduzieren muss, um ständig auf plötzlich auftretende Stufen gefasst zu sein.

[0024] Die Erweiterung nach Anspruch 8 bietet den Vorteil, dass sich erblindete Menschen, die sich langsam an das erfindungsgemäße Assistenzsystem gewöhnen möchten, zu Beginn nicht gleich auf den Blindenlangstock verzichten müssen. Hindernisse können nämlich sicherheitshalber zusätzlich zu der optischen Erkennung durch das Assistenzsystem auch mit dem Blindenlangstock ertastet werden. Die ermöglichte Beibehaltung des Blindenlangstocks ist auch insofern vorteilhaft, als andere Verkehrsteilnehmer diesen als bekanntes Kennzeichen für eine erblindete Person im Straßenverkehr wahrnehmen.

[0025] Die Weiterbildung der Erfindung nach Anspruch 9 bietet den Vorteil, dass eine Navigation zu einem bestimmten von der blinden Person P eingegebenen Ziel in die der blinden Person empfohlene Gehrichtung mit einberechnet wird. Hierdurch kann beispielsweise eine Straßenüberquerung an einer geeigneten Stelle mit Ampel oder Zebrastreifen priorisiert werden. Wenn es während einer aktiven GPS-Navigation also mehrere mögliche Richtungen gibt, in die eine Fortbewegung denkbar wäre, so kann als weitere Information durch das künstliche neuronale Netzwerk berücksichtigt werden, in welche Richtung die GPS-Route führt, um der blinden Person das Folgen der berechneten Route zu erleichtern.

[0026] Bei einer Straßenüberquerung kann mit der Weiterbildung der Erfindung nach Anspruch 10 durch Radarsensoren überprüft werden, ob ein sicheres Überqueren der Straße möglich ist oder ob sich ein Fahrzeug nähert. Wenn letzteres der Fall ist und somit ein Queren der Straße zu gefährlich wäre, kann dies durch ein Vibrationsmuster der blinden Person signalisiert werden. Bewegt sich die blinde Person trotz einer solchen Warnung auf die Straße, kann zusätzlich ein Warnton ausgegeben werden.

[0027] Um zu garantieren, dass das Kamerasystem auch bei Dunkelheit die Umgebung klar erfasst und die blinde Person von anderen Verkehrsteilnehmern gut wahrgenommen werden kann, sind nach Anspruch 11 mehrere Lichtquellen in dem Assistenzsystem verbaut. Diese können automatisch eingeschaltet werden, sowie in der Intensität gesteuert werden.

[0028] Die für die Ausleuchtung der Umgebung verwendete Lichtquelle kann Licht im Infrarotbereich emittieren, sodass Passanten dadurch nicht geblendet werden.

[0029] Die Weiterbildung der Erfindung nach Anspruch 12 bietet den Vorteil, dass bei einer schnellen Drehung des Assistenzsystems durch die blinde Person die angezeigte Gehrichtung um den von einem Drehratensensor durch Integration gemessenen Drehwinkel sehr schnell angepasst werden kann. Dadurch kann, bis die Neuberechnung der empfohlenen Gehrichtung durch das neuronale Netzwerk abgeschlossen ist zwischenzeitlich eine Gehrichtung angezeigt werden, die in den meisten Fällen bereits der korrekten Gehrichtung entspricht. Dadurch wirkt die Angabe der Gehrichtung gegenüber der blinden Person klarer und kann daher viel seltener zu deren Verwirrung führen.

[0030] Im Folgenden wird ein Ausführungsbeispiel der Erfindung näher beschrieben. Dabei zeigt:

Fig. 1 einen Querschnitt des Assistenzsystems A,

Fig. 2 eine mögliche Richtungsempfehlung G mit verschiedenen Hindernissen H,

Fig. 3 eine mögliche Richtungsempfehlung G bei einer Straßenüberquerung (mit Zebrastreifen)

Fig. 4 eine mögliche Richtungsempfehlung G auf einem Bahnsteig

Fig. 5 die Steckverbindung des faltbaren und modularen Langstocks

Fig. 6 den strukturellen Aufbau des neuronalen Netzwerks

Fig. 7 den Datenfluss des Assistenzsystems A und

Fig. 8 eine Übersicht, in der eine typische Anwendungssituation des Assistenzsystems zu sehen ist.



[0031] Das Assistenzsystem A gemäß Fig. 1 umfasst ein im 3D-Druck Verfahren hergestelltes Gehäuse. Dies weist Einschübe für einen Akku 3 und einen Blindenlangstock 9 auf. Wird der Akku 3 in das Gehäuse eingeschoben, wird er mit einer mittig platzierten Steckverbindung verbunden, über die das System A mit Strom versorgt wird. Bei dem verwendeten Anschluss ist die Orientierung des Akkus 3 irrelevant, sodass der Akku 3 auch gedreht in das Gehäuse eingeschoben werden kann. Ist der Akku 3 in das System A eingeschoben, wird dieser verriegelt, beispielsweise durch Verschließen des Akkufachs.

[0032] Wird der faltbare Blindenlangstock 9 in das Assistenzsystem A eingeschoben, kann dieser mit dem Haltemechanismus 10 am Herausrutschen gehindert werden. Dazu wird ein Magnet verwendet, der den Magneten im Ende des Blindenstocks anzieht um diesen in Position zu halten.

[0033] Der Blindenlangstock 9 besteht aus Gewichtsgründen aus einem rot-weiß lackierten Carbon-Rohr, das in mehrere Abschnitte unterteilt ist, die wie in Fig. 5 dargestellt miteinander verbunden werden, sodass im zusammengesteckten Zustand kein Übergang zwischen den Unterteilungen gefühlt werden kann und somit Spaltmaße minimiert werden, wodurch die allgemeine Stabilität des Blindenstocks verbessert wird. Dadurch kann der Blindenstock, um Platz zu sparen zusammengefaltet werden wenn dieser nicht benötigt wird. Die in Fig. 5 dargestellte Verbindung ist ebenfalls robust für auftretende Belastungen durch das Pendeln des Langstockes 9 und kann durch Auseinanderziehen durch die blinde Person P getrennt werden. Die sogenannte Spitze 11 des Blindenstocks 9 kann beispielsweise für einfacheres und leiseres Pendeln kugelgelagert werden. Darüber hinaus wäre es möglich einen Motor in die Spitze einzubauen, der dem Blindenlangstock einen Impuls nach links oder rechts geben kann, sowie Sensoren zur Erkennung von Erschütterungen durch Boden und Hindernissen H. Die Sensorwerte als eine weitere Informationsquelle für das neuronale Netzwerk genutzt werden. Ebenfalls denkbar ist es, die kugelgelagerte Spitze des Langstockes 9 als Allseitenrad auszuführen um die zum Pendeln und Gehen nötige Kraft weiter zu reduzieren.

[0034] Zusätzlich zu dem tauschbaren Akku 3 ist auch eine Dockingstation denkbar, die an einer Wand angebracht wird und das System A über leitfähige Kontaktstellen oder kabelloses Laden durch entsprechendes Einhängen in die Ladestation automatisch deaktiviert und geladen wird.

[0035] Der Vorteil einer an der Wand befestigten Dockingstation ist, dass diese sehr wenig Platz einnimmt, das Assistenzsystem A dadurch immer aufgeräumt ist und ein eventuelles Stolpern verhindern kann. So kann die Station in der Nähe der Eingangstüre angebracht werden, sodass das Assistenzsystem A immer voll aufgeladen griffbereit ist. Alternativ ist auch ein USB Typ C Ladeanschluss integriert, der das Laden des Akkus mit herkömmlichen Smartphone Ladegeräten ermöglicht.

[0036] Das Gehäuse des Assistenzsystems A ist ergonomisch geformt, sodass der Griff, der einen Servomotor 5 mit Zeiger 6 beinhaltet, bei der Benutzung einen flachen Winkel von ca. 10° zur Horizontalen aufweist, der sich aus der natürlichen Handhaltung des Menschen ergibt, wodurch die blinde Person P ihr Handgelenk gegenüber einem üblichen Blindenlangstock weniger stark anwinkeln muss. Außerdem ist der Griff der Form einer Hand angepasst, sodass dieser bequemer in der Hand liegt.

[0037] Der Zeiger 6 ist je nach Vorliebe der blinden Person P etwa 15 bis 25 Millimeter lang, sodass die blinde Person P mit Ihrem Daumen gut die Richtung G ertasten kann, in die der Zeiger 6 gerichtet ist. Diese Richtung entspricht der empfohlenen Gehrichtung G, die das Assistenzsystem A aufgrund der vorliegenden Hindernisse H, für am besten geeignet für die weitere Fortbewegung vorschlägt. Dazu ist der Zeiger mittels einer Schraube auf der Welle eines Mikro Servo Motors befestigt, der eine Möglichst hohe Winkelgeschwindigkeit aufweist. Dieser Motor wird über eine PWM Signal durch die Hauptrecheneinheit die als Raspberry PI Compute Module ausgeführt ist, gesteuert.

[0038] Die Kamera 4 ist in dem Gehäuse so verbaut, dass sie bei Benutzung des Systems A leicht zum Boden geneigt ist, sodass möglichst alle optischen Merkmale der Umgebung erfasst werden können.

[0039] Dabei wurde die Position der Kamera 4 so gewählt, dass weder der Griff G des Systems A noch der Blindenlangstock 9 bzw. das entsprechende Endstück 11 auf dem Kamerabild zu sehen ist. Die Kamera ist über eine "MIPI CSI" Kameraschnittstelle mit dem Einplatinencomputer verbunden und verfügt über einen möglichst großen Blickwinkel von beispielsweise 180 Grad. Aus den Kamerabildern kann ebenfalls eine 3D-Karte der näheren Umgebung angelegt werden (Point Cloud, gewonnen durch SLAM, Simultaneous Localization And Mapping), die als weitere Informationsquelle für das neuronale Netzwerk dienen kann. Ebenso kann durch die Verwendung eines Drehratensensors und Beschleunigungssensors, während dem Pendeln mit dem Assistenzsystem A das Kamerabild über den Blickwinkel der Kamera hinaus erweitert werden. Dadurch würde eine Art Panoramabild entstehen.

[0040] In dem Gehäuse sind nach Fig. 1 noch ein Vibrationsmotor 7 und ein Lautsprecher 8 verbaut. Diese werden von dem Einplatinencomputer 1 angesteuert. Der Vibrationsmotor 7 kann dabei über Pulsweitenmodulation in der Intensität gesteuert werden, sodass nicht nur lange und kurze Vibrationen, nämlich auch starke und schwache Vibrationen sowie Vibrationsmuster (beispielsweise dreifache kurze Vibration) erzeugt werden können. So kann beispielsweise durch die Intensität der Vibration die Entfernung zu einem Hindernis H bzw. einer räumlichen Gegebenheit angegeben werden. Durch Vibrationsmuster kann zudem angegeben werden, ob eine räumliche Gegebenheit, wie z. B. eine Türe oder Treppe erkannt wurde. Dabei werden die von der blinden Person P am häufigsten benötigten Informationen I (beispielsweise Türe oder Treppe) durch unterschiedliche Vibrationsmuster signalisiert und für selten auftretende Informationen (beispielsweise "suche nach Briefkasten erfolgreich") auf die Sprachausgabe zurückgegriffen und das Gehör der blinden Person P möglichst wenig zu beanspruchen. Zur Steuerung des Vibrationsmotors 7 wird ein Transistor verwendet, um mit der 3,3V Steuerspannung des Einplatinencomputers oder System on Module (Beispielsweise ein Raspberry Pi compute module 4) mit 5V zu betreiben. Der Vibrationsgenerator und der Tongenerator können dabei als ein Bauteil ausgeführt werden. Solch ein sogenannter Exciter wird dazu verwendet Sprache durch Nutzung der Resonanz des Kunststoffgehäuse wiederzugeben. Außerdem kann über den Exciter auch ein Vibrationssignal wiedergegeben werden, das sich besonders angenehm anfühlt, ähnlich dem aus dem aus dem iPhone bekannten Signal der "Taptic Engine".

[0041] Über den Lautsprecher 8 wird Sprache ausgegeben, die Synthetisch erzeugt wird. Als Synthesizer wird eine Machine Learning basierte Methode verwendet, wodurch ein natürliches Sprachbild zustande kommt. Auch möglich ist das Speichern von fertigen Audiodateien auf dem Speicher des Raspberry Pi, die häufig gebraucht werden, wie "Treppe" oder "Zebrastreifen". Ausgegeben kann über Sprache beispielsweise Informationen zu einer Routenführung oder erkannter räumlicher Gegebenheiten. Zusätzlich kann durch ein weiteres künstliches neuronales Netz das erfasste Kamerabild in Worten beschrieben werden, sowie Buslinien und Fahrziel eines Busses oder sonstiger Text vorgelesen werden. Auch das Suchen von Objekten ist so möglich, wobei der Nutzer akustisch benachrichtigt wird, sobald das gesuchte Objekt - beispielsweise ein Mobiltelefon oder ein Briefkasten - im Kamerabild durch ein Machine Learning Modell zur Objektklassifizierung (dazu kann MobileNet v2 als machine learning Modell verwendet werden) erkannt wurde. Denkbar ist auch das Erkennen und Vorlesen der Farbe eines vor dem System A befindlichen Kleidungsstückes oder sonstigen Objekts. Um dem Nutzer das Erlernen der Bedeutung der Vibrationsmuster zu erleichtern, kann zu Beginn zu jedem Vibrationssignal die entsprechende Bedeutung auch akustisch ausgegeben werden bis der Nutzer die Sprachausgabe nicht mehr benötigt um die Bedeutung der Vibrationssignale zu erkennen.

[0042] Das Deep Learning Modell (künstliches neuronales Netzwerk, Deep Convolutional Neural Network) verarbeitet ein Farbbild mit den Dimensionen [224,224,3] für ein einzelnes Farbbild bzw. entsprechend erweiterten Dimensionen für weitere Eingabedaten, die beispielsweise Tiefen- oder Bewegungsinformationen beinhalten. Mit einem weiteren Channel für Tiefeninformation haben die Eingabedaten des Machine Learning Modells dann die Dimensionen [224,224,4].

[0043] In Form weiterer Channels (der dritte Wert der Dimensionen repräsentiert die Anzahl der Channels des Eingabetensors) kann zu den Eingabedaten zusätzlich die Information "demnächst rechts/links abbiegen" hinzugefügt werden, sofern die GPS Navigation auf dem Assistenzsystem aktiviert ist (per im Assistenzsystem Integriertem GPS Empfänger), oder durch eine App per Bluetooth die Richtungsanweisungen der auf dem Smartphone der blinden Person an das Assistenzsystem übermittelt werden. Ebenfalls auf diese Weise werden dem Machine Learning Modell die Geschwindigkeitsmesswerte der nach links und rechts gerichteten Radarsensoren bereitgestellt, sodass herannahende Fahrzeuge erkannt werden können. Auch als zusätzlicher Channel des Eingabetensors kann eine Semantic Segmentation genannte Repräsentation des Kamerabildes verwendet werden die zuvor durch ein weiteres Neuronales Image to Image Netzwerk gewonnen wurde. Die Eingabedaten werden innerhalb des Netzwerkes durch eine oder je nach Eingabedaten auch mehrere parallele Netzwerkstrukturen verarbeitet, durch die bedeutsame Merkmale in den Daten erkannt und lokalisiert werden. Darauf folgt eine Netzwerkstruktur, die die erkannten Merkmale interpretiert und daraus die Ausgabe des Netzwerks schlussfolgert (Fully Connected Layers, auch Dense Layer genannt).

[0044] Es ist auch denkbar die Ersten drei Farbkanäle (das Farbbild) in ein neuronales Netzwerk zu leiten, welches daraus ein Tiefenbild berechnet (auch bekannt als Monocular Depth Estimation), das dann Zusammen mit dem Farbbild selbst und den gegebenenfalls weiteren Channels (Farbkanälen), das als sogenannter Bypass weitergeleitet wird, durch eine weitere neuronale Netzwerkstruktur verarbeitet wird. Daraufhin folgen wieder Dense Layer, die die erkannten Merkmale Interpretieren und schlussendlich die Ausgabewerte berechnen.

[0045] Die Ausgabe des Netzwerks besteht aus einem Winkel sowie mehreren Werten, die sich zwischen 0 und 1 befinden. Dabei nähert sich ein Wert 1 an, wenn die bestimmte Situation, die der Wert widerspiegelt, im Kamerabild zu sehen ist.

[0046] Als Convolutional Neural network kann beispielsweise ein sogenanntes "ResNet50" oder auch "MobileNetv2" verwendet werden, dessen Parameter auf die im Datensatz enthaltenen Beispielbilder trainiert worden sind. Die letzten Layer der "MobileNet" Netzwerkarchitektur müssen dadurch durch Dense Layer ersetzt werden, die einen Output-Tensor erzeugen der die Passende Anzahl an ausgabewerte hat um die empfohlene Gehrichtung sowie die weiteren Nützlichen Informationen (Treppe, Zebrastreifen ...) auszugeben.

[0047] Für die Monocular Depth Estimation wird ein ResNet 50 Encoder verwendet und ein Decoder der auch über sogenannte skip Connections mit dem Encoder vernetzt ist um ein Tiefenbild zu erzeugen. Der Dazu nötige 3D Datensatz wird zuvor mit einem möglichst genauen Lidar Sensor oder Stereokamera aufgezeichnet. Um die jeweiligen Neuronalen Netzwerke auf den Datensatz zu trainieren wird entweder PyTorch oder TensorFlow als machine learning Framework verwendet.

[0048] Die Ausgabewerte werden in der beschriebenen Ausführungsform auf einem per PCI-Express mit dem Raspberry Pi compute module verbundenen "AI accelerator" berechnet. Dafür wird ein "Coral Accelerator Module" verwendet. Jedoch kann auch eine Platine verwendet werden, die sowohl Tensor- sowie Hauptrecheneinheit enthält. Auch kann als Hauptrecheneinheit ein i.MX 8M Plus Prozessor mit integrierter Neural Processing Unit (NPU / TPU) verwendet werden anstelle eines separaten Machine Learning Beschleunigers

[0049] Um die Latenzzeit weiter zu verringern und gleichzeitig den Energieverbrauch zu senken kann man die Position des Zeigers am Griff G mithilfe der Informationen über die Drehung des Assistenzsystems, die mit einem Drehratensensor gemessen werden, aktualisieren. So wird der Fakt verwendet, dass wenn die empfohlene Gehrichtung geradeaus nach vorne zeigte und zwischenzeitlich das Assistenzsystem um 20 Grad nach rechts gedreht wurde die neue empfohlene Gehrichtung mit sehr hoher Wahrscheinlichkeit mit 20 Grad nach links zeigt. Da die Messung der Drehrate und deren Integration über die Zeit weniger Zeit benötigt als das Aufnahmen eines neuen Bildes und dessen Auswertung durch das Neuronale Netzwerk verringert sich die Latenzzeit.

[0050] Alternativ kann zu Monocular Depth Estimation auch das Verfahren Structure From motion oder "Depth Map from Stereo Images" eingesetzt werden.
zwei nacheinander gewonnene Tiefenbilder werden nun voneinander subtrahiert, um ein Bild zu erhalten in dem zu erkennen ist welche Objekte sich relativ zum Assistenzsystem bewegt haben. Dieses Bild kann nun ebenfalls durch ein Neuronales Netzwerk verarbeitet werden, um die Genauigkeit der empfohlenen Gehrichtung zu verbessern.

[0051] Zusätzlich sind an verschiedenen Stellen des Gehäuses LED-Leuchtdioden angebracht die durch einen Verbauten Umgebungslichtsensor bei Dunkelheit aktiviert werden um das Assistenzsystem besser sichtbar zu machen. Außerdem Leuchten diese Leuchtdioden die Umgebung aus, um ein besseres Kamerabild aufnehmen zu können.

[0052] Es können auch mehrere Weitwinkelkameras integriert sein die in unterschiedliche Richtungen zeigen um gleichzeitig einen größeren Bereich abzudecken um Hindernisse zu erkennen die sich über dem Assistenzsystem befinden.

Bezugszeichenliste:



[0053] 
1
= Haupt-Recheneinheit
2
= Tensor-Recheneinheit
3
= Tauschbarer Akku
4a, 4b
= Kamerasystem
5
= Motor
6
= Zeiger
7
= Vibrationsgenerator
8
= Tongenerator
9
= Faltbarer Blindenlangstock
10
= Haltemechanismus
11
= Kugel
12a, 12b
= Carbon-Röhren
13
= Stöpsel
14
= Dehnbarer Gummi
15
= Griff
16
= Drehratensensor
17
= Lichtquelle
18
= Radarsensor
A
= Assistenzsystem
G
= Empfohlene Gehrichtung
H
= Hindernis
I
= Nützliche Information
P
= Blinde Person
U
= Umfeld



Ansprüche

1. Assistenzsystem (A) für blinde Personen (P) zur Detektion und Signalisation einer empfohlenen Gehrichtung (G) und weiterer für blinde Personen (P) nützlicher Informationen (I), wobei die Umgebung (U) der blinden Person (P) durch ein aus einer oder mehreren optischen Kameras (4a, 4b) bestehenden Kamerasystem (4) erfasst wird, dadurch gekennzeichnet, dass aus den laufend gewonnenen farbigen Kamerabildern mit einer Recheneinheit (1, 2) durch ein oder mehrere dort hinterlegte sogenannte "convolutional neural networks" die der blinden Person (P) empfohlene Gehrichtung (G) bestimmt und dieser signalisiert wird, sowie nützliche Informationen (I), beispielsweise in Bezug auf Hindernisse und Optionen für ihre Fortbewegung gibt und dass die vorgenannten neuronalen Netzwerke vor ihrer Verwendung auf der Recheneinheit (1,2) mit typischen Bildern von beim Gebrauch des Assistenzsystems (A) auftretenden Anordnungen von Hindernissen (H) und Optionen durch ein sogenanntes "machine learning framework"-Programm trainiert worden sind.
 
2. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass am Assistenzsystem (A) mindestens eine der Kameras (4a) des Kamerasystems (4) Aufnahmen der Umgebung (U) der blinden Person (P) erzeugt, welche durch das neuronale Netzwerk durch sogenannte "Depth Estimation" in der Recheneinheit (1, 2) in ein Tiefenbild umgewandelt werden, das auch zur Gewinnung der empfohlenen Gehrichtung (G) sowie weiterer nützlicher Informationen (I) in Bezug auf die Art der vor der blinden Person (P) sich befindlichen Objekte mitverwendet wird.
 
3. Assistenzsystem nach Anspruch 2, dadurch gekennzeichnet, dass am Assistenzsystem (A) zwei das Umfeld aufnehmende Kameras (4a, 4b) angebracht sind, aus deren Aufnahmen in der Recheneinheit (1, 2) durch Vergleich der Aufnahmen beider Kameras mittels eines sogenannten "Depth Map from Stereo Images" oder "Structure from Motion"-Algorithmus ein Tiefenbild erzeugt wird.
 
4. Assistenzsystem nach Anspruch 3, dadurch gekennzeichnet, dass aus zeitlich nacheinander aufgenommenen Bildern mindestens einer der Kameras (4a, 4b) oder den daraus erzeugten Tiefenbildern Informationen zur Bewegung von Objekten gewonnen werden, die auch zur Berechnung der empfohlenen Gehrichtung (G), sowie weiterer nützlicher Informationen (I) verwendet werden.
 
5. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass zur Berechnung der empfohlenen Gehrichtung (G) und der nützlichen Informationen (I) mit Hilfe des künstlichen neuronalen Netzwerks eine speziell für die Ausführung künstlicher neuronaler Netzwerke hergestellte Tensor-Recheneinheit (2), ein sogenannter "machine learning accelerator", oder auch "Tensor Processing Unit" verwendet wird.
 
6. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass die empfohlene Gehrichtung (G) durch einen elektronisch gesteuerten, mechanisch durch einen Aktuator (5) bewegten Zeiger (6) angegeben wird, der an einem zum Assistenzsystem (A) gehörenden Griff (15) angebracht ist und dort von der blinden Person (P) ertastet werden kann.
 
7. Assistenzsystem nach Anspruch 6, dadurch gekennzeichnet, dass verschiedene nützlichen Informationen (I) haptisch durch am Griff (15) des Assistenzsystems (A) von einem Vibrationsgenerator (7) erzeugte unterschiedliche Vibrationssignale und/oder akustisch über einen Tongenerator (8) übermittelt werden.
 
8. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass am Assistenzsystem (A) ein Blindenlangstock (9) befestigt werden kann.
 
9. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei aktivierter GPS-Navigation bei der Bestimmung der empfohlenen Gehrichtung (G) die Informationen des Kartenmaterials und die durch eine GPS-Navigationssoftware bestimmte Route mitberücksichtigt werden.
 
10. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Assistenzsystem (A) über Radarsensoren (18) verfügt, die dazu geeignet sind, die Geschwindigkeit und optional die Entfernung von sich dem Nutzer nähernden Fahrzeugen, Personen und Gegenständen zu erfassen.
 
11. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass dieses über eine oder mehrere Lichtquellen (17) zur Ausleuchtung des von Kameras 4a, 4b aufgenommenen räumlichen Bereichs verfügt.
 
12. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass dieses über einen Drehratensensor (16) verfügt, dessen Messwerte dazu verwendet werden bei einer Drehung des Assistenzsystems (A) durch die blinde Person (P) um die vertikale Achse die empfohlene Gehrichtung (G) des Zeigers (6) schneller anzupassen als es allein durch Neuberechnung der empfohlenen Gehrichtung (G) aus dem Kamerabild möglich wäre.
 




Zeichnung






















Recherchenbericht









Recherchenbericht




Angeführte Verweise

IN DER BESCHREIBUNG AUFGEFÜHRTE DOKUMENTE



Diese Liste der vom Anmelder aufgeführten Dokumente wurde ausschließlich zur Information des Lesers aufgenommen und ist nicht Bestandteil des europäischen Patentdokumentes. Sie wurde mit größter Sorgfalt zusammengestellt; das EPA übernimmt jedoch keinerlei Haftung für etwaige Fehler oder Auslassungen.

In der Beschreibung aufgeführte Patentdokumente