[0001] Die Erfindung betrifft ein Assistenzsystem nach dem Oberbegriff des Patentanspruch
1. Derartige Assistenzsysteme sind beispielsweise aus der
AU 2020101563 A4 bekannt. Darin wird vorgeschlagen, den Bereich vor der blinden Person mit einem sich
horizontal drehenden Ultraschallsensor abzutasten. Darüber hinaus wird auch vorgeschlagen,
ein vom Ultraschallsensor erkanntes Hindernis über ein Kamerabild, das durch ein neuronales
Netzwerk verarbeitet wird zu validieren, und die blinde Person davon über Ohrhörer
zu alarmieren. Das bekannte Assistenzsystem weist den Nachteil auf, dass die blinde
Person - da diese lediglich einen akustischen Alarm erhält - weder weiß, welche Art
von Hindernis erkannt wurde, in welcher Richtung sich das Hindernis befindet, noch
in welcher Richtung sie dem Hindernis ausweichen sollte. Darüber hinaus werden kontinuierliche
Audiosignale und das Tragen von Kopfhörern von Blinden als störend und gefährlich
empfunden, da dabei leicht Gefahren, wie beispielsweise herannahende Fahrzeuge überhört
werden.
[0002] Aus der
KR 101321187 B1 ist ein Assistenzsystem für Blinde bekannt, bei dem mehrere Ultraschallsensoren den
in Gehrichtung vor der blinden Person gelegenen Bereich abtasten, wobei je nach Lage
eines erkannten Hindernisses am Bedienpult des Assistenzsystems ein von der blinden
Person erkennbares taktiles Signal abgegeben wird. Dabei kann die Entfernung, ab der
das Assistenzsystem ansprechen soll, von der blinden Person individuell eingestellt
werden.
[0003] Obgleich dieses Assistenzsystem einer blinden Person auch anzeigt, in welche Richtung
einem vor ihr liegenden Hindernis auszuweichen ist, bleibt für diese nach wie vor
unklar, um welche Art von Hindernis es sich handelt. Ein weiterer Nachteil dieses
Assistenzsystems liegt darin, dass sein Benutzer zwar Informationen über die Existenz
von vor ihm liegenden Hindernissen, aber keine Informationen über deren Dimensionen
oder Art erhält.
[0004] Darüber hinaus ist die Zuverlässigkeit und Genauigkeit der Signale dadurch erheblich
beschränkt, dass Ultraschallsensoren verwendet werden, die zum einen auf schwächer
reflektierende Objekte teilweise nicht ansprechen und aufgrund ihrer wellenlängenbedingten
geringeren Winkelauflösung nicht richtig erkannt werden.
[0005] Beim Assistenzsystem nach der
DE 10 2017 001 476 A1 wird versucht, diesem Nachteil dadurch entgegenzuwirken, dass mehrere Infrarot- oder
Ultraschallquellen und entsprechende Empfänger den vor dem Benutzer liegenden Bereich
abtasten und die empfangenen Signale von einem Mikrocontroller ausgewertet werden.
Die Auswertung geschieht dabei in der Weise, dass durch Vergleich mit standardmäßigen
baulichen Gegebenheiten, wie zum Beispiel der Höhe von Treppenstufen, dem Benutzer
die Art des Hindernisses akustisch mitgeteilt wird. Darüber hinaus weist dieses Assistenzsystem
ein mit dem Boden in Kontakt stehendes Antriebssystem auf, durch welches der Benutzer
bei seiner Vorwärtsbewegung aktiv so geführt wird, dass er Hindernissen sicher ausweichen
kann.
[0006] Bei diesem Assistenzsystem treten allerdings teilweise Situationen in Bezug auf die
Umgebung des Benutzers auf, die nicht den standardmäßig der mittels Ultraschall- und
Infrarotsensoren gewonnenen und im Mikrocontroller hinterlegten Daten für bauliche
Gegebenheiten entsprechen, wodurch dieser in falscher Weise geführt werden kann.
[0007] Das aus der
US 8922759 B2 bekannte Assistenzsystem versucht diesen Nachteil dadurch zu vermeiden, dass zur
Verbesserung der Erkennung der Art von Hindernissen ein Blindenlangstock mit einem
sogenannten Time-Of-Flight Sensor (TOF oder auch LiDAR Sensor genannt) verwendet wird.
Dieser dient zur Erfassung der Art und der Messung von Entfernungen räumlich gegenständlicher
Objekte und vermittelt der blinden Person die Messwerte in Form haptischer Signale.
Die Verwendung eines TOF-Sensors birgt die Nachteile, dass derartige Sensoren bei
hellem Tageslicht bisher nicht zuverlässig genug arbeiten und ein vergleichsweise
hohes Gewicht haben. Darüber hinaus werden durch TOF Sensoren glänzende, spiegelnde,
schwarze und auch durchsichtige Gegenstände nicht erkannt. Weiterhin kann mit einem
solchen TOF-Sensor nicht erkannt werden, ob es sich bei Hindernissen um solche handelt,
die wie beispielsweise eine Tür vom Benutzer nicht umgangen werden muss, sondern benutzt
werden kann. Umgekehrt soll beispielsweise ein bis zum Boden reichender Spiegel nicht
als Durchgang, sondern als Hindernis erkannt werden. Schließlich ist eine solche Unterscheidung
beispielsweise auch wichtig für einen auf gleicher Höhe wie eine benachbarte Fahrbahn
verlaufender Fußweg, da beide für den TOF-Sensor eine gemeinsame Ebene darstellen.
[0008] Auch dieses Assistenzsystem weist den weiteren Nachteil auf, dass die blinde Person
- da diese lediglich Entfernungsangaben zu einem etwa vor ihr liegenden Hindernis
erhält - nach wie vor nicht weiß, welche Art von Hindernis erkannt wurde und in welcher
Richtung sie dem Hindernis ausweichen sollte.
[0009] Es war daher eine Aufgabe der Erfindung, ein Assistenzsystem für blinde Personen
nach dem Oberbegriff des Patentanspruchs 1 so weiterzubilden, dass dieses der blinden
Person beim Auftreten eines Hindernisses nicht nur ein einfaches "rechts" oder "links"
Signal als allgemeine Richtungsanweisung gibt, sondern auch eine genaue Gehrichtung.
[0010] Weitere Aufgabe der Erfindung ist es, dieses bekannte Assistenzsystem so auszugestalten,
dass es vor dem Benutzer sich befindliche, nicht durch ihre Abmessungen von der Umgebung
sich abzeichnende Strukturen als solche erkennen kann.
[0011] Diese Aufgabe wird durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.
[0012] Das erfindungsgemäße Assistenzsystem weist den Vorteil auf, dass Benutzer insbesondere
in komplexeren Situationen durch genaue Angabe der einzuschlagenden Gehrichtung in
die Lage versetzt werden, schmale Durchgänge wie zum Beispiel an U-Bahn Haltestellen
oder innerhalb von Zügen zielsicher zu passieren.
[0013] Zusätzlich löst die Erfindung das Problem, dass die bekannten Assistenzsysteme nicht
in der Lage waren, eine Gehrichtung zuverlässig zu signalisieren, wenn keine räumlichen
Hindernisse vor der blinden Person lagen, wie es beispielsweise in großen Räumen,
Fußgängerzonen oder auf Feld- und Gehwegen der Fall ist. Durch diese Fähigkeit des
erfindungsgemäßen Assistenzsystems erweitert sich dessen Anwendungsbereich beträchtlich.
[0014] Ein weiterer Vorteil der Erfindung besteht darin, dass es mit dem erfindungsgemäßen
Assistenzsystem möglich ist, verschiedene Kategorien (zum Beispiel Personen, Fahrzeuge
oder Möbel) von vor der blinden Person liegenden Hindernissen und Gegenständen zu
erkennen und der blinden Person zu signalisieren.
[0015] Mit dem erfindungsgemäßen Assistenzsystem ist es auch möglich, mithilfe der vom neuronalen
Netzwerk erkannten Anordnung von Gegenständen Situationen zu erkennen, in denen sich
der Benutzer befindet. Beispiele dafür sind, dass der Benutzer den Gehweg verlassen
hat und sich bereits auf der Straße befindet oder dass er vor einer noch zu öffnenden
Türe steht, die bei Assistenzsystemen nach dem Stand der Technik schlicht als Wand
interpretiert werden. Das künstliche neuronale Netzwerk wird dazu auf einen möglichst
großen Datensatz an Beispielbildern, die manuell mit der korrekten Gehrichtung, sowie
den in den Beispielbildern enthaltenen nützlichen Informationen versehen wurden, trainiert.
[0016] Was letztere angeht, so können dies insbesondere sein:
Kameralinse verschmutzt; Achtung Vorsicht geboten: Gehrichtung noch unklar; Zebrastreifen
vorhanden; Vorsicht Stufe; Treppe abwärts; Treppe aufwärts; die Liniennummer und das
Fahrziel einer einfahrenden Straßenbahn oder Busses; Türe vorhanden; Bahnsteigkante
vorhanden; Haltestelle vorhanden
[0017] Das künstliche neuronale Netzwerk kann auch auf komplexe Situationen trainiert werden,
sodass es auch in einer Bahnhofsunterführung oder auf einem Marktplatz mit vielen
beliebig umherlaufenden Menschen eine empfohlene Gehrichtung signalisieren kann, sodass
Kollisionen mit Passanten verhindert werden.
[0018] Die Weiterbildung der Erfindung nach Anspruch 2 bietet den Vorteil, dass durch die
Generierung eines Tiefenbildes wesentlich detailliertere Informationen in Bezug auf
den vor der blinden Person gelegenen Bereich geliefert werden. So kann die Genauigkeit
der empfohlenen Gehrichtung dadurch verbessert werden, dass als Zwischenschritt durch
Depth Estimation ein Tiefenbild erzeugt wird, aus dem zusammen mit dem Farbbild die
empfohlene Gehrichtung gewonnen wird. Dadurch verbessert sich die Genauigkeit vor
allem in Situationen in denen eine Vielzahl von Personen vor der blinden Person stehen
(beispielsweise auf einem Marktplatz) oder in denen kein klarer Weg erkennbar ist,
sondern sich viele Objekte in der Umgebung befinden (beispielsweise in Innenräumen).
[0019] Die Weiterbildung der Erfindung nach Anspruch 3 bietet den Vorteil, dass durch Verwendung
von Stereobildern nicht nur ein Tiefenbild erzeugt, sondern auch die Entfernung von
bestimmten Punkten im Bild noch genauer auf einer absoluten Skala erfasst werden kann.
Zusätzlich kann die Messung dieser Entfernung bei Situationen verbessert werden, in
denen Referenzobjekte mit bekannter Dimension fehlen, wie beispielsweise Personen,
oder Fahrzeuge.
[0020] Die Weiterbildung der Erfindung nach Anspruch 4 bietet den Vorteil, dass in Situationen
mit sich bewegenden Personen oder Objekten in der Umgebung aus mehreren nacheinander
aufgenommenen Bildern bestimmt werden kann, ob die jeweiligen Personen oder Objekte
sich auf die blinde Person zu, von ihr weg oder sich seitlich zu dieser bewegen. So
stellen vor der blinden Person in die gleiche Richtung gehende Personen kein Hindernis
für die Fortbewegung der blinden Person dar, Personen die sich auf die blinde Person
zu bewegen jedoch schon. Dadurch kann das Assistenzsystem bei entgegenkommenden Passanten
eine Richtung G empfehlen, die dazu führt, dass die blinde Person P der entgegenkommenden
Person ausweicht. Außerdem kann aus den aus aufeinanderfolgenden Farb- oder Tiefenbildern
gewonnenen Bewegungsinformationen durch das künstliche neuronale Netzwerk eine genauere
empfohlene Gehrichtung gewonnen werden, wenn sich vor der blinden Person viele in
unterschiedliche Richtungen gehende Menschen befinden. Ebenso stellt ein seitlich
neben der von der blinden Person eingeschlagenen Gehrichtung geparktes Fahrzeug kein
Hindernis für diese dar, fährt das gleiche Fahrzeug jedoch zu Bildmitte des aufgenommen
Kamerabildes, so stellt dieses eine potenzielle Gefahr für die blinde Person dar.
[0021] Die Weiterbildung der Erfindung nach Anspruch 5 bietet den Vorteil, dass für die
Berechnung der Ausgabewerte des neuronalen Netzwerks (G, I) deutlich weniger Zeit
benötigt wird, als wenn dieselbe Berechnung auf der Hauptrecheneinheit (CPU) durchgeführt
würde. Dadurch wird die gesamte Latenzzeit, das heißt die gesamte Zeitdauer von der
Aufnahme des letzten Bildes einer Bildserie bis zur Möglichkeit der Ausgabe der empfohlenen
Gehrichtung, verringert. Ein weiterer Vorteil besteht darin, dass die Tensor Recheneinheit
("TPU") für die gleiche Berechnung deutlich weniger Energie verbraucht als dies bei
Verwendung der Hauptrecheneinheit der Fall wäre, wodurch die Akkulaufzeit des Assistenzsystems
erhöht wird.
[0022] Nach Anspruch 6 werden die erfassten Informationen auch noch haptisch durch einen
rotierenden Zeiger an die blinde Person weitergegeben, der an einem zum Assistenzsystem
gehörenden Griff angebracht ist. Diese wird dadurch in die Lage versetzt, selbst Entscheidungen
darüber treffen zu können, wie sie auf die Gegebenheiten, beispielsweise einer Treppe,
einer Türe oder einem Zebrastreifen reagieren möchte. Dabei wird sie jedoch stets
über die angezeigte Richtung um Hindernisse herumgeführt und immer auf begehbaren
Wegen gehalten. So wird der blinden Person nicht nur eine ungefähre Richtung (wie
bei einem akustischen rechts/links Signal) gegeben, sondern immer eine exakte Richtungsangabe,
die mit den Fingern ertastet werden kann. So kann die blinde Person Ihre Geschwindigkeit
erhöhen, da ihr kontinuierlich ein genaues Richtungssignal angezeigt wird, sodass
kleine Abweichungen der blinden Person von der empfohlenen Gehrichtung ständig, aber
sanft korrigiert werden.
[0023] Die Weiterbildung der Erfindung nach Anspruch 7 bietet den Vorteil, dass die blinde
Person durch von einem Vibrationsmotor erzeugte unterschiedliche Vibrationsmuster,
sowie akustisch über Sprachsignale - die auch deaktivierbar sind - über vorhandene
Türen, Treppen und Gefahren informiert wird. Das ist insofern hilfreich, als mit einem
konventionellen Blindenstock eine geschlossene Türe durch Tasten nicht von einer Wand
unterschieden werden kann. Außerdem werden mit einem konventionellen Blindenstock
Stufen erst etwa in einer Entfernung von ca. 60 cm erkannt, wodurch die blinde Person
ihre Gehgeschwindigkeit reduzieren muss, um ständig auf plötzlich auftretende Stufen
gefasst zu sein.
[0024] Die Erweiterung nach Anspruch 8 bietet den Vorteil, dass sich erblindete Menschen,
die sich langsam an das erfindungsgemäße Assistenzsystem gewöhnen möchten, zu Beginn
nicht gleich auf den Blindenlangstock verzichten müssen. Hindernisse können nämlich
sicherheitshalber zusätzlich zu der optischen Erkennung durch das Assistenzsystem
auch mit dem Blindenlangstock ertastet werden. Die ermöglichte Beibehaltung des Blindenlangstocks
ist auch insofern vorteilhaft, als andere Verkehrsteilnehmer diesen als bekanntes
Kennzeichen für eine erblindete Person im Straßenverkehr wahrnehmen.
[0025] Die Weiterbildung der Erfindung nach Anspruch 9 bietet den Vorteil, dass eine Navigation
zu einem bestimmten von der blinden Person P eingegebenen Ziel in die der blinden
Person empfohlene Gehrichtung mit einberechnet wird. Hierdurch kann beispielsweise
eine Straßenüberquerung an einer geeigneten Stelle mit Ampel oder Zebrastreifen priorisiert
werden. Wenn es während einer aktiven GPS-Navigation also mehrere mögliche Richtungen
gibt, in die eine Fortbewegung denkbar wäre, so kann als weitere Information durch
das künstliche neuronale Netzwerk berücksichtigt werden, in welche Richtung die GPS-Route
führt, um der blinden Person das Folgen der berechneten Route zu erleichtern.
[0026] Bei einer Straßenüberquerung kann mit der Weiterbildung der Erfindung nach Anspruch
10 durch Radarsensoren überprüft werden, ob ein sicheres Überqueren der Straße möglich
ist oder ob sich ein Fahrzeug nähert. Wenn letzteres der Fall ist und somit ein Queren
der Straße zu gefährlich wäre, kann dies durch ein Vibrationsmuster der blinden Person
signalisiert werden. Bewegt sich die blinde Person trotz einer solchen Warnung auf
die Straße, kann zusätzlich ein Warnton ausgegeben werden.
[0027] Um zu garantieren, dass das Kamerasystem auch bei Dunkelheit die Umgebung klar erfasst
und die blinde Person von anderen Verkehrsteilnehmern gut wahrgenommen werden kann,
sind nach Anspruch 11 mehrere Lichtquellen in dem Assistenzsystem verbaut. Diese können
automatisch eingeschaltet werden, sowie in der Intensität gesteuert werden.
[0028] Die für die Ausleuchtung der Umgebung verwendete Lichtquelle kann Licht im Infrarotbereich
emittieren, sodass Passanten dadurch nicht geblendet werden.
[0029] Die Weiterbildung der Erfindung nach Anspruch 12 bietet den Vorteil, dass bei einer
schnellen Drehung des Assistenzsystems durch die blinde Person die angezeigte Gehrichtung
um den von einem Drehratensensor durch Integration gemessenen Drehwinkel sehr schnell
angepasst werden kann. Dadurch kann, bis die Neuberechnung der empfohlenen Gehrichtung
durch das neuronale Netzwerk abgeschlossen ist zwischenzeitlich eine Gehrichtung angezeigt
werden, die in den meisten Fällen bereits der korrekten Gehrichtung entspricht. Dadurch
wirkt die Angabe der Gehrichtung gegenüber der blinden Person klarer und kann daher
viel seltener zu deren Verwirrung führen.
[0030] Im Folgenden wird ein Ausführungsbeispiel der Erfindung näher beschrieben. Dabei
zeigt:
Fig. 1 einen Querschnitt des Assistenzsystems A,
Fig. 2 eine mögliche Richtungsempfehlung G mit verschiedenen Hindernissen H,
Fig. 3 eine mögliche Richtungsempfehlung G bei einer Straßenüberquerung (mit Zebrastreifen)
Fig. 4 eine mögliche Richtungsempfehlung G auf einem Bahnsteig
Fig. 5 die Steckverbindung des faltbaren und modularen Langstocks
Fig. 6 den strukturellen Aufbau des neuronalen Netzwerks
Fig. 7 den Datenfluss des Assistenzsystems A und
Fig. 8 eine Übersicht, in der eine typische Anwendungssituation des Assistenzsystems
zu sehen ist.
[0031] Das Assistenzsystem A gemäß Fig. 1 umfasst ein im 3D-Druck Verfahren hergestelltes
Gehäuse. Dies weist Einschübe für einen Akku 3 und einen Blindenlangstock 9 auf. Wird
der Akku 3 in das Gehäuse eingeschoben, wird er mit einer mittig platzierten Steckverbindung
verbunden, über die das System A mit Strom versorgt wird. Bei dem verwendeten Anschluss
ist die Orientierung des Akkus 3 irrelevant, sodass der Akku 3 auch gedreht in das
Gehäuse eingeschoben werden kann. Ist der Akku 3 in das System A eingeschoben, wird
dieser verriegelt, beispielsweise durch Verschließen des Akkufachs.
[0032] Wird der faltbare Blindenlangstock 9 in das Assistenzsystem A eingeschoben, kann
dieser mit dem Haltemechanismus 10 am Herausrutschen gehindert werden. Dazu wird ein
Magnet verwendet, der den Magneten im Ende des Blindenstocks anzieht um diesen in
Position zu halten.
[0033] Der Blindenlangstock 9 besteht aus Gewichtsgründen aus einem rot-weiß lackierten
Carbon-Rohr, das in mehrere Abschnitte unterteilt ist, die wie in Fig. 5 dargestellt
miteinander verbunden werden, sodass im zusammengesteckten Zustand kein Übergang zwischen
den Unterteilungen gefühlt werden kann und somit Spaltmaße minimiert werden, wodurch
die allgemeine Stabilität des Blindenstocks verbessert wird. Dadurch kann der Blindenstock,
um Platz zu sparen zusammengefaltet werden wenn dieser nicht benötigt wird. Die in
Fig. 5 dargestellte Verbindung ist ebenfalls robust für auftretende Belastungen durch
das Pendeln des Langstockes 9 und kann durch Auseinanderziehen durch die blinde Person
P getrennt werden. Die sogenannte Spitze 11 des Blindenstocks 9 kann beispielsweise
für einfacheres und leiseres Pendeln kugelgelagert werden. Darüber hinaus wäre es
möglich einen Motor in die Spitze einzubauen, der dem Blindenlangstock einen Impuls
nach links oder rechts geben kann, sowie Sensoren zur Erkennung von Erschütterungen
durch Boden und Hindernissen H. Die Sensorwerte als eine weitere Informationsquelle
für das neuronale Netzwerk genutzt werden. Ebenfalls denkbar ist es, die kugelgelagerte
Spitze des Langstockes 9 als Allseitenrad auszuführen um die zum Pendeln und Gehen
nötige Kraft weiter zu reduzieren.
[0034] Zusätzlich zu dem tauschbaren Akku 3 ist auch eine Dockingstation denkbar, die an
einer Wand angebracht wird und das System A über leitfähige Kontaktstellen oder kabelloses
Laden durch entsprechendes Einhängen in die Ladestation automatisch deaktiviert und
geladen wird.
[0035] Der Vorteil einer an der Wand befestigten Dockingstation ist, dass diese sehr wenig
Platz einnimmt, das Assistenzsystem A dadurch immer aufgeräumt ist und ein eventuelles
Stolpern verhindern kann. So kann die Station in der Nähe der Eingangstüre angebracht
werden, sodass das Assistenzsystem A immer voll aufgeladen griffbereit ist. Alternativ
ist auch ein USB Typ C Ladeanschluss integriert, der das Laden des Akkus mit herkömmlichen
Smartphone Ladegeräten ermöglicht.
[0036] Das Gehäuse des Assistenzsystems A ist ergonomisch geformt, sodass der Griff, der
einen Servomotor 5 mit Zeiger 6 beinhaltet, bei der Benutzung einen flachen Winkel
von ca. 10° zur Horizontalen aufweist, der sich aus der natürlichen Handhaltung des
Menschen ergibt, wodurch die blinde Person P ihr Handgelenk gegenüber einem üblichen
Blindenlangstock weniger stark anwinkeln muss. Außerdem ist der Griff der Form einer
Hand angepasst, sodass dieser bequemer in der Hand liegt.
[0037] Der Zeiger 6 ist je nach Vorliebe der blinden Person P etwa 15 bis 25 Millimeter
lang, sodass die blinde Person P mit Ihrem Daumen gut die Richtung G ertasten kann,
in die der Zeiger 6 gerichtet ist. Diese Richtung entspricht der empfohlenen Gehrichtung
G, die das Assistenzsystem A aufgrund der vorliegenden Hindernisse H, für am besten
geeignet für die weitere Fortbewegung vorschlägt. Dazu ist der Zeiger mittels einer
Schraube auf der Welle eines Mikro Servo Motors befestigt, der eine Möglichst hohe
Winkelgeschwindigkeit aufweist. Dieser Motor wird über eine PWM Signal durch die Hauptrecheneinheit
die als Raspberry PI Compute Module ausgeführt ist, gesteuert.
[0038] Die Kamera 4 ist in dem Gehäuse so verbaut, dass sie bei Benutzung des Systems A
leicht zum Boden geneigt ist, sodass möglichst alle optischen Merkmale der Umgebung
erfasst werden können.
[0039] Dabei wurde die Position der Kamera 4 so gewählt, dass weder der Griff G des Systems
A noch der Blindenlangstock 9 bzw. das entsprechende Endstück 11 auf dem Kamerabild
zu sehen ist. Die Kamera ist über eine "MIPI CSI" Kameraschnittstelle mit dem Einplatinencomputer
verbunden und verfügt über einen möglichst großen Blickwinkel von beispielsweise 180
Grad. Aus den Kamerabildern kann ebenfalls eine 3D-Karte der näheren Umgebung angelegt
werden (Point Cloud, gewonnen durch SLAM, Simultaneous Localization And Mapping),
die als weitere Informationsquelle für das neuronale Netzwerk dienen kann. Ebenso
kann durch die Verwendung eines Drehratensensors und Beschleunigungssensors, während
dem Pendeln mit dem Assistenzsystem A das Kamerabild über den Blickwinkel der Kamera
hinaus erweitert werden. Dadurch würde eine Art Panoramabild entstehen.
[0040] In dem Gehäuse sind nach Fig. 1 noch ein Vibrationsmotor 7 und ein Lautsprecher 8
verbaut. Diese werden von dem Einplatinencomputer 1 angesteuert. Der Vibrationsmotor
7 kann dabei über Pulsweitenmodulation in der Intensität gesteuert werden, sodass
nicht nur lange und kurze Vibrationen, nämlich auch starke und schwache Vibrationen
sowie Vibrationsmuster (beispielsweise dreifache kurze Vibration) erzeugt werden können.
So kann beispielsweise durch die Intensität der Vibration die Entfernung zu einem
Hindernis H bzw. einer räumlichen Gegebenheit angegeben werden. Durch Vibrationsmuster
kann zudem angegeben werden, ob eine räumliche Gegebenheit, wie z. B. eine Türe oder
Treppe erkannt wurde. Dabei werden die von der blinden Person P am häufigsten benötigten
Informationen I (beispielsweise Türe oder Treppe) durch unterschiedliche Vibrationsmuster
signalisiert und für selten auftretende Informationen (beispielsweise "suche nach
Briefkasten erfolgreich") auf die Sprachausgabe zurückgegriffen und das Gehör der
blinden Person P möglichst wenig zu beanspruchen. Zur Steuerung des Vibrationsmotors
7 wird ein Transistor verwendet, um mit der 3,3V Steuerspannung des Einplatinencomputers
oder System on Module (Beispielsweise ein Raspberry Pi compute module 4) mit 5V zu
betreiben. Der Vibrationsgenerator und der Tongenerator können dabei als ein Bauteil
ausgeführt werden. Solch ein sogenannter Exciter wird dazu verwendet Sprache durch
Nutzung der Resonanz des Kunststoffgehäuse wiederzugeben. Außerdem kann über den Exciter
auch ein Vibrationssignal wiedergegeben werden, das sich besonders angenehm anfühlt,
ähnlich dem aus dem aus dem iPhone bekannten Signal der "Taptic Engine".
[0041] Über den Lautsprecher 8 wird Sprache ausgegeben, die Synthetisch erzeugt wird. Als
Synthesizer wird eine Machine Learning basierte Methode verwendet, wodurch ein natürliches
Sprachbild zustande kommt. Auch möglich ist das Speichern von fertigen Audiodateien
auf dem Speicher des Raspberry Pi, die häufig gebraucht werden, wie "Treppe" oder
"Zebrastreifen". Ausgegeben kann über Sprache beispielsweise Informationen zu einer
Routenführung oder erkannter räumlicher Gegebenheiten. Zusätzlich kann durch ein weiteres
künstliches neuronales Netz das erfasste Kamerabild in Worten beschrieben werden,
sowie Buslinien und Fahrziel eines Busses oder sonstiger Text vorgelesen werden. Auch
das Suchen von Objekten ist so möglich, wobei der Nutzer akustisch benachrichtigt
wird, sobald das gesuchte Objekt - beispielsweise ein Mobiltelefon oder ein Briefkasten
- im Kamerabild durch ein Machine Learning Modell zur Objektklassifizierung (dazu
kann MobileNet v2 als machine learning Modell verwendet werden) erkannt wurde. Denkbar
ist auch das Erkennen und Vorlesen der Farbe eines vor dem System A befindlichen Kleidungsstückes
oder sonstigen Objekts. Um dem Nutzer das Erlernen der Bedeutung der Vibrationsmuster
zu erleichtern, kann zu Beginn zu jedem Vibrationssignal die entsprechende Bedeutung
auch akustisch ausgegeben werden bis der Nutzer die Sprachausgabe nicht mehr benötigt
um die Bedeutung der Vibrationssignale zu erkennen.
[0042] Das Deep Learning Modell (künstliches neuronales Netzwerk, Deep Convolutional Neural
Network) verarbeitet ein Farbbild mit den Dimensionen [224,224,3] für ein einzelnes
Farbbild bzw. entsprechend erweiterten Dimensionen für weitere Eingabedaten, die beispielsweise
Tiefen- oder Bewegungsinformationen beinhalten. Mit einem weiteren Channel für Tiefeninformation
haben die Eingabedaten des Machine Learning Modells dann die Dimensionen [224,224,4].
[0043] In Form weiterer Channels (der dritte Wert der Dimensionen repräsentiert die Anzahl
der Channels des Eingabetensors) kann zu den Eingabedaten zusätzlich die Information
"demnächst rechts/links abbiegen" hinzugefügt werden, sofern die GPS Navigation auf
dem Assistenzsystem aktiviert ist (per im Assistenzsystem Integriertem GPS Empfänger),
oder durch eine App per Bluetooth die Richtungsanweisungen der auf dem Smartphone
der blinden Person an das Assistenzsystem übermittelt werden. Ebenfalls auf diese
Weise werden dem Machine Learning Modell die Geschwindigkeitsmesswerte der nach links
und rechts gerichteten Radarsensoren bereitgestellt, sodass herannahende Fahrzeuge
erkannt werden können. Auch als zusätzlicher Channel des Eingabetensors kann eine
Semantic Segmentation genannte Repräsentation des Kamerabildes verwendet werden die
zuvor durch ein weiteres Neuronales Image to Image Netzwerk gewonnen wurde. Die Eingabedaten
werden innerhalb des Netzwerkes durch eine oder je nach Eingabedaten auch mehrere
parallele Netzwerkstrukturen verarbeitet, durch die bedeutsame Merkmale in den Daten
erkannt und lokalisiert werden. Darauf folgt eine Netzwerkstruktur, die die erkannten
Merkmale interpretiert und daraus die Ausgabe des Netzwerks schlussfolgert (Fully
Connected Layers, auch Dense Layer genannt).
[0044] Es ist auch denkbar die Ersten drei Farbkanäle (das Farbbild) in ein neuronales Netzwerk
zu leiten, welches daraus ein Tiefenbild berechnet (auch bekannt als Monocular Depth
Estimation), das dann Zusammen mit dem Farbbild selbst und den gegebenenfalls weiteren
Channels (Farbkanälen), das als sogenannter Bypass weitergeleitet wird, durch eine
weitere neuronale Netzwerkstruktur verarbeitet wird. Daraufhin folgen wieder Dense
Layer, die die erkannten Merkmale Interpretieren und schlussendlich die Ausgabewerte
berechnen.
[0045] Die Ausgabe des Netzwerks besteht aus einem Winkel sowie mehreren Werten, die sich
zwischen 0 und 1 befinden. Dabei nähert sich ein Wert 1 an, wenn die bestimmte Situation,
die der Wert widerspiegelt, im Kamerabild zu sehen ist.
[0046] Als Convolutional Neural network kann beispielsweise ein sogenanntes "ResNet50" oder
auch "MobileNetv2" verwendet werden, dessen Parameter auf die im Datensatz enthaltenen
Beispielbilder trainiert worden sind. Die letzten Layer der "MobileNet" Netzwerkarchitektur
müssen dadurch durch Dense Layer ersetzt werden, die einen Output-Tensor erzeugen
der die Passende Anzahl an ausgabewerte hat um die empfohlene Gehrichtung sowie die
weiteren Nützlichen Informationen (Treppe, Zebrastreifen ...) auszugeben.
[0047] Für die Monocular Depth Estimation wird ein ResNet 50 Encoder verwendet und ein Decoder
der auch über sogenannte skip Connections mit dem Encoder vernetzt ist um ein Tiefenbild
zu erzeugen. Der Dazu nötige 3D Datensatz wird zuvor mit einem möglichst genauen Lidar
Sensor oder Stereokamera aufgezeichnet. Um die jeweiligen Neuronalen Netzwerke auf
den Datensatz zu trainieren wird entweder PyTorch oder TensorFlow als machine learning
Framework verwendet.
[0048] Die Ausgabewerte werden in der beschriebenen Ausführungsform auf einem per PCI-Express
mit dem Raspberry Pi compute module verbundenen "AI accelerator" berechnet. Dafür
wird ein "Coral Accelerator Module" verwendet. Jedoch kann auch eine Platine verwendet
werden, die sowohl Tensor- sowie Hauptrecheneinheit enthält. Auch kann als Hauptrecheneinheit
ein i.MX 8M Plus Prozessor mit integrierter Neural Processing Unit (NPU / TPU) verwendet
werden anstelle eines separaten Machine Learning Beschleunigers
[0049] Um die Latenzzeit weiter zu verringern und gleichzeitig den Energieverbrauch zu senken
kann man die Position des Zeigers am Griff G mithilfe der Informationen über die Drehung
des Assistenzsystems, die mit einem Drehratensensor gemessen werden, aktualisieren.
So wird der Fakt verwendet, dass wenn die empfohlene Gehrichtung geradeaus nach vorne
zeigte und zwischenzeitlich das Assistenzsystem um 20 Grad nach rechts gedreht wurde
die neue empfohlene Gehrichtung mit sehr hoher Wahrscheinlichkeit mit 20 Grad nach
links zeigt. Da die Messung der Drehrate und deren Integration über die Zeit weniger
Zeit benötigt als das Aufnahmen eines neuen Bildes und dessen Auswertung durch das
Neuronale Netzwerk verringert sich die Latenzzeit.
[0050] Alternativ kann zu Monocular Depth Estimation auch das Verfahren Structure From motion
oder "Depth Map from Stereo Images" eingesetzt werden.
zwei nacheinander gewonnene Tiefenbilder werden nun voneinander subtrahiert, um ein
Bild zu erhalten in dem zu erkennen ist welche Objekte sich relativ zum Assistenzsystem
bewegt haben. Dieses Bild kann nun ebenfalls durch ein Neuronales Netzwerk verarbeitet
werden, um die Genauigkeit der empfohlenen Gehrichtung zu verbessern.
[0051] Zusätzlich sind an verschiedenen Stellen des Gehäuses LED-Leuchtdioden angebracht
die durch einen Verbauten Umgebungslichtsensor bei Dunkelheit aktiviert werden um
das Assistenzsystem besser sichtbar zu machen. Außerdem Leuchten diese Leuchtdioden
die Umgebung aus, um ein besseres Kamerabild aufnehmen zu können.
[0052] Es können auch mehrere Weitwinkelkameras integriert sein die in unterschiedliche
Richtungen zeigen um gleichzeitig einen größeren Bereich abzudecken um Hindernisse
zu erkennen die sich über dem Assistenzsystem befinden.
Bezugszeichenliste:
[0053]
- 1
- = Haupt-Recheneinheit
- 2
- = Tensor-Recheneinheit
- 3
- = Tauschbarer Akku
- 4a, 4b
- = Kamerasystem
- 5
- = Motor
- 6
- = Zeiger
- 7
- = Vibrationsgenerator
- 8
- = Tongenerator
- 9
- = Faltbarer Blindenlangstock
- 10
- = Haltemechanismus
- 11
- = Kugel
- 12a, 12b
- = Carbon-Röhren
- 13
- = Stöpsel
- 14
- = Dehnbarer Gummi
- 15
- = Griff
- 16
- = Drehratensensor
- 17
- = Lichtquelle
- 18
- = Radarsensor
- A
- = Assistenzsystem
- G
- = Empfohlene Gehrichtung
- H
- = Hindernis
- I
- = Nützliche Information
- P
- = Blinde Person
- U
- = Umfeld
1. Assistenzsystem (A) für blinde Personen (P) zur Detektion und Signalisation einer
empfohlenen Gehrichtung (G) und weiterer für blinde Personen (P) nützlicher Informationen
(I), wobei die Umgebung (U) der blinden Person (P) durch ein aus einer oder mehreren
optischen Kameras (4a, 4b) bestehenden Kamerasystem (4) erfasst wird, dadurch gekennzeichnet, dass aus den laufend gewonnenen farbigen Kamerabildern mit einer Recheneinheit (1, 2)
durch ein oder mehrere dort hinterlegte sogenannte "convolutional neural networks"
die der blinden Person (P) empfohlene Gehrichtung (G) bestimmt und dieser signalisiert
wird, sowie nützliche Informationen (I), beispielsweise in Bezug auf Hindernisse und
Optionen für ihre Fortbewegung gibt und dass die vorgenannten neuronalen Netzwerke
vor ihrer Verwendung auf der Recheneinheit (1,2) mit typischen Bildern von beim Gebrauch
des Assistenzsystems (A) auftretenden Anordnungen von Hindernissen (H) und Optionen
durch ein sogenanntes "machine learning framework"-Programm trainiert worden sind.
2. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass am Assistenzsystem (A) mindestens eine der Kameras (4a) des Kamerasystems (4) Aufnahmen
der Umgebung (U) der blinden Person (P) erzeugt, welche durch das neuronale Netzwerk
durch sogenannte "Depth Estimation" in der Recheneinheit (1, 2) in ein Tiefenbild
umgewandelt werden, das auch zur Gewinnung der empfohlenen Gehrichtung (G) sowie weiterer
nützlicher Informationen (I) in Bezug auf die Art der vor der blinden Person (P) sich
befindlichen Objekte mitverwendet wird.
3. Assistenzsystem nach Anspruch 2, dadurch gekennzeichnet, dass am Assistenzsystem (A) zwei das Umfeld aufnehmende Kameras (4a, 4b) angebracht sind,
aus deren Aufnahmen in der Recheneinheit (1, 2) durch Vergleich der Aufnahmen beider
Kameras mittels eines sogenannten "Depth Map from Stereo Images" oder "Structure from
Motion"-Algorithmus ein Tiefenbild erzeugt wird.
4. Assistenzsystem nach Anspruch 3, dadurch gekennzeichnet, dass aus zeitlich nacheinander aufgenommenen Bildern mindestens einer der Kameras (4a,
4b) oder den daraus erzeugten Tiefenbildern Informationen zur Bewegung von Objekten
gewonnen werden, die auch zur Berechnung der empfohlenen Gehrichtung (G), sowie weiterer
nützlicher Informationen (I) verwendet werden.
5. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass zur Berechnung der empfohlenen Gehrichtung (G) und der nützlichen Informationen (I)
mit Hilfe des künstlichen neuronalen Netzwerks eine speziell für die Ausführung künstlicher
neuronaler Netzwerke hergestellte Tensor-Recheneinheit (2), ein sogenannter "machine
learning accelerator", oder auch "Tensor Processing Unit" verwendet wird.
6. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass die empfohlene Gehrichtung (G) durch einen elektronisch gesteuerten, mechanisch durch
einen Aktuator (5) bewegten Zeiger (6) angegeben wird, der an einem zum Assistenzsystem
(A) gehörenden Griff (15) angebracht ist und dort von der blinden Person (P) ertastet
werden kann.
7. Assistenzsystem nach Anspruch 6, dadurch gekennzeichnet, dass verschiedene nützlichen Informationen (I) haptisch durch am Griff (15) des Assistenzsystems
(A) von einem Vibrationsgenerator (7) erzeugte unterschiedliche Vibrationssignale
und/oder akustisch über einen Tongenerator (8) übermittelt werden.
8. Assistenzsystem nach Anspruch 1, dadurch gekennzeichnet, dass am Assistenzsystem (A) ein Blindenlangstock (9) befestigt werden kann.
9. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei aktivierter GPS-Navigation bei der Bestimmung der empfohlenen Gehrichtung (G)
die Informationen des Kartenmaterials und die durch eine GPS-Navigationssoftware bestimmte
Route mitberücksichtigt werden.
10. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Assistenzsystem (A) über Radarsensoren (18) verfügt, die dazu geeignet sind,
die Geschwindigkeit und optional die Entfernung von sich dem Nutzer nähernden Fahrzeugen,
Personen und Gegenständen zu erfassen.
11. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass dieses über eine oder mehrere Lichtquellen (17) zur Ausleuchtung des von Kameras
4a, 4b aufgenommenen räumlichen Bereichs verfügt.
12. Assistenzsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass dieses über einen Drehratensensor (16) verfügt, dessen Messwerte dazu verwendet werden
bei einer Drehung des Assistenzsystems (A) durch die blinde Person (P) um die vertikale
Achse die empfohlene Gehrichtung (G) des Zeigers (6) schneller anzupassen als es allein
durch Neuberechnung der empfohlenen Gehrichtung (G) aus dem Kamerabild möglich wäre.