VERFAHREN ZUM BESTIMMEN EINER POSE EINES OBJEKTS IN EINER UMGEBUNG DES OBJEKTS MITTELS MULTI-TASK-LERNENS, SOWIE STEUERUNGSVORRICHTUNG

(19)

(11)

EP 3 511 904 A1

(12)	EUROPÄISCHE PATENTANMELDUNG

(43)	Veröffentlichungstag:
	17.07.2019 Patentblatt 2019/29

(21)	Anmeldenummer: 18151255.9

(22)	Anmeldetag: 11.01.2018

(51)

Internationale Patentklassifikation (IPC):

G06T 7/70^(2017.01)

(84)	Benannte Vertragsstaaten:
	AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR
	Benannte Erstreckungsstaaten:
	BA ME
	Benannte Validierungsstaaten:
	MA MD TN

(71)	Anmelder: Siemens Aktiengesellschaft
	80333 München (DE)

(72)	Erfinder:
	ZAKHAROV, Sergey 85614 Kirchseeon (DE) ALBARQOUNI, Shadi, Dr. 80637 München (DE) BUI, Linda Mai 82140 Olching/Grasslfing (DE) ILIC, Slobodan, Dr. 81547 München (DE)

(54)	VERFAHREN ZUM BESTIMMEN EINER POSE EINES OBJEKTS IN EINER UMGEBUNG DES OBJEKTS MITTELS MULTI-TASK-LERNENS, SOWIE STEUERUNGSVORRICHTUNG

(57) Die Erfindung betrifft ein Verfahren zum Bestimmen einer Pose eines Objekts in dessen Umgebung, wobei mittels einer optischen Erfassungseinrichtung das Objekt und dessen Umgebung als aktuelle Aufnahme (x_i) erfasst und mittels einer optischen Bildanalyse die Pose des Objekts bestimmt wird, und wobei mittels eines neuronalen Netzes (1) die Pose des Objekts als Ausgabe des neuronalen Netzes (1) ermittelt wird, wobei das neuronale Netz (1) mittels eines Multi-task-Lernens (L_MTL) durch eine Verwendung von Posenregression (L_pose) und Deskriptorlernen (L_d), welches durch Nutzung einer Triplet-wise-Loss-Funktion (L_triplet) und einer Pair-wise-Loss-Funktion (L_pair) bestimmt wird, angelernt wird, wobei die Posenregression (L_pose) mittels Quaternionen, die Triplet-wise-Loss-Funktion (L_triplet) abhängig von einem dynamischen Margin-Term (m) und die Pair-wise-Loss-Funktion (L_pair) nur als Verankerungsfunktion bestimmt werden.

Beschreibung

[0001] Die Erfindung betrifft ein Verfahren zum Bestimmen einer Pose eines Objekts in dessen Umgebung. Mittels einer optischen Erfassungseinrichtung wird das Objekt und dessen Umgebung als aktuelle Aufnahme erfasst und mittels einer optischen Bildanalyse wird die Pose des Objekts bestimmt. Mittels eines neuronalen Netzes wird die Pose als Ausgabe des neuronalen Netzes ermittelt. Das neuronale Netz wird mittels eines Multi-Task-Lernens durch eine Posenregression und durch ein Deskriptorlernen, welches durch Nutzung einer Triplet-wise-Loss-Funktion und einer Pair-wise-Loss-Funktion bestimmt wird, angelernt. Ferner betrifft die Erfindung eine Steuerungsvorrichtung.

[0002] Im Bereich Computer-Vision ist das Bestimmen einer Pose eines Objekts bereits bekannt. Beispielsweise kann mittels einer 2D-View-spezifischen Vorlage eine Objekterkennung und eine Posenschätzung durchgeführt werden. Durch die Berechnung von handgefertigten Eigenschafts-Darstellung für einen bekannten Satz von Ansichten können die meisten ähnlichen Übereinstimmungen für ein gegebenes Template mit einer unbekannten Klasse und Pose gefunden werden.

[0003] Ebenfalls ist bereits bekannt, um diesem Problem entgegenzutreten, lernbasierte Methoden zu verwenden, anstatt sich auf handgefertigte Eigenschaften zu verlassen, um auf beschreibender und robustere Eigenschafts-Darstellungen für die Abfrage von Objektposition schließen zu können. Beispielsweise beschreibt Kehl et al." Deep Leraning of Local RGB-D Patches of 3D Object Detection and 6D Pose Estimation" die Verwendung eines Autokodierers um Eigenschafts-Deskriptoren für RGB-D-Bildpatches zu erlernen.

[0004] Wohlhart und Lepetit schlagen in ihrer Veröffentlichung "Learning Descriptors for Object Recognition and 3D Pose Estimation" eine Erweiterung dieser Idee eines Deskriptorlernens mit einem neuronalen Netz vor. Durch die Durchsetzung des euklidschen Verlusts zwischen Aufnahmen aus ähnlichen Ansichten, die nahe beieinander liegen, und aus verschiedenen Objekten, die weit entfernt sind, können sowohl die Identität des Objekts als auch die Poseninformationen in hoch separierbaren Eigenschafts-Deskriptoren gespeichert werden. Die Pose für eine gegebene Testaufnahme kann durch die Suche nach dem nächsten Nachbarn geschätzt werden, um die nächstgelegene entsprechende Pose des von Objekts zu finden. Einer der Hauptnachteile dieser Methode ist, dass die Rotation der Ebene von dem Verfahren nicht berücksichtigt wird, was in der Praxis nur selten der Fall ist.

[0005] Moderne Methoden zur Schätzung der Objektposition sowie zur Kameralokalisierung schlagen vor, sich auf die Pixel-zu-3D-Punkt-Korrespondenzvorhersage zu verlassen, die auf dem "Forest" Klassifikationsverfahren beruhen und auf einer iterativen Posenverfeinerung basiert.

[0006] Nochmals neue Methoden haben direkte Regressionsansätze eingeführt, um die Position und Ausrichtung einer Kamera für Innen-und Außenaufnahmen zu regressieren. Diese Methode ist zwar in der Lage, die sechs Freiheitsgrade der Kamera durchgängig mit nur einer RGB-Aufnahme als Eingangssignal abzuleiten, die Genauigkeit ist aber deutlich geringer als das, was die oben genannten Methoden auf Basis der Pixel-zu-3D-Punkt-Korrespondenzvorhersage erreichen könnten.

[0007] In der Veröffentlichung "X-Ray PoseNet: 6 DoF Pose Estimation for Mobile X-Ray Devices" von Bui et al. wird ein Regressionsansatz verwendet, um die geometrischen Parameter eines mobilen Röntgensystems vorherzusagen, um die Berechnung tomographisch rekonstruierter Volumina zu ermöglichen. Zusätzlich zum Training des Modells über den Posenverlust wird der Rekonstruktionsverlust zwischen der Röntgenprojektionsaufnahme des Feldversuchs und der vorhergesagten Aufnahme unter Verwendung der aktuellen Posenschätzung verwendet, um das Modell für seine endgültige Anwendung, die tomographische Rekonstruktion, zu verbessern.

[0008] In der Veröffentlichung von Balntas et al. " Pose Guided RGBD Feature Learning for 3D Object Pose Estimation" werden die Auswirkungen der Verwendung von Objekt-Posen als Anleitung zum Anlernen robuster Eigenschaften für die 3-D-Objektposen-Schätzung untersucht. Es werden die exakten Posenunterschiede zwischen den Trainingsmustern untersucht und es wird darauf abgezielt, die Einbettung so zu erlernen, dass die Abstände im Posenraum proportional den Abständen im Eigenschaftsraum sind. Sollten Objekte symmetrisch sein, werden datengesteuerte Gewichte vorgeschlagen, die die Objektsymmetrien, wie bei der Messung der Posenabstände, widerspiegeln. Darüber hinaus wird die Ende-zu-Ende Posenregression untersucht und die Posenerkennung in einem neuronalen Netz durchgeführt und somit als eine weitere Posenanleitung für das Eigenschafts-Lernen verwendet.

[0009] Aufgabe der folgenden Erfindung ist es, ein Verfahren sowie eine Steuerungsvorrichtung zu schaffen, mittels welchem bzw. mittels welcher eine verbesserte Bestimmung einer Pose eines Objekts in dessen Umgebung durchgeführt werden kann.

[0010] Diese Aufgabe wird durch ein Verfahren sowie durch eine Steuerungsvorrichtung gemäß den unabhängigen Ansprüchen gelöst.

[0011] Ein Aspekt der Erfindung betrifft ein Verfahren zum Bestimmen einer Pose eines Objekts in dessen Umgebung. Mittels einer optischen Erfassungseinrichtung wird das Objekt und dessen Umgebung als aktuelle Aufnahme erfasst und mittels einer optischen Bildanalyse wird die Pose des Objekts bestimmt. Mittels eines neuronalen Netzes wird die Pose als Ausgabe des neuronalen Netzes ermittelt. Das neuronale Netz wird mittels eines Multi-Task-Lernens durch eine Posenregression und durch ein Deskriptorlernen, welches durch Nutzung einer Triplet-wise-Loss-Funktion und einer Pair-wise-Loss-Funktion bestimmt wird, angelernt.

[0012] Es ist vorgesehen, dass die Posenregression mittels Quaternionen, die Triplet-wise-Loss-Funktion abhängig von einem dynamischen Margin-Term und die Pair-wise-Loss-Funktion nur als Verankerungsfunktion bestimmt werden.

[0013] Dadurch ist es ermöglicht, dass die Stärken der Regression und des mannigfaltigen Lernens kombiniert werden können, um trennbare Eigenschafts-Deskriptoren zu erlernen, wodurch die Vorteile bei der Bestimmung der optischen Eigenschaft genutzt werden können. Dadurch können robuste Eigenschafts-Deskriptoren entwickelt werden, die insbesondere aus der aktuellen Aufnahme lernen. Im Vergleich zu den bisherigen Methoden zur Lösung dieser Probleme, die die Suche nach dem nächsten Nachbarn auf einen geschätzten Deskriptorraum verwenden, ist es erfindungsgemäß vorgesehen ein effizientes Multi-Task-Lernframework mit direkter Posenregression zu nutzen.

wobei L_MTL dem Multi-Task-Lernen, L_pose der Posenregression und L_d dem Deskriptorlernen entspricht. Dadurch kann die Pose direkt geschätzt werden, anstatt Methoden der Suche nach dem nächsten Nachbarn alleine anzuwenden, deren Komplexität linear mit der Anzahl der Objekte wächst. Dadurch kann vereinfacht die Bestimmung der Pose des Objekts durchgeführt werden. Darüber hinaus kann dadurch eine detaillierte Analyse der Suche nach dem nächstgelegenen Nachbarn mittels Eigenschafts-Deskriptoren und Regressionen durchgeführt werden. Dadurch kann ebenfalls verbessert eine Pose des Objekts bestimmt werden.

[0014] Insbesondere wird als Pose des Objekts eine Orientierung und/oder eine Position des Objekts in der Umgebung des Objekts angesehen.

[0015] Mittels der erfindungsgemäßen Pair-wise-Loss-Funktion kann der exakte Posenunterschied zwischen Trainingsaufnahmen für verschiedene Objekte und Posen berücksichtigt werden. In vorteilhafter Weise wird die Pose direkt im Posenraum verbessert, d.h. der Winkelfehler der Quaternionen Darstellung kann minimiert werden.

[0016] Insbesondere hat es sich herausgestellt, dass die Posenregression sich positiv auf das Deskriptorlernen auswirkt und das Deskriptorlernen bei der Posenregression unterstützt. Insbesondere hat dies vorteilhafte Auswirkungen auf das Ende-zu-Ende Lernen. Insbesondere bei großen Objektdatenbanken führt dies zu einer verbesserten Verarbeitung und zu einer verbesserten Bestimmung der Pose des Objekts.

[0017] Gemäß einer vorteilhaften Ausgestaltungsform wird durch die Bestimmung der Pose des Objekts eine Objektart erkannt und/oder eine Position des Objekts relativ in einer Umgebung des Objekts bestimmt. Dadurch ist es insbesondere möglich, dass aus der aktuellen Aufnahme sowohl eine Objekterkennung durchgeführt werden kann und alternativ oder ergänzend eine Position des Objekts in der Umgebung des Objekts bestimmt werden kann. Dadurch ist das Verfahren flexibel einsetzbar und kann in vielen technischen Gebieten eingesetzt werden.

[0018] Es hat sich weiterhin als vorteilhaft erwiesen, wenn bei der Posenregression eine Eingabe x in das neuronale Netz zu einem niedriger dimensionierten Eigenschaftsvektor f(x)∈R^d abgebildet wird. Dies bedeutet, dass die Ausgabe der letzten vollständig verbundenen Stufe, bevor sie zur Regression der Pose mit der folgenden Verlust-Funktion verwendet wird, folgende Funktion aufweist:

wobei q die entsprechende Feldversuchspose ist.

[0019] Weiterhin vorteilhaft ist, wenn zum Lernen der Triplet-wise-Loss-Funktion eine mit der aktuellen Aufnahme korrespondierende Ankeraufnahme bestimmt wird und eine Ziehaufnahme derart gewählt wird, dass die aktuelle Aufnahme des Objekts mit einer eine ähnliche Pose aufweisenden Aufnahme des Objekts korrespondiert. Für den Vergleich mit der Basislinienmethode kann mit dem Trainingsset S_train eine Datenbank mit Aufnahmeeigenschafts-Deskriptoren für die Suche nach dem nächsten Nachbarn generiert werden, die dann verwendet wird, um die beste korrespondierende Pose für eine unbekannte Testaufnahme zu erhalten. Um eine effiziente Regression zu erreichen, müssen die robusten Aufnahmeeigenschafts-Deskriptoren f(x) erstellt werden. Es wird die Triplet-wise-Loss-Funktion L_triplets, welche eine Verlustfunktion darstellt, verwendet, um das neuronale Netz zu trainieren. Es wird durch eine Reihe von Triplets (s_i,s_j,s_k)∈T trainiert, wobei eine Probe s_i(anchor, Ankeraufnahme) der aktuellen Aufnahme x_i entspricht und eine Probe s_j (puller, Ziehaufnahme) so gewählt wird, dass die Aufnahme dem gleichen Objekt c_j entspricht, das von einer ähnlichen Pose q_j aus betrachtet wird:

[0020] Ebenfalls vorteilhaft ist, wenn zum Lernen der Triplet-wise-Loss-Funktion eine mit der aktuellen Aufnahme korrespondierende Ankeraufnahme bestimmt wird und eine Stoßaufnahme derart gewählt wird, dass die aktuelle Aufnahme des Objekts mit einer ein anderes Objekt aufweisenden Aufnahme oder mit einer eine unterschiedliche Pose aufweisenden Aufnahme des Objekts korrespondiert. Es wird eine Probe s_k(pusher, Stoßaufnahme) so gewählt, dass die Aufnahme x_k entweder einem anderen Objekt c_k oder dem gleichen Objekt c_i entspricht, aber unter einer ganz anderen Pose

betrachtet wird:

[0021] Der Verlust, der über eine Gruppe von Triplets definiert wird, wird insbesondere wie folgt formuliert:

[0022] In einer vorteilhaften Ausgestaltungsform wird der dynamische Margin-Term bei einer Korrespondenz der aktuellen Aufnahme mit einer eine ähnliche Pose aufweisenden Aufnahme des Objekts durch eine Arcus-Kosinus-Funktion bestimmt wird. Der dynamische Margin-term m wird wie folgt definiert:

[0023] Der dynamische Margin-term m sorgt dafür, dass Objekte verschiedener Klassen weiter weggestoßen werden, wobei der Margin-term m für die gleichen Objekte vom Winkelabstand zwischen den aktuellen Blickwinkeln q_i und q_j abhängt.

[0024] Gemäß einer weiteren vorteilhaften Ausgestaltungsform kann der dynamische Margin-Term einer Korrespondenz der aktuellen Aufnahme mit einer ein anderes Objekt aufweisenden Aufnahme oder mit einer eine unterschiedliche Pose aufweisenden Aufnahme des Objekts als lineare Funktion bestimmt werden. Der dynamische Margin-term m wird wie folgt definiert:

[0025] Der dynamische Margin-term m sorgt dafür, dass Objekte verschiedener Klassen weiter weggestoßen werden, wobei der Margin-term m für die gleichen Objekte vom Winkelabstand zwischen den aktuellen Blickwinkeln q_i und q_j abhängt. Ebenfalls vorteilhaft ist, wenn mittels der Pair-wise-Loss-Funktion die Deskriptoren, welche das gleiche Objekt in einer gleichen oder zumindest ähnlichen Pose aber mit einer jeweils unterschiedlichen Umgebung beschreiben und einer von unterschiedlichen Domäne stammen, zusammengestoßen werden. Die Pair-wise-Loss-Funktion L_pairs wird aus den Paaren (s_i,s_j)∈P berechnet und ist definiert als:

wobei f(x_i) der Aufnahmeeigenschafts-Deskriptor q ist, der aus dem neuronalen Netz für die aktuelle Aufnahme x_i extrahiert wurde.

[0026] Ebenfalls vorteilhaft ist, wenn zusätzlich oder alternativ mittels bestimmten Eigenschaftsvektoren f(x) mittels einer eine Nächster-Nachbar-Suche eine Position des Objekts relativ in der Umgebung des Objekts bestimmt wird. Dadurch können die resultierenden Eigenschafts-Deskriptoren nach ihrer Pose getrennt werden und ihre Beziehung genutzt werden, um einen direkten Regressionsansatz hinzuzufügen.

[0027] Ebenfalls vorteilhaft ist, wenn zumindest eine Symmetrieeigenschaft des Objekts bei der Bildanalyse berücksichtigt wird, insbesondere nur ein erster Teil des symmetrischen Objekts, welcher zumindest zu einem zweiten Teil des symmetrischen Objekts symmetrisch ist, analysiert wird. Insbesondere wird die Anzahl der geänderten Posen dadurch begrenzt, in dem nur die einzigartigen Posen beibehalten werden. Dies hat den Vorteil, dass weniger Speicherplatz benötigt wird (durch extra gerenderte Posen). Dadurch kann Rechenkapazität und Rechenzeit bei der Bestimmung der Eigenschaft des Objekts eingespart werden.

[0028] Ebenfalls vorteilhaft ist, wenn die aktuelle Aufnahme als Tiefenaufnahme erfasst wird. Bei der Tiefenaufnahme ist es durch die Bildanalyse ermöglicht, dass Tiefen-Informationen in einer 2D-Aufnahme genutzt werden können, umso für die Bildanalyse eine Information zu den Tiefenlagen zu erhalten. Es handelt sich bei den Tiefenaufnahmen nicht um RGB-Aufnahmen. Dadurch kann gegenüber dem Stand der Technik insbesondere Rechenzeit eingespart werden, da lediglich die Tiefenaufnahmen für die Bestimmung der Pose des Objekts genutzt werden.

[0029] Ein weiterer Aspekt der Erfindung betrifft eine Steuerungsvorrichtung, welche dazu ausgebildet ist ein Verfahren nach dem vorhergehenden Aspekt oder einer vorteilhaften Ausführungsform davon durchzuführen. Bei der Steuerungsvorrichtung handelt es sich insbesondere um eine elektronische Recheneinrichtung.

[0030] Vorteilhafte Ausführungsformen des Verfahrens sind als vorteilhafte Ausführungsformen der Steuerungsvorrichtung anzusehen. Die Steuerungsvorrichtung weist dazu gegenständliche Merkmale auf, welche eine Durchführung des Verfahrens oder eine vorteilhafte Ausgestaltungform davon ermöglichen.

[0031] Weitere Merkmale und Vorteile sind der folgenden Beschreibung anhand der beigefügten Figuren zu entnehmen. In den Figuren bezeichnen gleiche Bezugszeichen gleiche Merkmale und Funktionen. Die Ausführungsbeispiele dienen lediglich der Erläuterung der Erfindung und sollen diese nicht beschränken.

[0032] Dabei zeigt die einzige Figur eine schematische Ansicht einer Ausführungsform des Verfahrens.

[0033] In der Figur werden gleiche und funktionsgleiche Elemente mit den gleichen Bezugszeichen versehen.

[0034] Die Figur zeigt in schematischer Ansicht eine Ausführungsform des Verfahrens. Mit einem Input-Tiefen-Aufnahmepatch werden entsprechende Triplets und Paare während des Trainings erzeugt, um sowohl die mannigfaltige Einbettung als auch die Erstellung robuster Eigenschafts-Deskriptoren und Posenregression L_pose durchzuführen.

[0035] Das in der Figur gezeigte Ausführungsbeispiel des Verfahrens beginnt mit dem Training eines neuronalen Netzes 1 für einen gegebenen Trainingssatz S_train = {s₁, ···, s_N} = {(x₁,c₁,q₁), ···, (x_N,c_N,q_N)} bestehend aus N Proben S. Jede Probe s besteht aus einem Tiefenaufnahmeteil

eines Objekts c∈N, zusammen mit dem entsprechenden Posenvektor

der die durch Quaternionen dargestellte Orientierung gibt.

[0036] Es ist vorgesehen, die Abbildungsfunktion φ:X→Q zu modellieren, das heißt für eine gegebene Eingabe x wird der vorhergesagte Posenvektor q̃ wie folgt erhalten:

wobei w die Modellparameter sind. Es ist vorgesehen eine genaue Posenschätzung für alle unsichtbaren Daten zu erhalten. Es ist zusätzlich vorgesehen einen gut geclusterten Eigenschaftsraum zu haben. Um dies zu erreichen wird ein Multi-Task-Lernen L_MTL durchgeführt. Das Multi-Task-Lernen L_MTL wird mittels Posenregression L_pose und Deskriptorlernen L_d durchgeführt. So kann die übergeordnete Zielfunktion wie folgt beschrieben werden:

wobei L_pose und L_d die Zielfunktionen für die Posenregressionsaufgabe bzw. die Deskriptorlernaufgabe sind.

[0037] Während des Tests bildet das neuronale Netz 1 eine gegebene Eingabe x auf einen niederdimensionalen Merkmalsvektor f(x)∈R^d ab, das heißt die Ausgabe der letzten vollständig verbundenen Stufe, bevor diese zur Regression der Pose verwendet wird, wobei die folgende Verlustfunktion verwendet wird:

wobei q die entsprechende Feldversuchspose ist.

[0038] Für den Vergleich mit der Basislinienmethode kann mit dem Trainingsset S_train eine Datenbank mit Aufnahmeeigenschafts-Deskriptoren q für die Suche nach dem nächsten Nachbarn generiert werden, die dann verwendet wird, um die beste korrespondierende Pose für eine unbekannte Testaufnahme zu erhalten. Um eine effiziente Regression zu erreichen, müssen die robusten Aufnahmeeigenschafts-Deskriptoren q erstellt werden. Es wird die Triplet-wise-Loss-Funktion L_triplets, welche eine Verlustfunktion darstellt, verwendet, um das neuronale Netz 1 zu trainieren. Dieses wird durch eine Reihe von Triplets (s_i,s_j,s_k)∈T trainiert, wobei eine Probe s_i(anchor, Ankeraufnahme) der aktuellen Aufnahme x_i entspricht und eine Probe s_j (puller, Ziehaufnahme) so gewählt wird, dass die Aufnahme dem gleichen Objekt c_j entspricht, das von einer ähnlichen Pose q_j aus betrachtet wird. Allerdings wird eine Probe s_k (pusher, Stoßaufnahme) so gewählt, dass die Aufnahme x_k entweder einem anderen Objekt c_k oder dem gleichen Objekt c_i entspricht, aber unter einer ganz anderen Pose

betrachtet wird. Der Verlust, der über eine Gruppe von Triplets definiert wird, wird wie folgt formuliert:

wobei Blickwinkel unter ähnlichen Posen dicht beieinander zusammengezogen werden und ungleiche oder unterschiedliche Objekte weiter weggestoßen werden. Ein dynamischer Margin-Term m wird wie folgt definiert:

[0039] Der dynamische Margin-Term m sorgt dafür, dass Objekte verschiedener Klassen weiter weggestoßen werden, wobei der Margin-Term m für die gleichen Objekte vom Winkelabstand zwischen den aktuellen Blickwinkeln q_i und q_j abhängt.

[0040] Darüber hinaus wird eine Pair-wise-Loss-Funktion L_pairs verwendet, um die Aufnahmeeigenschafts-Deskriptoren q desselben Objekts unter der gleichen oder sehr ähnlichen Pose, aber mit unterschiedlichen Hintergründen oder aus verschiedenen Domänen (synthetisch und real) zusammenzuziehen. Die Pair-wise-Loss-Funktion L_pairs wird auf den Paaren (s_i,s_j)∈P berechnet und ist definiert als:

wobei f(x_i) der Aufnahmeeigenschafts-Deskriptor q ist, der aus dem neuronalen Netz 1 für das die aktuelle Aufnahme x_i extrahiert wurde.

[0041] Anstatt sich jedoch nur auf die berechneten Merkmale für die Suche nach dem nächsten Nachbarn zu verlassen ist vorgesehen zusätzlich die Tatsache zu nutzen, dass die resultierenden Aufnahmeeigenschafts-Deskriptoren q nach ihrer Pose getrennt sind und ihre Beziehung nutzen, um einen direkten Regressionsansatz hinzuzufügen.

[0042] Insgesamt erhalten wir die folgende Verlustfunktion L_d für das Deskriptor-Lernen:

[0043] Das Deskriptor-Lernen L_d auf einem Deskriptor-Speicher 2 abgespeichert. Es ist somit ein End-to-End Multi-Task-Lernframework für die Objekterkennung und Posenschätzung vorgestellt. Durch die Einführung eines Regressions-Frameworks mit robustem Aufnahmeeigenschafts-Deskriptor-Lernen kann eine vollständige Eliminierung der Notwendigkeit der Suche nach dem nächsten Nachbarn im Vergleich zu den Baselinemethoden durchgeführt werden, was wiederum zu einer Verbesserung des Speicherverbrauchs und der Effizienz der Methoden führt. Dadurch ergeben sich Vorteile, indem es die Posenregression L_pose und das Deskriptor-Lernen L_d fördert und die resultierende Genauigkeit für die Abfrage der nächstgelegenen Nachbarposition verbessert.

Ansprüche

1. Verfahren zum Bestimmen einer Pose eines Objekts in dessen Umgebung, wobei mittels einer optischen Erfassungseinrichtung das Objekt und dessen Umgebung als aktuelle Aufnahme (x_i) erfasst und mittels einer optischen Bildanalyse die Pose des Objekts bestimmt wird, und wobei mittels eines neuronalen Netzes (1) die Pose des Objekts als Ausgabe des neuronalen Netzes (1) ermittelt wird, wobei das neuronale Netz (1) mittels eines Multi-task-Lernens (L_MTL) durch eine Verwendung von Posenregression (L_pose) und Deskriptorlernen (L_d), welches durch Nutzung einer Triplet-wise-Loss-Funktion (L_triplet) und einer Pair-wise-Loss-Funktion (L_pair) bestimmt wird, angelernt wird,
dadurch gekennzeichnet, dass
die Posenregression (L_pose) mittels Quaternionen, die Triplet-wise-Loss-Funktion (L_triplet) abhängig von einem dynamischen Margin-Term (m) und die Pair-wise-Loss-Funktion (L_pair) nur als Verankerungsfunktion bestimmt werden.

2. Verfahren nach Anspruch 1, wobei durch die Bestimmung der Pose des Objekts eine Objektart erkannt wird und/oder eine Position des Objekts relativ in der Umgebung des Objekts bestimmt wird.

3. Verfahren nach einem der vorhergehenden Ansprüche, wobei bei der Posenregression (L_pose) eine Eingabe x in das neuronale Netz (1) zu einem niedriger dimensionierten Eigenschaftsvektor f(x) ∈ R^d abgebildet wird.

4. Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Lernen der Triplet-wise-Loss-Funktion (L_triplet) eine mit der aktuellen Aufnahme (x_i) korrespondierende Ankeraufnahme (s_i) bestimmt wird und eine Ziehaufnahme (s_j) derart gewählt wird, dass die aktuelle Aufnahme (x_i) des Objekts mit einer eine ähnliche Pose aufweisenden Aufnahme des Objekts korrespondiert.

5. Verfahren nach einem der vorhergehenden Ansprüche, wobei, zum Lernen der Triplet-wise-Loss-Funktion (L_triplet) eine mit der aktuellen Aufnahme (x_i) korrespondierende Ankeraufnahme (s_i) bestimmt wird und eine Stossaufnahme (s_k) derart gewählt wird, dass die aktuelle Aufnahme des Objekts mit einer ein anderes Objekt aufweisenden Aufnahme (x_i) oder mit einer eine unterschiedliche Pose aufweisenden Aufnahme des Objekts korrespondiert.

6. Verfahren nach Anspruch 4, wobei der dynamische Margin-Term (m) bei einer Korrespondenz der aktuellen Aufnahme (x_i) mit einer eine ähnlichen Pose aufweisenden Aufnahme des Objekts durch eine Arcus-Cosinus-Funktion bestimmt wird.

7. Verfahren nach Anspruch 5, wobei der dynamische Margin-Term (m) bei einer Korrespondenz der aktuellen Aufnahme (x_i) mit einer ein anderes Objekt aufweisenden Aufnahme oder mit einer eine unterschiedliche Pose aufweisende Aufnahme des Objekts als lineare Funktion bestimmt wird.

8. Verfahren nach einem der vorhergehenden Ansprüche, wobei mittels der Pair-wise-Loss-Funktion (L_pair) die Deskriptoren (q), welche das gleiche Objekt in einer gleichen oder zumindest ähnlichen Pose aber mit einer jeweils unterschiedlichen Umgebung beschreiben oder von einer unterschiedlichen Domäne stammen, zusammengestoßen werden.

9. Verfahren nach einem der vorhergehenden Ansprüche, wobei zusätzlich oder alternativ mittels bestimmten Eigenschaftsvektoren f(x) mittels einer eine Nächster-Nachbar-Suche eine Position des Objekts relativ in der Umgebung des Objekts bestimmt wird.

10. Verfahren nach einem der vorhergehenden Ansprüche, wobei zumindest eine Symmetrieeigenschaft des Objekts bei der Bildanalyse berücksichtigt wird, insbesondere nur ein erster Teil des symmetrischen Objekts, welcher zumindest zu einem zweiten Teil des symmetrischen Objekts symmetrisch ist, analysiert wird.

11. Verfahren nach einem der vorhergehenden Ansprüche, wobei die aktuelle Aufnahme (x_i) als Tiefenaufnahme erfasst wird.

12. Steuerungsvorrichtung, welche dazu ausgebildet ist ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.

Zeichnung

Recherchenbericht

Recherchenbericht

Angeführte Verweise

IN DER BESCHREIBUNG AUFGEFÜHRTE DOKUMENTE

Diese Liste der vom Anmelder aufgeführten Dokumente wurde ausschließlich zur Information des Lesers aufgenommen und ist nicht Bestandteil des europäischen Patentdokumentes. Sie wurde mit größter Sorgfalt zusammengestellt; das EPA übernimmt jedoch keinerlei Haftung für etwaige Fehler oder Auslassungen.

In der Beschreibung aufgeführte Nicht-Patentliteratur

KEHL et al.Deep Leraning of Local RGB-D Patches of 3D Object Detection and 6D Pose Estimation, [0003]
BUIX-Ray PoseNet: 6 DoF Pose Estimation for Mobile X-Ray Devices, [0007]
BALNTAS et al.Pose Guided RGBD Feature Learning for 3D Object Pose Estimation, [0008]