[0001] Die Erfindung betrifft ein Verfahren zum Bestimmen einer Pose eines Objekts in dessen
Umgebung. Mittels einer optischen Erfassungseinrichtung wird das Objekt und dessen
Umgebung als aktuelle Aufnahme erfasst und mittels einer optischen Bildanalyse wird
die Pose des Objekts bestimmt. Mittels eines neuronalen Netzes wird die Pose als Ausgabe
des neuronalen Netzes ermittelt. Das neuronale Netz wird mittels eines Multi-Task-Lernens
durch eine Posenregression und durch ein Deskriptorlernen, welches durch Nutzung einer
Triplet-wise-Loss-Funktion und einer Pair-wise-Loss-Funktion bestimmt wird, angelernt.
Ferner betrifft die Erfindung eine Steuerungsvorrichtung.
[0002] Im Bereich Computer-Vision ist das Bestimmen einer Pose eines Objekts bereits bekannt.
Beispielsweise kann mittels einer 2D-View-spezifischen Vorlage eine Objekterkennung
und eine Posenschätzung durchgeführt werden. Durch die Berechnung von handgefertigten
Eigenschafts-Darstellung für einen bekannten Satz von Ansichten können die meisten
ähnlichen Übereinstimmungen für ein gegebenes Template mit einer unbekannten Klasse
und Pose gefunden werden.
[0003] Ebenfalls ist bereits bekannt, um diesem Problem entgegenzutreten, lernbasierte Methoden
zu verwenden, anstatt sich auf handgefertigte Eigenschaften zu verlassen, um auf beschreibender
und robustere Eigenschafts-Darstellungen für die Abfrage von Objektposition schließen
zu können. Beispielsweise beschreibt
Kehl et al." Deep Leraning of Local RGB-D Patches of 3D Object Detection and 6D Pose
Estimation" die Verwendung eines Autokodierers um Eigenschafts-Deskriptoren für RGB-D-Bildpatches
zu erlernen.
[0004] Wohlhart und Lepetit schlagen in ihrer Veröffentlichung "Learning Descriptors for
Object Recognition and 3D Pose Estimation" eine Erweiterung dieser Idee eines Deskriptorlernens
mit einem neuronalen Netz vor. Durch die Durchsetzung des euklidschen Verlusts zwischen
Aufnahmen aus ähnlichen Ansichten, die nahe beieinander liegen, und aus verschiedenen
Objekten, die weit entfernt sind, können sowohl die Identität des Objekts als auch
die Poseninformationen in hoch separierbaren Eigenschafts-Deskriptoren gespeichert
werden. Die Pose für eine gegebene Testaufnahme kann durch die Suche nach dem nächsten
Nachbarn geschätzt werden, um die nächstgelegene entsprechende Pose des von Objekts
zu finden. Einer der Hauptnachteile dieser Methode ist, dass die Rotation der Ebene
von dem Verfahren nicht berücksichtigt wird, was in der Praxis nur selten der Fall
ist.
[0005] Moderne Methoden zur Schätzung der Objektposition sowie zur Kameralokalisierung schlagen
vor, sich auf die Pixel-zu-3D-Punkt-Korrespondenzvorhersage zu verlassen, die auf
dem "Forest" Klassifikationsverfahren beruhen und auf einer iterativen Posenverfeinerung
basiert.
[0006] Nochmals neue Methoden haben direkte Regressionsansätze eingeführt, um die Position
und Ausrichtung einer Kamera für Innen-und Außenaufnahmen zu regressieren. Diese Methode
ist zwar in der Lage, die sechs Freiheitsgrade der Kamera durchgängig mit nur einer
RGB-Aufnahme als Eingangssignal abzuleiten, die Genauigkeit ist aber deutlich geringer
als das, was die oben genannten Methoden auf Basis der Pixel-zu-3D-Punkt-Korrespondenzvorhersage
erreichen könnten.
[0007] In der Veröffentlichung "
X-Ray PoseNet: 6 DoF Pose Estimation for Mobile X-Ray Devices" von Bui et al. wird ein Regressionsansatz verwendet, um die geometrischen Parameter eines
mobilen Röntgensystems vorherzusagen, um die Berechnung tomographisch rekonstruierter
Volumina zu ermöglichen. Zusätzlich zum Training des Modells über den Posenverlust
wird der Rekonstruktionsverlust zwischen der Röntgenprojektionsaufnahme des Feldversuchs
und der vorhergesagten Aufnahme unter Verwendung der aktuellen Posenschätzung verwendet,
um das Modell für seine endgültige Anwendung, die tomographische Rekonstruktion, zu
verbessern.
[0008] In der Veröffentlichung von
Balntas et al. " Pose Guided RGBD Feature Learning for 3D Object Pose Estimation" werden die Auswirkungen der Verwendung von Objekt-Posen als Anleitung zum Anlernen
robuster Eigenschaften für die 3-D-Objektposen-Schätzung untersucht. Es werden die
exakten Posenunterschiede zwischen den Trainingsmustern untersucht und es wird darauf
abgezielt, die Einbettung so zu erlernen, dass die Abstände im Posenraum proportional
den Abständen im Eigenschaftsraum sind. Sollten Objekte symmetrisch sein, werden datengesteuerte
Gewichte vorgeschlagen, die die Objektsymmetrien, wie bei der Messung der Posenabstände,
widerspiegeln. Darüber hinaus wird die Ende-zu-Ende Posenregression untersucht und
die Posenerkennung in einem neuronalen Netz durchgeführt und somit als eine weitere
Posenanleitung für das Eigenschafts-Lernen verwendet.
[0009] Aufgabe der folgenden Erfindung ist es, ein Verfahren sowie eine Steuerungsvorrichtung
zu schaffen, mittels welchem bzw. mittels welcher eine verbesserte Bestimmung einer
Pose eines Objekts in dessen Umgebung durchgeführt werden kann.
[0010] Diese Aufgabe wird durch ein Verfahren sowie durch eine Steuerungsvorrichtung gemäß
den unabhängigen Ansprüchen gelöst.
[0011] Ein Aspekt der Erfindung betrifft ein Verfahren zum Bestimmen einer Pose eines Objekts
in dessen Umgebung. Mittels einer optischen Erfassungseinrichtung wird das Objekt
und dessen Umgebung als aktuelle Aufnahme erfasst und mittels einer optischen Bildanalyse
wird die Pose des Objekts bestimmt. Mittels eines neuronalen Netzes wird die Pose
als Ausgabe des neuronalen Netzes ermittelt. Das neuronale Netz wird mittels eines
Multi-Task-Lernens durch eine Posenregression und durch ein Deskriptorlernen, welches
durch Nutzung einer Triplet-wise-Loss-Funktion und einer Pair-wise-Loss-Funktion bestimmt
wird, angelernt.
[0012] Es ist vorgesehen, dass die Posenregression mittels Quaternionen, die Triplet-wise-Loss-Funktion
abhängig von einem dynamischen Margin-Term und die Pair-wise-Loss-Funktion nur als
Verankerungsfunktion bestimmt werden.
[0013] Dadurch ist es ermöglicht, dass die Stärken der Regression und des mannigfaltigen
Lernens kombiniert werden können, um trennbare Eigenschafts-Deskriptoren zu erlernen,
wodurch die Vorteile bei der Bestimmung der optischen Eigenschaft genutzt werden können.
Dadurch können robuste Eigenschafts-Deskriptoren entwickelt werden, die insbesondere
aus der aktuellen Aufnahme lernen. Im Vergleich zu den bisherigen Methoden zur Lösung
dieser Probleme, die die Suche nach dem nächsten Nachbarn auf einen geschätzten Deskriptorraum
verwenden, ist es erfindungsgemäß vorgesehen ein effizientes Multi-Task-Lernframework
mit direkter Posenregression zu nutzen.

wobei L
MTL dem Multi-Task-Lernen, L
pose der Posenregression und L
d dem Deskriptorlernen entspricht. Dadurch kann die Pose direkt geschätzt werden, anstatt
Methoden der Suche nach dem nächsten Nachbarn alleine anzuwenden, deren Komplexität
linear mit der Anzahl der Objekte wächst. Dadurch kann vereinfacht die Bestimmung
der Pose des Objekts durchgeführt werden. Darüber hinaus kann dadurch eine detaillierte
Analyse der Suche nach dem nächstgelegenen Nachbarn mittels Eigenschafts-Deskriptoren
und Regressionen durchgeführt werden. Dadurch kann ebenfalls verbessert eine Pose
des Objekts bestimmt werden.
[0014] Insbesondere wird als Pose des Objekts eine Orientierung und/oder eine Position des
Objekts in der Umgebung des Objekts angesehen.
[0015] Mittels der erfindungsgemäßen Pair-wise-Loss-Funktion kann der exakte Posenunterschied
zwischen Trainingsaufnahmen für verschiedene Objekte und Posen berücksichtigt werden.
In vorteilhafter Weise wird die Pose direkt im Posenraum verbessert, d.h. der Winkelfehler
der Quaternionen Darstellung kann minimiert werden.
[0016] Insbesondere hat es sich herausgestellt, dass die Posenregression sich positiv auf
das Deskriptorlernen auswirkt und das Deskriptorlernen bei der Posenregression unterstützt.
Insbesondere hat dies vorteilhafte Auswirkungen auf das Ende-zu-Ende Lernen. Insbesondere
bei großen Objektdatenbanken führt dies zu einer verbesserten Verarbeitung und zu
einer verbesserten Bestimmung der Pose des Objekts.
[0017] Gemäß einer vorteilhaften Ausgestaltungsform wird durch die Bestimmung der Pose des
Objekts eine Objektart erkannt und/oder eine Position des Objekts relativ in einer
Umgebung des Objekts bestimmt. Dadurch ist es insbesondere möglich, dass aus der aktuellen
Aufnahme sowohl eine Objekterkennung durchgeführt werden kann und alternativ oder
ergänzend eine Position des Objekts in der Umgebung des Objekts bestimmt werden kann.
Dadurch ist das Verfahren flexibel einsetzbar und kann in vielen technischen Gebieten
eingesetzt werden.
[0018] Es hat sich weiterhin als vorteilhaft erwiesen, wenn bei der Posenregression eine
Eingabe x in das neuronale Netz zu einem niedriger dimensionierten Eigenschaftsvektor
f(
x)∈
Rd abgebildet wird. Dies bedeutet, dass die Ausgabe der letzten vollständig verbundenen
Stufe, bevor sie zur Regression der Pose mit der folgenden Verlust-Funktion verwendet
wird, folgende Funktion aufweist:

wobei q die entsprechende Feldversuchspose ist.
[0019] Weiterhin vorteilhaft ist, wenn zum Lernen der Triplet-wise-Loss-Funktion eine mit
der aktuellen Aufnahme korrespondierende Ankeraufnahme bestimmt wird und eine Ziehaufnahme
derart gewählt wird, dass die aktuelle Aufnahme des Objekts mit einer eine ähnliche
Pose aufweisenden Aufnahme des Objekts korrespondiert. Für den Vergleich mit der Basislinienmethode
kann mit dem Trainingsset S
train eine Datenbank mit Aufnahmeeigenschafts-Deskriptoren für die Suche nach dem nächsten
Nachbarn generiert werden, die dann verwendet wird, um die beste korrespondierende
Pose für eine unbekannte Testaufnahme zu erhalten. Um eine effiziente Regression zu
erreichen, müssen die robusten Aufnahmeeigenschafts-Deskriptoren f(x) erstellt werden.
Es wird die Triplet-wise-Loss-Funktion L
triplets, welche eine Verlustfunktion darstellt, verwendet, um das neuronale Netz zu trainieren.
Es wird durch eine Reihe von Triplets (
si,
sj,
sk)∈
T trainiert, wobei eine Probe s
i(anchor, Ankeraufnahme) der aktuellen Aufnahme x
i entspricht und eine Probe s
j (puller, Ziehaufnahme) so gewählt wird, dass die Aufnahme dem gleichen Objekt c
j entspricht, das von einer ähnlichen Pose q
j aus betrachtet wird:

[0020] Ebenfalls vorteilhaft ist, wenn zum Lernen der Triplet-wise-Loss-Funktion eine mit
der aktuellen Aufnahme korrespondierende Ankeraufnahme bestimmt wird und eine Stoßaufnahme
derart gewählt wird, dass die aktuelle Aufnahme des Objekts mit einer ein anderes
Objekt aufweisenden Aufnahme oder mit einer eine unterschiedliche Pose aufweisenden
Aufnahme des Objekts korrespondiert. Es wird eine Probe s
k(pusher, Stoßaufnahme) so gewählt, dass die Aufnahme x
k entweder einem anderen Objekt c
k oder dem gleichen Objekt c
i entspricht, aber unter einer ganz anderen Pose

betrachtet wird:

[0021] Der Verlust, der über eine Gruppe von Triplets definiert wird, wird insbesondere
wie folgt formuliert:

[0022] In einer vorteilhaften Ausgestaltungsform wird der dynamische Margin-Term bei einer
Korrespondenz der aktuellen Aufnahme mit einer eine ähnliche Pose aufweisenden Aufnahme
des Objekts durch eine Arcus-Kosinus-Funktion bestimmt wird. Der dynamische Margin-term
m wird wie folgt definiert:

[0023] Der dynamische Margin-term m sorgt dafür, dass Objekte verschiedener Klassen weiter
weggestoßen werden, wobei der Margin-term m für die gleichen Objekte vom Winkelabstand
zwischen den aktuellen Blickwinkeln q
i und q
j abhängt.
[0024] Gemäß einer weiteren vorteilhaften Ausgestaltungsform kann der dynamische Margin-Term
einer Korrespondenz der aktuellen Aufnahme mit einer ein anderes Objekt aufweisenden
Aufnahme oder mit einer eine unterschiedliche Pose aufweisenden Aufnahme des Objekts
als lineare Funktion bestimmt werden. Der dynamische Margin-term m wird wie folgt
definiert:

[0025] Der dynamische Margin-term m sorgt dafür, dass Objekte verschiedener Klassen weiter
weggestoßen werden, wobei der Margin-term m für die gleichen Objekte vom Winkelabstand
zwischen den aktuellen Blickwinkeln q
i und q
j abhängt. Ebenfalls vorteilhaft ist, wenn mittels der Pair-wise-Loss-Funktion die
Deskriptoren, welche das gleiche Objekt in einer gleichen oder zumindest ähnlichen
Pose aber mit einer jeweils unterschiedlichen Umgebung beschreiben und einer von unterschiedlichen
Domäne stammen, zusammengestoßen werden. Die Pair-wise-Loss-Funktion L
pairs wird aus den Paaren (
si,
sj)∈
P berechnet und ist definiert als:

wobei f(x
i) der Aufnahmeeigenschafts-Deskriptor q ist, der aus dem neuronalen Netz für die aktuelle
Aufnahme x
i extrahiert wurde.
[0026] Ebenfalls vorteilhaft ist, wenn zusätzlich oder alternativ mittels bestimmten Eigenschaftsvektoren
f(x) mittels einer eine Nächster-Nachbar-Suche eine Position des Objekts relativ in
der Umgebung des Objekts bestimmt wird. Dadurch können die resultierenden Eigenschafts-Deskriptoren
nach ihrer Pose getrennt werden und ihre Beziehung genutzt werden, um einen direkten
Regressionsansatz hinzuzufügen.
[0027] Ebenfalls vorteilhaft ist, wenn zumindest eine Symmetrieeigenschaft des Objekts bei
der Bildanalyse berücksichtigt wird, insbesondere nur ein erster Teil des symmetrischen
Objekts, welcher zumindest zu einem zweiten Teil des symmetrischen Objekts symmetrisch
ist, analysiert wird. Insbesondere wird die Anzahl der geänderten Posen dadurch begrenzt,
in dem nur die einzigartigen Posen beibehalten werden. Dies hat den Vorteil, dass
weniger Speicherplatz benötigt wird (durch extra gerenderte Posen). Dadurch kann Rechenkapazität
und Rechenzeit bei der Bestimmung der Eigenschaft des Objekts eingespart werden.
[0028] Ebenfalls vorteilhaft ist, wenn die aktuelle Aufnahme als Tiefenaufnahme erfasst
wird. Bei der Tiefenaufnahme ist es durch die Bildanalyse ermöglicht, dass Tiefen-Informationen
in einer 2D-Aufnahme genutzt werden können, umso für die Bildanalyse eine Information
zu den Tiefenlagen zu erhalten. Es handelt sich bei den Tiefenaufnahmen nicht um RGB-Aufnahmen.
Dadurch kann gegenüber dem Stand der Technik insbesondere Rechenzeit eingespart werden,
da lediglich die Tiefenaufnahmen für die Bestimmung der Pose des Objekts genutzt werden.
[0029] Ein weiterer Aspekt der Erfindung betrifft eine Steuerungsvorrichtung, welche dazu
ausgebildet ist ein Verfahren nach dem vorhergehenden Aspekt oder einer vorteilhaften
Ausführungsform davon durchzuführen. Bei der Steuerungsvorrichtung handelt es sich
insbesondere um eine elektronische Recheneinrichtung.
[0030] Vorteilhafte Ausführungsformen des Verfahrens sind als vorteilhafte Ausführungsformen
der Steuerungsvorrichtung anzusehen. Die Steuerungsvorrichtung weist dazu gegenständliche
Merkmale auf, welche eine Durchführung des Verfahrens oder eine vorteilhafte Ausgestaltungform
davon ermöglichen.
[0031] Weitere Merkmale und Vorteile sind der folgenden Beschreibung anhand der beigefügten
Figuren zu entnehmen. In den Figuren bezeichnen gleiche Bezugszeichen gleiche Merkmale
und Funktionen. Die Ausführungsbeispiele dienen lediglich der Erläuterung der Erfindung
und sollen diese nicht beschränken.
[0032] Dabei zeigt die einzige Figur eine schematische Ansicht einer Ausführungsform des
Verfahrens.
[0033] In der Figur werden gleiche und funktionsgleiche Elemente mit den gleichen Bezugszeichen
versehen.
[0034] Die Figur zeigt in schematischer Ansicht eine Ausführungsform des Verfahrens. Mit
einem Input-Tiefen-Aufnahmepatch werden entsprechende Triplets und Paare während des
Trainings erzeugt, um sowohl die mannigfaltige Einbettung als auch die Erstellung
robuster Eigenschafts-Deskriptoren und Posenregression L
pose durchzuführen.
[0035] Das in der Figur gezeigte Ausführungsbeispiel des Verfahrens beginnt mit dem Training
eines neuronalen Netzes 1 für einen gegebenen Trainingssatz
Strain = {
s1, ···,
sN} = {(
x1,
c1,
q1), ···, (
xN,
cN,
qN)} bestehend aus N Proben S. Jede Probe s besteht aus einem Tiefenaufnahmeteil

eines Objekts c∈N, zusammen mit dem entsprechenden Posenvektor

der die durch Quaternionen dargestellte Orientierung gibt.
[0036] Es ist vorgesehen, die Abbildungsfunktion
φ:
X→
Q zu modellieren, das heißt für eine gegebene Eingabe x wird der vorhergesagte Posenvektor
q̃ wie folgt erhalten:

wobei w die Modellparameter sind. Es ist vorgesehen eine genaue Posenschätzung für
alle unsichtbaren Daten zu erhalten. Es ist zusätzlich vorgesehen einen gut geclusterten
Eigenschaftsraum zu haben. Um dies zu erreichen wird ein Multi-Task-Lernen L
MTL durchgeführt. Das Multi-Task-Lernen L
MTL wird mittels Posenregression L
pose und Deskriptorlernen L
d durchgeführt. So kann die übergeordnete Zielfunktion wie folgt beschrieben werden:

wobei L
pose und L
d die Zielfunktionen für die Posenregressionsaufgabe bzw. die Deskriptorlernaufgabe
sind.
[0037] Während des Tests bildet das neuronale Netz 1 eine gegebene Eingabe x auf einen niederdimensionalen
Merkmalsvektor
f(
x)∈
Rd ab, das heißt die Ausgabe der letzten vollständig verbundenen Stufe, bevor diese
zur Regression der Pose verwendet wird, wobei die folgende Verlustfunktion verwendet
wird:

wobei q die entsprechende Feldversuchspose ist.
[0038] Für den Vergleich mit der Basislinienmethode kann mit dem Trainingsset S
train eine Datenbank mit Aufnahmeeigenschafts-Deskriptoren q für die Suche nach dem nächsten
Nachbarn generiert werden, die dann verwendet wird, um die beste korrespondierende
Pose für eine unbekannte Testaufnahme zu erhalten. Um eine effiziente Regression zu
erreichen, müssen die robusten Aufnahmeeigenschafts-Deskriptoren q erstellt werden.
Es wird die Triplet-wise-Loss-Funktion L
triplets, welche eine Verlustfunktion darstellt, verwendet, um das neuronale Netz 1 zu trainieren.
Dieses wird durch eine Reihe von Triplets (
si,
sj,
sk)∈
T trainiert, wobei eine Probe s
i(anchor, Ankeraufnahme) der aktuellen Aufnahme x
i entspricht und eine Probe s
j (puller, Ziehaufnahme) so gewählt wird, dass die Aufnahme dem gleichen Objekt c
j entspricht, das von einer ähnlichen Pose q
j aus betrachtet wird. Allerdings wird eine Probe s
k (pusher, Stoßaufnahme) so gewählt, dass die Aufnahme x
k entweder einem anderen Objekt c
k oder dem gleichen Objekt c
i entspricht, aber unter einer ganz anderen Pose

betrachtet wird. Der Verlust, der über eine Gruppe von Triplets definiert wird, wird
wie folgt formuliert:

wobei Blickwinkel unter ähnlichen Posen dicht beieinander zusammengezogen werden
und ungleiche oder unterschiedliche Objekte weiter weggestoßen werden. Ein dynamischer
Margin-Term m wird wie folgt definiert:

[0039] Der dynamische Margin-Term m sorgt dafür, dass Objekte verschiedener Klassen weiter
weggestoßen werden, wobei der Margin-Term m für die gleichen Objekte vom Winkelabstand
zwischen den aktuellen Blickwinkeln q
i und q
j abhängt.
[0040] Darüber hinaus wird eine Pair-wise-Loss-Funktion L
pairs verwendet, um die Aufnahmeeigenschafts-Deskriptoren q desselben Objekts unter der
gleichen oder sehr ähnlichen Pose, aber mit unterschiedlichen Hintergründen oder aus
verschiedenen Domänen (synthetisch und real) zusammenzuziehen. Die Pair-wise-Loss-Funktion
L
pairs wird auf den Paaren (
si,
sj)∈
P berechnet und ist definiert als:

wobei f(x
i) der Aufnahmeeigenschafts-Deskriptor q ist, der aus dem neuronalen Netz 1 für das
die aktuelle Aufnahme x
i extrahiert wurde.
[0041] Anstatt sich jedoch nur auf die berechneten Merkmale für die Suche nach dem nächsten
Nachbarn zu verlassen ist vorgesehen zusätzlich die Tatsache zu nutzen, dass die resultierenden
Aufnahmeeigenschafts-Deskriptoren q nach ihrer Pose getrennt sind und ihre Beziehung
nutzen, um einen direkten Regressionsansatz hinzuzufügen.
[0042] Insgesamt erhalten wir die folgende Verlustfunktion L
d für das Deskriptor-Lernen:

[0043] Das Deskriptor-Lernen L
d auf einem Deskriptor-Speicher 2 abgespeichert. Es ist somit ein End-to-End Multi-Task-Lernframework
für die Objekterkennung und Posenschätzung vorgestellt. Durch die Einführung eines
Regressions-Frameworks mit robustem Aufnahmeeigenschafts-Deskriptor-Lernen kann eine
vollständige Eliminierung der Notwendigkeit der Suche nach dem nächsten Nachbarn im
Vergleich zu den Baselinemethoden durchgeführt werden, was wiederum zu einer Verbesserung
des Speicherverbrauchs und der Effizienz der Methoden führt. Dadurch ergeben sich
Vorteile, indem es die Posenregression L
pose und das Deskriptor-Lernen L
d fördert und die resultierende Genauigkeit für die Abfrage der nächstgelegenen Nachbarposition
verbessert.
1. Verfahren zum Bestimmen einer Pose eines Objekts in dessen Umgebung, wobei mittels
einer optischen Erfassungseinrichtung das Objekt und dessen Umgebung als aktuelle
Aufnahme (xi) erfasst und mittels einer optischen Bildanalyse die Pose des Objekts bestimmt wird,
und wobei mittels eines neuronalen Netzes (1) die Pose des Objekts als Ausgabe des
neuronalen Netzes (1) ermittelt wird, wobei das neuronale Netz (1) mittels eines Multi-task-Lernens
(LMTL) durch eine Verwendung von Posenregression (Lpose) und Deskriptorlernen (Ld), welches durch Nutzung einer Triplet-wise-Loss-Funktion (Ltriplet) und einer Pair-wise-Loss-Funktion (Lpair) bestimmt wird, angelernt wird,
dadurch gekennzeichnet, dass
die Posenregression (Lpose) mittels Quaternionen, die Triplet-wise-Loss-Funktion (Ltriplet) abhängig von einem dynamischen Margin-Term (m) und die Pair-wise-Loss-Funktion (Lpair) nur als Verankerungsfunktion bestimmt werden.
2. Verfahren nach Anspruch 1, wobei durch die Bestimmung der Pose des Objekts eine Objektart
erkannt wird und/oder eine Position des Objekts relativ in der Umgebung des Objekts
bestimmt wird.
3. Verfahren nach einem der vorhergehenden Ansprüche, wobei bei der Posenregression (Lpose) eine Eingabe x in das neuronale Netz (1) zu einem niedriger dimensionierten Eigenschaftsvektor
f(x) ∈ Rd abgebildet wird.
4. Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Lernen der Triplet-wise-Loss-Funktion
(Ltriplet) eine mit der aktuellen Aufnahme (xi) korrespondierende Ankeraufnahme (si) bestimmt wird und eine Ziehaufnahme (sj) derart gewählt wird, dass die aktuelle Aufnahme (xi) des Objekts mit einer eine ähnliche Pose aufweisenden Aufnahme des Objekts korrespondiert.
5. Verfahren nach einem der vorhergehenden Ansprüche, wobei, zum Lernen der Triplet-wise-Loss-Funktion
(Ltriplet) eine mit der aktuellen Aufnahme (xi) korrespondierende Ankeraufnahme (si) bestimmt wird und eine Stossaufnahme (sk) derart gewählt wird, dass die aktuelle Aufnahme des Objekts mit einer ein anderes
Objekt aufweisenden Aufnahme (xi) oder mit einer eine unterschiedliche Pose aufweisenden Aufnahme des Objekts korrespondiert.
6. Verfahren nach Anspruch 4, wobei der dynamische Margin-Term (m) bei einer Korrespondenz
der aktuellen Aufnahme (xi) mit einer eine ähnlichen Pose aufweisenden Aufnahme des Objekts durch eine Arcus-Cosinus-Funktion
bestimmt wird.
7. Verfahren nach Anspruch 5, wobei der dynamische Margin-Term (m) bei einer Korrespondenz
der aktuellen Aufnahme (xi) mit einer ein anderes Objekt aufweisenden Aufnahme oder mit einer eine unterschiedliche
Pose aufweisende Aufnahme des Objekts als lineare Funktion bestimmt wird.
8. Verfahren nach einem der vorhergehenden Ansprüche, wobei mittels der Pair-wise-Loss-Funktion
(Lpair) die Deskriptoren (q), welche das gleiche Objekt in einer gleichen oder zumindest
ähnlichen Pose aber mit einer jeweils unterschiedlichen Umgebung beschreiben oder
von einer unterschiedlichen Domäne stammen, zusammengestoßen werden.
9. Verfahren nach einem der vorhergehenden Ansprüche, wobei zusätzlich oder alternativ
mittels bestimmten Eigenschaftsvektoren f(x) mittels einer eine Nächster-Nachbar-Suche
eine Position des Objekts relativ in der Umgebung des Objekts bestimmt wird.
10. Verfahren nach einem der vorhergehenden Ansprüche, wobei zumindest eine Symmetrieeigenschaft
des Objekts bei der Bildanalyse berücksichtigt wird, insbesondere nur ein erster Teil
des symmetrischen Objekts, welcher zumindest zu einem zweiten Teil des symmetrischen
Objekts symmetrisch ist, analysiert wird.
11. Verfahren nach einem der vorhergehenden Ansprüche, wobei die aktuelle Aufnahme (xi) als Tiefenaufnahme erfasst wird.
12. Steuerungsvorrichtung, welche dazu ausgebildet ist ein Verfahren nach einem der vorhergehenden
Ansprüche durchzuführen.