Die Forscher des MIT haben ein Deep-Learning-Modell entwickelt, das auf die Beziehungen von Objekten zugreifen kann. Diese Technologie konzentriert sich auf die verschränkten Beziehungen zwischen Objekten. Infolgedessen handelt es sich um eine wertvolle Entwicklung, die die genaue Lokalisierung eines Objekts in der Robotik ermöglicht, die durch die AI ermöglicht wurde. Diese KI-Entwicklung befähigt das Modell, zusätzliche exakte Bilder aus Textdarstellungen zu erstellen, wenn die Szene einige Objekte enthält, die in verschiedenen Beziehungen zueinander organisiert sind.
Wir könnten diese Arbeit anwenden, wenn moderne Roboter komplexe, mehrstufige Steuerungsaufgaben übernehmen sollen, wie z. B. das Stapeln von Dingen in einem Lagerraum oder das Zusammenstellen von Maschinen. Außerdem rückt es das Feld ein Stück näher an die Befähigung von Maschinen heran, die mehr wie Menschen von ihrer Umgebung profitieren und mit ihr kommunizieren können.
Yilun Du, Doktorand am Computer Science and Artificial Intelligence Laboratory (CSAIL), sagt: „Wenn ich auf einen Tisch schaue, kann ich nicht sagen, dass sich an der Position XYZ ein Objekt befindet. So funktioniert unser Verstand nicht.“ Der Wissenschaftler sagt weiter: „Wenn wir eine Szene verstehen, dann verstehen wir sie auf der Grundlage der Beziehungen zwischen den Objekten. Wir glauben, dass wir durch den Aufbau eines Rahmens, der die Verbindungen zwischen den Objekten erfassen kann, diese Situation nutzen könnten, um unsere Umgebung erfolgreicher zu kontrollieren und zu verändern“.
Die von den Wissenschaftlern geschaffene Struktur kann ein Bild einer Szene in Abhängigkeit von einer textlichen Darstellung von Artikeln und deren Zusammenhängen erzeugen.
Andere Rahmenwerke würden jede einzelne der Beziehungen umfassend berücksichtigen und das Bild mit einem einzigen Schuss aus der Darstellung erstellen. Wie dem auch sei, solche Methoden versagen, wenn wir Darstellungen haben, die nicht in der Lage sind, zu vermitteln, wie z. B. Darstellungen mit mehr Beziehungen, da diese Modelle nicht in der Lage sind, eine einzelne Aufnahme anzupassen, um Bilder mit mehr Verbindungen zu erzeugen. Da wir diese verschiedenen, bescheideneren Modelle zusammen bilden, können wir auf jeden Fall eine größere Anzahl von Verbindungen zeigen und uns an neue Mischungen anpassen, fügte Du hinzu.
Außerdem funktioniert dieses System auch in umgekehrter Richtung. In diesem Zusammenhang handelt es sich um eine wertvolle Technologie, die die Robotikbranche revolutionieren kann.
Quellen
Massachusetts Institute of Technology.
https://www.sciencedaily.com/releases/2021/11/211129155110.htm
Last modified: 17. Januar 2022