Die Technologie für das räumliche Weltmodell wird auf der CES 2026 vorgestellt, die vom 6. bis 9. Januar 2026 in Las Vegas stattfindet. Fujitsu plant außerdem, im gesamten Geschäftsjahr 2026 technische Demonstrationen an seinem Hauptsitz durchzuführen.

Merkmale der Technologie des räumlichen Weltmodells

1. Erstellung eines räumlichen Modells der Umgebung mithilfe von 3D-Szenengraphen mit Fokus auf die Interaktionen zwischen Menschen, Robotern und Objekten

In realen Umgebungen verändert sich die räumliche Situation dynamisch, da sich die Akteure im Raum (z. B. Menschen, Roboter usw.) bewegen und interagieren. Obwohl Technologien zur Erfassung dieser räumlichen Dynamik mithilfe von Kameradaten erforscht wurden, haben signifikante Unterschiede im Sichtfeld der einzelnen Kameras sowie Abweichungen im Erscheinungsbild – wie etwa Verzerrungen – zwischen feststehenden und beweglichen Kameras deren Echtzeitanwendung bisher erschwert.

Aus diesem Grund hat Fujitsu anstelle der pixelgenauen Integration, die sehr empfindlich auf Darstellungsunterschiede reagiert, eine Technologie entwickelt, die Kameras nutzt, um den Raum anhand von 3D-Szenengraphen zu analysieren. Dabei handelt es sich um hierarchische Datenstrukturen, die alle Objekte im physischen Raum als Knoten in einem Graphen organisieren. Dieser Ansatz minimiert den Einfluss des Sichtfelds und von Verzerrungen und ermöglicht so das Echtzeit-Erfassen komplexer und sich ständig verändernder realer Umgebungen.

2. Vorhersage zukünftiger Zustände und Verhaltensweisen durch Modellierung der Interaktionen zwischen Menschen, Robotern und Objekten

Damit Mensch und Roboter nahtlos zusammenarbeiten können, müssen Roboter die Absichten hinter menschlichen Handlungen verstehen und zukünftiges Verhalten vorhersagen können. Weltmodellierungstechnologien, die es Robotern ermöglichen, Veränderungen zu antizipieren und in ihrer unmittelbaren Umgebung zu agieren, werden intensiv erforscht. Bisher beschränkten sie sich jedoch auf die Modellierung der nahen Umgebung und konnten die dynamischen Veränderungen, die im gesamten Raum auftreten, nicht erfassen.

Das von Fujitsu entwickelte neue Verfahren schätzt Verhaltensabsichten präzise ein, indem es Kausalzusammenhänge interpretiert, die aus verschiedenen Interaktionen zwischen Akteuren und Objekten in einem Raum entstehen. Durch die Verwendung dieser Daten zur Vorhersage zukünftiger Aktionen trägt die Technologie dazu bei, Kollisionen zu vermeiden und optimale kooperative Aktionspläne für mehrere autonome Roboter zu generieren.

In Tests mit öffentlich zugänglichen akademischen Datensätzen wurde bestätigt, dass diese Technologie die Genauigkeit der Schätzung von Verhaltensabsichten um bis zu das Dreifache verbessern kann. [1].

Kontext

Künstliche Intelligenz (KI), die bisher vorwiegend in digitalen Umgebungen entwickelt wurde, findet nun Anwendung in realen Szenarien. Physikalische KI ist ein Teilgebiet der künstlichen Intelligenz, in dem KI trainiert wird, die Gesetze der Physik zu verstehen und autonom zu handeln. Sie wird eine Schlüsselrolle bei der Bewältigung verschiedener realer Herausforderungen spielen, beispielsweise beim autonomen Fahren und bei intelligenten Fabriken. Dieser Ansatz stößt auf großes Interesse, da er als potenzieller Weg zur Linderung des wachsenden Arbeitskräftemangels in Japan und zur Steigerung der industriellen Produktivität gilt.

Die derzeitigen Anwendungen von KI im physikalischen Bereich beschränken sich jedoch weitgehend auf strukturierte Umgebungen mit festgelegten Abläufen, wie beispielsweise Produktionsanlagen oder Logistiklager. In Wohnungen und Büros, wo menschliche Bewegungen weniger vorhersehbar sind und sich die Anordnung von Objekten häufig ändert, hat die KI Schwierigkeiten, die räumliche Dynamik zu erfassen, wodurch die aktuellen Lösungen unpraktisch werden. Darüber hinaus bleibt die Kooperation in Umgebungen, die die Zusammenarbeit vieler Menschen und Roboter erfordern, komplex, da die KI die Absichten hinter den Bewegungen der anderen nicht verstehen kann.

Diese neue Technologie basiert auf Fujitsus Computer-Vision-Technologie, die primär zur Analyse des Fußgängerverkehrs in Gewerbeimmobilien und zur Erkennung von Anomalien zur Verbrechensbekämpfung eingesetzt wird, sowie auf Fujitsus digitaler KI-Technologie, darunter der Fujitsu Kozuchi KI-Agent, der autonom Aufgaben an der Seite von Menschen ausführt. Sie ist Teil der Forschungsbemühungen des Spatial Robotics Research Center, das Fujitsu im April 2025 gründete, um seine Forschung zur Schaffung einer neuen Gesellschaft, in der Menschen und Roboter zusammenleben, zu stärken.

Notiz

[1] JRDB-Social: Benchmark zur Schätzung menschlichen Verhaltens und von Absichten anhand von mit Kameras aufgenommenen Bildern.