Datentyp: Multimodale Daten und Robotik

Intelligente Robotik mit Generativer KI

Was kann Generative KI für »Multimodale Daten und Robotik« leisten?

Moderne Roboter sind mit einer Vielzahl von Sensoren ausgestattet – von Kameras und LiDAR über Mikrofone bis hin zu mechanischen Sensoren. Sie erfassen ihre Umgebung in Echtzeit, doch die Fusion dieser heterogenen Daten ist hochkomplex. Klassische Steuerungssysteme basieren häufig auf vordefinierten Modellen, deren manuelle Anpassung zeit- und kostenintensiv ist.

Generative KI bringt hier den entscheidenden Fortschritt.

  • Semantisches Verständnis der Umgebung – Roboter erkennen Kontexte und Bedeutungen
  • Multimodale Daten kombinieren – Informationen aus verschiedenen Quellen intelligent zusammenführen
  • Trainingsaufwand reduzieren – Modelle schneller und effizienter nutzbar machen
  • Prozessautomatisierung aus einfacher Beschreibung – Aufgaben ohne komplexe Programmierung starten
  • Komplexe Aufgaben kontextbewusst ausführen – flexibel, präzise und zuverlässig reagieren

Mit Generativer KI entwickeln sich Roboter zu flexiblen Partnern, die komplexe Umgebungen verstehen, eigenständig handeln und Unternehmen spürbare Wettbewerbsvorteile sichern:

  • Sicherere Abläufe durch intelligente Automatisierung
  • Effizientere Prozesse mit weniger Ressourcenaufwand
  • Kostensenkung durch reduzierte Entwicklungs- und Anpassungszeiten
  • Neue Automatisierungsmöglichkeiten in Produktion, Logistik und Service

Inspiration: Forschungsprojekte und Beispiele für die Anwendung im Unternehmen

© Fraunhofer IOSB

Steuerung von autonomen Baumaschinen

Die Herausforderung
Autonome Baumaschinen müssen Objekte, Gelände und Gefahren erkennen und in Echtzeit sichere, effiziente Entscheidungen treffen. Bisherige modulare Systeme analysieren Sensordaten separat und steuern das Roboterverhalten auf Basis vorgegebener Handlungspläne. Dies führt jedoch zu Herausforderungen hinsichtlich Generalisierbarkeit und Robustheit.

Die Fraunhofer-Lösung
Multimodale Foundation-Modelle bieten ein enormes Potenzial, um komplexe Herausforderungen in dynamischen Umgebungen zu meistern. Sie verknüpfen unterschiedliche Datenmodalitäten – wie Bilder, Punktwolken, Sprache und Aktionsprotokolle – in einem einheitlichen semantischen Raum und ermöglichen so, situationsspezifische Anweisungen direkt in robotische Handlungsketten zu überführen, selbst bei bisher ungesehenen Aufgaben. Mit einer skalierbaren Systemarchitektur, die reales Training, Simulationen und kollaborative Demonstrationen kombiniert, können diese Modelle effizient in bestehende Flottenmanagementsysteme integriert werden, wodurch sie eine flexible, adaptive und effiziente Automatisierung in wechselnden Umgebungen ermöglichen.

Der Vorteil für Unternehmen
Multimodale Foundation-Modelle steigern Effizienz, Robustheit und Automatisierung, indem sie Maschinen flexibel, skalierbar und lernfähig machen – und so die Produktivität in komplexen, dynamischen Umgebungen nachhaltig erhöhen.

© Fraunhofer IAIS

Robotik und Anlageprozesse mit Sprach- und KI-Agenten steuern

Die Herausforderung
Industrieroboter werden heute mit verschiedenen Programmiersprachen konfiguriert, was zeitraubende Anpassungen und hohe Engineering-Kosten zur Folge hat. Zudem erfordert die manuelle Modellierung komplexer Abläufe spezifisches Fachwissen, was die Abhängigkeit von externem Know-how erhöht und im Falle von Personalmangel zu Stillstand und Verzögerungen führt.

Die Fraunhofer-Lösung
Das KI-Agenten-Framework, entwickelt von Fraunhofer IAIS, nutzt Foundation-Modelle, um natürliche Sprache in semantische Roboterbefehle zu übersetzen. Durch die Integration von Kamerabildern, Kraftsensoren und IoT-Daten können Roboter kontextsensitiv agieren. Das System zerlegt Aufgaben in Teilaufgaben, überwacht die Ausführung und optimiert sie dynamisch. Dies ermöglicht eine dialogbasierte Programmierung, bei der das Bedienpersonal direkt mit dem Roboter interagiert und Anpassungen in Echtzeit vornehmen kann.

Der Vorteil für Unternehmen
Dieser Ansatz reduziert den Programmieraufwand und senkt die Einstiegshürden für die Automatisierung. Er führt zu kürzeren Rüst- und Stillstandszeiten und ermöglicht eine wertschöpfende Automatisierung, selbst bei kleinen Serien. Die flexible und effiziente Steuerung von Robotern verbessert die Produktionsprozesse und fördert eine kontinuierliche Optimierung.

© Fraunhofer IPA

Kollaborative Robotik mit Pose- und Gaze-Tracking

Die Herausforderung
In modernen Produktionsstätten gewinnen kollaborative Roboter (»Cobots«) zunehmend an Bedeutung. Im Gegensatz zu traditionellen Industrierobotern, die in geschützten Sicherheitsbereichen eingesetzt werden, interagieren Cobots aktiv mit menschlichen Mitarbeitenden im selben Arbeitsbereich. Um eine sichere und effiziente Zusammenarbeit zu gewährleisten, müssen diese Roboter ihre Umgebung visuell erfassen, gesprochene Anweisungen verstehen und die Absichten sowie Handlungen ihrer menschlichen Kollegen antizipieren und interpretieren.

Die Fraunhofer-Lösung
Der Einsatz zusätzlicher Sensorik, insbesondere Gaze-Tracking und Pose-Tracking, spielt hierbei eine entscheidende Rolle. Gaze-Tracking Technologien verfolgen präzise die Blickrichtung einer Person, während Pose-Tracking die Körperhaltung und Bewegungen analysiert. Diese Sensordaten liefern nicht nur Momentaufnahmen menschlicher Aktivitäten, sondern bilden auch die Grundlage für die Absichtserkennung.

Der Vorteil für Unternehmen
Durch die Integration von Gaze- und Pose-Tracking wird der Roboter zu einem proaktiven und aufmerksamen Teamplayer. Dies erhöht die Sicherheit im gemeinsamen Arbeitsbereich, reduziert Fehler und gestaltet die Interaktion insgesamt natürlicher und effizienter.  

© Fraunhofer IML

Revolutionierung der Kommisionierung: GenAI für die Logistik
 

Die Herausforderung
In modernen Logistikzentren steigt der Druck, Prozesse weiter zu automatisieren und flexibel auf wechselnde Rahmenbedingungen zu reagieren. Insbesondere in „Brownfield“-Szenarien, in denen autonome Systeme mit menschlichen Arbeitskräften und konventionellen Fördermitteln interagieren, sind präzise Wahrnehmung und kontinuierliche Umfeldanalyse entscheidend.

Die Fraunhofer-Lösung
Das Fraunhofer IML arbeitet am Einsatz von multimodalen GenAI zur automatisierten Kommissionierung, mithilfe eines mobilen Roboters .Durch fortlaufende semantische Kartierung entsteht ein dynamisch aktualisiertes Modell der Umgebung.Diese Informationen ermöglichen dem Robotersystem, präzise Navigations- und Kommissionierbefehle abzuleiten.

Der Vorteil für Unternehmen
Durch den Einsatz multimodaler GenAI wird die gesamte Kommissionierkette – von der initialen Umfelderkundung bis zur Greifaktionsplanung – robust und effizient gestaltet. Dies führt zu einer signifikanten Verbesserung der Effizienz in Logistikprozessen, reduziert die Fehleranfälligkeit und optimiert die Interaktion zwischen Mensch und Maschine in dynamischen Arbeitsumgebungen.

© Fraunhofer IML

Intelligente Produktbeschreibung bei Retouren und Re-Commerce
 

Die Herausforderung
In der Retouren- und Re-Commerce-Logistik stoßen klassische Methoden zur Produktidentifikation wegen Beschädigungen oder Gebrauchsabnutzungen häufig an ihre Grenzen. Dadurch kommt es Fehlern und Verzögerungen bei der Zuordnung und Wiedervermarktung. Dies führt dazu, dass viele qualitativ hochwertige Produkte entsorgt werden, da die Kosten für Identifikation und Aufbereitung den möglichen Wiederverkaufswert übersteigen.

Die Fraunhofer-Lösung
Das Fraunhofer IML bietet ein Lösung mit Einsatz multimodaler Modelle, die Sprach-, Bild- und Textanalyse kombinieren, um Produkte auch dann präzise zu identifizieren, wenn klassische Merkmale fehlen oder beschädigt sind. Der Prozess gliedert sich in vier Schritte:

  1. Bilderkennung: Computer-Vision-Modelle analysieren Produktfotos und erkennen zentrale Merkmale wie Form, Farbe und Logos.  

  2. Automatische Texterkennung und sprachliche Kontextanalyse: Das System liest und interpretiert sichtbare Textelemente, auch wenn sie beschädigt oder unvollständig sind.

  3. Multimodaler Abgleich: Visuelle und textbasierte Informationen fließen in eine digitale Signatur des Artikels ein, die mit einem Produktkatalog abgeglichen wird.  

  4. Automatische Produktbeschreibung: Auf Basis der gesammelten Daten erstellt ein Vision-Language-Modell aussagekräftige Produktbeschreibungen für den Wiederverkauf. Die Multimodalität erhöht die Genauigkeit und Zuverlässigkeit der Informationen.

Der Vorteil für Unternehmen
Durch diesen Ansatz werden gebrauchte Artikel automatisch und schnell klassifiziert, wodurch ihre Wiedereinführung in den Markt beschleunigt wird und manuelle Eingriffe sowie Fehler deutlich reduziert werden.  

Weitere Datentypen

 

Tabellarische Daten & Matrizen

Tabellarische Daten und Matrizen sind im Unternehemnskontext allgegenwärtig.

 

 

Zeitreihen

Zeitreihenanalysen sind unverzichtbar, um zeitabhängige Veränderungen zu verstehen und daraus Muster abzuleiten, die strategische Entscheidungen unterstützen.

 

Graphen

Graphen visualisieren komplexe Beziehungsstrukturen in Daten und ermöglichen es, zugrunde liegende Muster, Trends und Zusammenhänge effizient zu erkennen und zu analysieren.

 

Digitaler Zwilling

Digitale Zwillinge bilden physische Systeme virtuell ab, nutzen vielfältige Datenquellen und ermöglichen so Simulationen, Mustererkennung sowie die Identifikation von Ereignissen und Anomalien.