
Große Sprachmodelle (Large Language Models, LLMs) entwickeln sich rasant weiter und eröffnen neue Möglichkeiten für die visuelle Inspektion und Qualitätskontrolle. Wenn es jedoch um visuelle Daten geht, spricht man präziser von Large Multimodal Models (LMMs), da diese neben Sprache auch Bilder oder Audiodaten verarbeiten können. Der Einfachheit halber verwenden wir in diesem Artikel weiterhin den Begriff LLMs, da er für viele ein geläufiger Begriff ist.
Viele Unternehmen interessieren sich dafür, LLMs für ihre eigene visuelle Qualitätskontrolle zu testen. Doch die zentrale Frage bleibt: Können LLMs mit speziell entwickelten Methoden mithalten?
Um das herauszufinden, haben wir verschiedene Experimente durchgeführt, in denen wir LLMs in realen Anwendungsszenarien getestet haben. Im ersten Experiment ging es um die Erkennung von Defekten auf Leiterplatten (PCBs) – eine Herausforderung aufgrund der Komplexität des Datensatzes. Im zweiten Experiment untersuchten wir industrielle Inspektionen, bei denen die Bedingungen oft unvorhersehbar sind und Defekte stark variieren. Diese Fallstudien zeigen, wo LLMs überzeugen, wo sie an ihre Grenzen stoßen und was das für Unternehmen bedeutet, die KI-gestützte Qualitätskontrolle in Betracht ziehen.
Fallstudie 1: Defekterkennung auf Leiterplatten (PCBs)
In unserem ersten Experiment lag der Fokus auf der Erkennung von Defekten in Leiterplatten mithilfe des VISA-Datensatzes (PCB4) aus AWS Open Data. Dieser Datensatz bringt erhebliche Herausforderungen mit sich, darunter eine begrenzte Anzahl von Defektbildern, ein Ungleichgewicht der Klassen und die Komplexität der Mehrklassenklassifikation. Einige Defektklassen sind gut vertreten, während andere kaum vorhanden sind, was es für jedes Modell schwierig macht, generalisierbare Vorhersagen zu treffen.
Zur Evaluierung der Leistung von GPT-4o wurden dem Modell Bilder zusammen mit einer Beschreibung möglicher Defektarten präsentiert. Anschließend wurde das Modell gebeten, die Defekte zu klassifizieren oder zu bestätigen, dass die Platine fehlerfrei ist.

Experimentelle Ergebnisse
Wir testeten 40 Bilder unter zwei Bedingungen. Im ersten Szenario wurden nur defekte Bilder verwendet. Das Modell erreichte einen F1-Score von 0,37, wobei einige Defekte gut erkannt, andere jedoch überhaupt nicht identifiziert wurden. Der F1-Score misst die Qualität eines Modells im Umgang mit ungleich verteilten Klassen. Ein Wert näher an 1 zeigt eine bessere Leistung an.
Im zweiten Szenario wurden sowohl defekte als auch fehlerfreie Bilder einbezogen, wodurch sich der F1-Score auf 0,59 verbesserte, vor allem, weil fehlerfreie Bilder korrekt klassifiziert wurden.
Um die Genauigkeit zu erhöhen, wurde One-Shot Learning eingeführt. Dabei erhielt das Modell ein Referenzbild mit möglichen Defekten, bevor es getestet wurde. Dies führte zu einer signifikanten Leistungssteigerung mit F1-Scores von 0,51 bzw. 0,68 in den jeweiligen Szenarien. Dennoch blieben die Ergebnisse hinter denen traditioneller Anomalieerkennungsverfahren zurück, die in früheren Studien einen vergleichbaren AU PRC-Score von 0,98 erzielten1.
Von Leiterplatten zur industriellen Inspektion
Während die Defekterkennung bei PCBs wertvolle Einblicke in die Leistungsfähigkeit von LLMs lieferte, fanden diese Tests unter relativ strukturierten Bedingungen statt. In realen industriellen Inspektionen sind die Bedingungen oft weit unvorhersehbarer: Beleuchtung, Objektorientierungen und visuelle Komplexität variieren erheblich und erschweren die Fehlererkennung. Daher wurde eine zweite Fallstudie mit Inspektionsbildern und -videos aus einem Kundendatensatz durchgeführt.
Fallstudie 2: Defekterkennung in der industriellen Inspektion
Dieses Experiment umfasste die Erkennung von Defekten in industriellen Inspektionsbildern und -videos. Im Gegensatz zur PCB-Inspektion, die oft in kontrollierten Umgebungen stattfindet, sind industrielle Inspektionen weitaus unvorhersehbarer. Der Datensatz brachte zusätzliche Herausforderungen mit sich: ähnlich aussehende Defektarten, eine mehrschichtige Struktur und eine unvollständige Beschriftung. Zudem variierten Beleuchtung, Objektorientierung und Bildauflösung stark.
Experimentelle Ergebnisse
Wir haben zwei verschiedene Modelle getestet, die derzeit die Spitzenplätze auf der Chatbot Arena Leaderboard für visuelle Aufgaben belegen: ChatGPT-4o und Gemini-2.0-pro-exp-02-05. Dabei haben wir zwei unterschiedliche Ansätze verfolgt.
Im ersten Szenario mussten die Modelle sowohl den wahrscheinlichsten als auch den zweitwahrscheinlichsten Defekt identifizieren. Diese Methode führte zu verbesserten Metriken, erreichte jedoch noch nicht die Genauigkeit, die für ein produktionsreifes Alarmsystem erforderlich wäre. Das sogenannte One-Shot-Learning – bei dem den Modellen vor dem Test Beispiele für Defekte gezeigt wurden – führte zu einer weiteren Verbesserung der Vorhersagen. Allerdings reichte diese nicht aus, um eine manuelle Überprüfung durch menschliche Operatoren überflüssig zu machen.
Der zweite Ansatz vereinfachte die Klassifikation zu einer binären Entscheidung: „Defekt“ vs. „kein Defekt“. Dadurch stieg die Genauigkeit von 0,61 im ersten Test auf 0,73 für ChatGPT-4o und von 0,63 auf 0,66 für Gemini-2.0-pro-exp-02-05. Trotz dieser Verbesserung bleiben die Ergebnisse für den realen industriellen Einsatz unzureichend, da dort eine nahezu fehlerfreie Zuverlässigkeit gefordert wird.

Schlüsselherausforderungen von LLMs in der industriellen visuellen Inspektion
Verarbeitungszeit: LLMs, die über APIs aufgerufen werden, verursachen Latenzen, da jedes Bild einzeln verarbeitet wird. Die Bearbeitungszeit liegt zwischen 1 und 10 Sekunden pro Bild, was Echtzeit-Qualitätskontrolle erschwert.
Hardware und Skalierbarkeit: Lokale Modelle wie Qwen oder Molmo könnten Cloud-APIs ersetzen, erfordern jedoch erhebliche Hardwareinvestitionen und eine aufwändige Skalierung.
Erfahren Sie mehr darüber, warum maßgeschneiderte LLMs eine intelligente Lösung für Unternehmen sind: Hier
Können LLMs traditionelle Qualitätskontrollsysteme ersetzen?
LLMs verbessern sich stetig, sind jedoch noch keine eigenständige Lösung für industrielle visuelle Inspektionen. Sie können bestimmte Aufgaben unterstützen, benötigen aber menschliche Aufsicht und eine zusätzliche Infrastruktur.
Für Unternehmen, die LLMs für die Qualitätskontrolle in Betracht ziehen, müssen die Vor- und Nachteile sorgfältig abgewogen werden. Während spezialisierte Machine-Learning-Modelle in kontrollierten Umgebungen weiterhin überlegen sind, können LLMs für Szenarien mit stark variierenden Bedingungen, unterschiedlicher Bildgebung und mobilen Datenerfassungsmethoden ein wertvolles ergänzendes Werkzeug sein.
Arbeiten mit theBlue.ai
Viele Unternehmen sehen das Potenzial von LLMs/LMMs für die Qualitätskontrolle, doch der reale Einsatz bringt erhebliche Herausforderungen mit sich. Während diese Modelle sich gut für Experimente eignen, bleiben ihre Ergebnisse in rigorosen Tests oft inkonsistent. In vielen Fällen bieten traditionelle Methoden höhere Genauigkeit und Zuverlässigkeit.
Unsere Aufgabe besteht darin, Unternehmen bei der Entscheidungsfindung zu unterstützen:
- Bewertung der KI-Modelle auf Praxistauglichkeit statt nur theoretischer Leistung
- Vergleich unterschiedlicher Ansätze, um die effektivste Lösung zu finden
- Beratung zur KI-Integration, um Risiken zu minimieren und Effizienz zu maximieren
- Sicherstellung von Skalierbarkeit, um KI-gestützte Inspektionen nachhaltig umzusetzen
Wenn Ihr Unternehmen KI-gestützte Qualitätskontrolle in Betracht zieht, helfen wir Ihnen, den besten Ansatz zu identifizieren – ob LLM-basiert, traditionell oder hybrid. Kontaktieren Sie uns, um Ihre Inspektionsprozesse zu optimieren und die Fehlererkennung zu verbessern.
Quellen:
1Zou, Yang, Jongheon Jeong, Latha Pemula, Dongqing Zhang, and Onkar Dabeer. “SPot-the-Difference Self-Supervised Pre-training for Anomaly Detection and Segmentation.” arXiv, 2022, https://arxiv.org/pdf/2207.14315.
Häufig gestellte Fragen (FAQs)
Können LLMs herkömmliche Methoden der visuellen Qualitätskontrolle vollständig ersetzen?
Nein, obwohl LLMs bei der Erkennung von Defekten und Anomalien unterstützen können, erreichen sie noch nicht die Zuverlässigkeit und Genauigkeit traditioneller Machine-Learning-Modelle oder regelbasierter Systeme. Dies gilt insbesondere für industrielle Anwendungen, bei denen Konsistenz entscheidend ist.
Was sind die größten Herausforderungen beim Einsatz von LLMs für die visuelle Inspektion?
Die Hauptprobleme umfassen die Verarbeitungszeit, die Abhängigkeit von cloudbasierten APIs, die Variabilität der Bildbedingungen sowie die Notwendigkeit menschlicher Validierung aufgrund inkonsistenter Ergebnisse.
Kann ein LLM-basiertes Qualitätssicherungssystem in Echtzeit arbeiten?
Derzeit gibt es Latenzprobleme aufgrund der API-Verarbeitungszeiten, die LLMs für Echtzeitanwendungen unpraktisch machen. Lokal gehostete Modelle können diese Verzögerung reduzieren, bringen jedoch Herausforderungen in Bezug auf Skalierbarkeit und Hardware-Investitionen mit sich.
Wie können Unternehmen feststellen, ob LLMs die richtige Wahl für ihre Qualitätskontrolle sind?
Der beste Ansatz ist die Durchführung strukturierter Experimente und ein Vergleich der Ergebnisse mit traditionellen Methoden. Wir unterstützen Unternehmen bei der Evaluierung verschiedener KI-Modelle und helfen bei der Auswahl der optimalen Lösung basierend auf ihren spezifischen Anforderungen.
Gibt es Fälle, in denen LLMs herkömmliche Methoden zur Defekterkennung übertreffen?
LLMs können in der explorativen Analyse, in Umgebungen mit stark variablen Bedingungen oder bei begrenzten gelabelten Daten von Vorteil sein. In gut strukturierten industriellen Prozessen bieten traditionelle Modelle jedoch weiterhin eine höhere Genauigkeit und Zuverlässigkeit.
Wie kann unser Unternehmen mit KI-gestützter visueller Qualitätskontrolle starten?
Wir bieten Beratungs- und Testdienstleistungen an, um die Machbarkeit einer KI-basierten Qualitätsinspektion für Ihre spezifische Anwendung zu bewerten. Kontaktieren Sie uns, um zu besprechen, wie wir eine maßgeschneiderte Lösung für Ihre Anforderungen entwickeln können.