Von den ersten wackeligen Laborversuchen mit klobigen Röhrenkameras bis hin zu KI-gestützten Smart-Kameras in der vollvernetzten Fabrik: Die industrielle Bildverarbeitung (Machine Vision) hat eine rasante Evolution hinter sich. Ein historischer Rückblick auf die Technologien des digitalen Sehens.
Frühe Inspektionssysteme: In den 1980er und frühen 1990er Jahren waren Anlagen zur optischen Inspektion noch extrem massiv. Kamerasysteme, präzise Positioniertische (hier von Anorad) und schrankgroße Steuerungsrechner mit Röhrenmonitoren prägten das Bild, lange bevor Smart Cameras diese Technik miniaturisierten.
Die industrielle Bildverarbeitung ist heute das unverzichtbare Auge der Industrie. In der modernen Produktion kommt kaum eine KI-Anwendung ohne sie aus. Industriekameras inspizieren Platinen, steuern Roboterarme, sortieren Lebensmittel und lesen Barcodes im Millisekundentakt. Doch der Weg von der reinen Forschung zur robusten industriellen Schlüsseltechnologie und zum heutigen Milliardenmarkt war lang, steinig und von technologischen Paradigmenwechseln geprägt.
60er und 70er: Die akademischen Wurzeln und der Sensordurchbruch
Zwar markierte die Dartmouth-Konferenz bereits im Jahr 1956 die Geburtsstunde der Künstlichen Intelligenz, doch die konkrete Geschichte der sehenden Maschinen begann erst einige Jahre später in der universitären Grundlagenforschung. Am MIT Artificial Intelligence Lab entstanden ab den 1960er Jahren die ersten ambitionierten Experimente. Der KI-Pionier Marvin Minsky verband 1966 eine Kamera mit einem Computer – mit dem schlichten Ziel, den Rechner Objekte erkennen zu lassen. Larry Roberts entwickelte in seiner Dissertation am MIT Methoden, um aus zweidimensionalen Bildern dreidimensionale Informationen zu extrahieren. Ein Meilenstein dieser Ära war das berühmte „Blocks World"-Projekt (1963–1980), bei dem Kameras genutzt wurden, um Roboterarme bei der Handhabung einfacher geometrischer Objekte zu führen.
Akademische Wurzeln: Der „MIT Arm“ (ca. 1972) von Victor Scheinman war einer der ersten elektrisch angetriebenen, computergesteuerten Roboterarme und bildete die mechanische Basis für frühe Experimente mit sehenden Maschinen.
Ein entscheidender theoretischer Durchbruch folgte 1978 durch David Marr, ebenfalls am MIT. Er beschrieb einen Bottom-up-Ansatz der visuellen Wahrnehmung, bei dem aus zweidimensionalen Skizzen schrittweise dreidimensionale Bilder konstruiert werden konnten – ein Konzept, das die Algorithmenentwicklung nachhaltig prägte.
Doch alle Theorie wäre ohne die passende Sensorik nutzlos geblieben. Der eigentliche Urknall der digitalen Bildverarbeitung ereignete sich am 17. Oktober 1969. In einer einstündigen Diskussion entwickelten Willard Boyle und George E. Smith bei AT&T Bell Labs das Grundkonzept des Charge-Coupled Device (CCD). In einem Laborbuch vom 19. Oktober 1969 ist die Erfindung dokumentiert. Bereits Ende desselben Jahres gelang die erste Bildaufnahme mit einem einfachen linearen CCD. Die Entwicklung schritt rasant voran: Bis Mitte der 1970er Jahre erreichten CCD-Arrays Auflösungen von 512×512 Pixeln und lieferten damit fernsehähnliche Bildqualität. Für diese bahnbrechende Erfindung erhielten Boyle und Smith 2009 den Nobelpreis für Physik.
Die wilden 1980er: Pioniere im Fabrikalltag
Der Hardware-Durchbruch: CCD-Sensoren (hier ein frühes Modell von Sony) wandelten Licht in digitale Signale um und lieferten ab den 1970er Jahren die nötige Bildqualität für die industrielle Inspektion.
Anfang der 1980er Jahre wagte die Technologie den Sprung aus dem Labor in die unwirtliche Umgebung der Industrie. Die frühen Bildverarbeitungssysteme waren technisch noch rudimentär. Anfangs kamen oft noch Vakuumröhrenkameras zum Einsatz. Diese waren jedoch anfällig für Temperaturdrift und empfindlich gegenüber externen Magnetfeldern, was sie für Präzisionsmessungen fast unbrauchbar machte. Erst die zunehmende Verfügbarkeit von CCD-Kameras löste dieses Problem.
Ein Nadelöhr war die Digitalisierung der Signale: Frame Grabber wandelten analoge Videosignale in digitale Daten um. Frühe Modelle, etwa von Matrox, boten 256×256 Pixel Auflösung bei 4-Bit Farbtiefe – damals ein echter Durchbruch. Die Software lief zunächst auf LISP-Basis, wechselte dann aber rasch auf C-basierte Architekturen auf Mikrocomputern.
Die ersten Applikationen: Consight, Automatix und Cognex
Als das erste Bildverarbeitungssystem im produktiven Industrieeinsatz gilt das „Consight“-System von General Motors (1981). In einer kanadischen Gießerei sortierten drei Industrieroboter mithilfe von Consight bis zu 1.400 Gussteile pro Stunde von einem Förderband. Das System erstellte eine 2D-Projektion der Teile und funktionierte ganz ohne mechanische Vorrichtungen – ein Quantensprung in der Automatisierung.
Aus dem Labor in die Fabrik: Ein früher Industrieroboter von Automatix aus den 1980er Jahren nutzt ein integriertes Kamerasystem zur automatisierten optischen Schweißnahtführung (Seamtracking).
Parallel entstanden die ersten kommerziellen Anbieter. Automatix, 1980 unter anderem vom Roboter-Pionier Victor Scheinman gegründet, vermarktete als erstes Unternehmen Industrieroboter mit integrierter Bildverarbeitung. Da es kaum fertige Software gab, entwickelte Automatix kurzerhand ein eigenes Betriebssystem und die Skriptsprache „RAIL“.
1981 gründete Dr. Robert J. Shillman am MIT die Firma Cognex. 1982 stellte das Unternehmen mit „DataMan“ das erste industrielle System zur optischen Zeichenerkennung (OCR) vor. Es konnte geprägte Buchstaben auf Autoreifen oder Wafern lesen, brauchte für ein einzelnes Zeichen anfangs allerdings noch zähe 90 Sekunden.
Der deutsche Beitrag: Die Telezentrie
Ein entscheidender hardwareseitiger Durchbruch für die industrielle Messtechnik gelang in Deutschland. Die Firma SILL OPTICS aus Wendelstein entwickelte 1978 das erste telezentrische Objektiv. Diese spezielle Optik löste das physikalische Problem der perspektivischen Verzerrung. Erst dadurch wurden hochpräzise optische Vermessungen von Bauteilen möglich, unabhängig von leichten Variationen im Arbeitsabstand. Telezentrische Objektive sind bis heute ein absoluter Standard in der Prüftechnik.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
1990er: Mit PCs, Smart Cameras und dem richtigen Licht in die Breite
In den 1990er Jahren wandelte sich die Bildverarbeitung von der teuren Nischenlösung zur Massentechnologie. Treiber war zum einen die PC-Revolution: Der Siegeszug von Windows 95 und 32-Bit-Systemen ließ die Preise für Rechenleistung kollabieren. Steckbare Bildverarbeitungskarten für Standard-PCs ersetzten proprietäre Hardware.
Zum anderen entstand eine revolutionäre Geräteklasse: die Smart Camera. 1995 präsentierte Michael Engel die VC11 – die weltweit erste industrielle Smart Camera auf Basis eines digitalen Signalprozessors (DSP). Bildaufnahme und -verarbeitung waren nun in einem winzigen Gehäuse vereint. Externe, fehleranfällige Industrie-PCs wurden für viele Aufgaben obsolet. Engel gründete daraufhin die Vision Components GmbH. Auch der US-Konkurrent Cognex sprang auf den Zug auf und definierte Anfang der 2000er mit der grafisch programmierbaren In-Sight-Serie einen neuen Industriestandard für smarte Sensorik.
Eine oft unterschätzte, aber fatale Hürde der frühen Jahre war zudem die Beleuchtung. Halogenlampen und Leuchtstoffröhren alterten schnell, flackerten und lieferten keine konstanten Kontraste. Ende der 1990er Jahre begann der Siegeszug der LED-Beleuchtung in der Industrie. LEDs machten Schluss mit wartungsintensiven Leuchtmitteln, ließen sich für Hochgeschwindigkeitsaufnahmen präzise im Mikrosekundenbereich blitzen und boten durch gezielte Wellenlängen – etwa Infrarot oder UV – völlig neue Kontrastierungsmöglichkeiten. Erst die LED machte die optische Inspektion reif für den harten 24/7-Dauerbetrieb.
2000er: Das Jahrzehnt der Demokratisierung: Standards und Open Source
Je mehr Komponenten verfügbar waren, desto drängender wurde das Problem der Inkompatibilität. In den 2000er Jahren begann die Branche, den Schnittstellen-Dschungel zu roden.
Im Jahr 2000 etablierte sich Camera Link als erster echter Standard für Hochgeschwindigkeitsverbindungen. GigE Vision folgte 2006 und nutzte die allgegenwärtige Gigabit-Ethernet-Infrastruktur, was lange Kabelstrecken ohne teure Spezialverkabelung ermöglichte. 2011 kam CoaXPress (CXP) für höchste Bandbreiten über Koaxialkabel hinzu.
Der wichtigste Integrationsschritt war jedoch der GenICam-Standard, dessen Version 1.0 im Jahr 2006 von der European Machine Vision Association (EMVA) veröffentlicht wurde. Maßgeblich vorangetrieben durch Pioniere wie Fritz Dierks von Basler, definierte GenICam eine einheitliche Programmierschnittstelle für Kameras – völlig unabhängig von der verwendeten Hardware-Verbindung.
Parallel zur Hardware-Standardisierung erlebte die Software eine stille Revolution. Im Jahr 2000 veröffentlichte Intel die erste Alpha-Version von OpenCV (Open Source Computer Vision Library). Diese Bibliothek demokratisierte die algorithmische Bildverarbeitung. Entwickler weltweit mussten Standardfunktionen wie Kantenerkennung oder Filterung nicht mehr mühsam selbst programmieren, sondern konnten auf hochoptimierte, freie Algorithmen zurückgreifen. Dies beschleunigte die Entwicklung neuer Systeme enorm und senkte die Einstiegshürde für Systemintegratoren drastisch.
2010er: Der Sensorwandel und die Eroberung der 3D-Welt
Die dritte Dimension: Moderne 3D-Scanner nutzen Verfahren wie die strukturierte Beleuchtung (Streifenprojektion), um Bauteile hochpräzise räumlich zu erfassen.
Obwohl CMOS-Sensoren (Complementary Metal-Oxide-Semiconductor) bereits in Consumer-Kameras zum Einsatz kamen, hielt die Industrie noch lange am CCD fest, da dieses lange Zeit weniger Rauschen und eine bessere Linearität bot. Doch um das Jahr 2010 erreichte CMOS schließlich die Bildqualität von CCD, gepaart mit entscheidenden Vorteilen: CMOS-Chips waren deutlich günstiger in der Herstellung, stromsparender und erlaubten wesentlich höhere Bildraten. Das Ende einer Ära besiegelte Sony schließlich endgültig: Der Marktführer kündigte 2015 das Ende seiner gesamten CCD-Produktion an.
Gleichzeitig eroberte die industrielle Bildverarbeitung die dritte Dimension. Zwei Verfahren setzten sich durch:
Strukturierte Beleuchtung (Structured Light): Das System projiziert Muster auf ein Objekt und berechnet durch die Verformung der Linien hochpräzise 3D-Modelle. Typische Zykluszeiten liegen heute bei wenigen Sekunden.
Time-of-Flight (ToF): Diese Technologie misst die Laufzeit von Lichtimpulsen und ist besonders für dynamische Szenen und Logistikanwendungen geeignet.
Zusätzlich etablierte sich die Hyperspektrale Bildgebung. Kameras erfassen hierbei für jeden Bildpunkt ein vollständiges Spektrum, wodurch sich etwa in der Lebensmittelindustrie Feuchtigkeit, Fremdkörper oder Schimmelbefall unsichtbar unter der Oberfläche erkennen lassen. In der Recyclingbranche werden damit verschiedene Kunststoffarten sortenrein getrennt.
2020er: Die smarte Gegenwart mit Deep Learning und Embedded Vision
Der tiefgreifendste technologische Einschnitt der jüngeren Geschichte ist der Einzug der Künstlichen Intelligenz, konkret des Deep Learnings. Traditionelle Bildverarbeitung arbeitet stets regelbasiert: Ein Ingenieur muss dem System mathematisch definieren, wie ein Kratzer aussieht. Bei variierenden organischen Texturen (etwa bei Holz, Textilien oder Schweißnähten) stieß dieser Ansatz an seine Grenzen.
Deep Learning dreht den Prozess um: Die Algorithmen lernen anhand von großen Bilddatensätzen selbst, was einen Defekt ausmacht. Die Genauigkeit der Fehlererkennung schoss damit massiv in die Höhe.
Damit diese rechenintensiven neuronalen Netze direkt im Feld funktionieren, hat sich Embedded Vision etabliert. Dank hybrider Architekturen, die klassische Prozessoren mit FPGAs oder leistungsstarken GPUs wie in Nvidias Jetson-Plattform kombinieren, läuft die KI direkt an der „Edge“. Kameras sind heute keine bloßen Bildlieferanten mehr. Im Kontext einer vernetzten Industrie, von Industrie 4.0 und der Smart Factory, fungieren sie als smarte Sensorknotenpunkte. Sie liefern Echtzeitdaten für Predictive Maintenance, korrigieren Prozessparameter autonom oder navigieren fahrerlose Transportsysteme (AGVs) sicher durch die Werkshalle.
Vom Laborprojekt zum globalen Milliardengeschäft
Die wirtschaftliche Entwicklung der Bildverarbeitungsbranche spiegelt ihre technologische Relevanz wider. Was in den 1980er Jahren ein riskantes Pflaster für Pioniere war, ist heute ein globaler Milliardenmarkt. Schätzungen für das Jahr 2024 taxieren den weltweiten Markt auf rund 15 bis 20 Milliarden US-Dollar. Allein die in Deutschland ansässigen Anbieter – weltweit führend in diesem Segment – erwirtschafteten laut VDMA im Jahr 2024 einen Umsatz von rund 2,8 Milliarden Euro. Die Vision von Minsky und Roberts, Maschinen das Sehen beizubringen, ist längst Realität geworden. (mc)