Layer Processing Unit: Neue Architektur für Edge-AI-Anwendungen

„Revolutionärer Ansatz“ für KI-Berechnungen Layer Processing Unit: Neue Architektur für Edge-AI-Anwendungen

30.06.2021 Michael Eckstein

Anbieter zum Thema

Heitec AG

ISH Ingenieursozietät GmbH

syslogic-logotype-alt-navy-mint (Syslogic.ai)

Syslogic GmbH

Die Layer Processing Unit (LPU) des österreichischen Vision-Spezialisten Eyyes soll in der Lage sein, alle Knoten eines Layers in einem Neuronalen Netz in einem Taktzyklus zu berechnen – und so die Performance von GPU- und TPU-basierten Systemen deutlich zu übertreffen.

Intelligent-Vision-Board RTI 3.0: In einem Zynq-4-MPSoC-FPGA von Xilinx lassen sich bis zu vier LPUs unterbringen – das reicht für 18 TOPS bei 400 MHz Systemtakt.(Bild: Eyyes) — Intelligent-Vision-Board RTI 3.0: In einem Zynq-4-MPSoC-FPGA von Xilinx lassen sich bis zu vier LPUs unterbringen – das reicht für 18 TOPS bei 400 MHz Systemtakt.
(Bild: Eyyes)

Der Entwurf von Processing-Systemen für Edge-AI-Anwendungen muss Widersprüchliches vereinen: Einerseits sollen die Baugruppen viel Verarbeitungsleistung bereitstellen, um auch komplexe Aufgaben in einer sehr kurzen, am besten genau vorhersagbaren Zeitspanne lösen zu können. Im Verkehr zum Beispiel zählt jede Millisekunde beim Erkennen und Entschärfen brenzliger Situationen.

Andererseits sollen die Rechensysteme möglichst kompakt und äußert energieeffizient sein, damit man sie auch ohne aufwändige Entwärmungslösungen in kleine Gehäuse integrieren kann, ohne thermische Probleme zu riskieren. Darüber hinaus gilt es, das Energiebudget beispielsweise in Elektroautos so wenig wie möglich zu belasten.

Bildergalerie

Minimalist: Das Optimieren des Neuronalen Netzes für den Einsatz auf der LPU erfolgt in mehreren Schritten.(Bild: Eyyes)

Auf dem RTI-3.0-SOM ist eine schnelle LPDDR4-Schnittstelle zum Anbinden von externem Speicher integriert.(Bild: Eyyes)

Leistungsschau: Bei vergleichbarer Silizium-Technologie und ähnlichen Taktraten (7 nm, 1,6 GHz) ist die LPU laut Hersteller deutlich schneller als GPU und TPU.(Bild: Eyyes)

Neue Architektur jenseits von GPU und TPU

Das Lösen dieser auf den ersten Blick diametral entgegengesetzten Anforderungen erfordern nach Ansicht von Johannes Traxler das Überdenken bestehender Architekturen für die Verarbeitung Neuronaler Netze (NN). Laut Traxler, Gründer und Geschäftsführer des österreichischen Vision-Spezialisten Eyyes (früher: AVI Systems), sind bisherige Ansätze wie der Einsatz von Graphic Processing Units (GPU) oder auch Tensor Processing Units (TPU) nur bedingt für intelligente Edge-Anwendungen geeignet.

Im Kern gehe es bei intelligenten Vision-Systemen um das Zusammenspiel von fünf Schritten:

Erfassen: Mit hochauflösenden Sensoren jedes Detail aufnehmen.

Analysieren: Objekte mithilfe tiefer Neuronaler Netze erkennen und identifizieren.

Verstehen: Komplexe Situationen verstehen, Bewegungsvorhersagen generieren, Kollisionsgefahren erkennen.

Präsentieren: Relevante Informationen genau zur richtigen Zeit bereitstellen

Entscheiden: Auf Basis der relevanten Informationen Entscheidungen treffen.

Nachteile von GPU und TPU überwinden

Traxler beschreibt die Unzulänglichkeiten bisheriger Prozessorarchitekturen so: Eine GPU könne pro Rechentakt immer nur eine Vektoroperation abarbeiten, dies aber sehr schnell. Um alle Layer eines NN abzuarbeiten, benötige sie daher viele Taktzyklen sowohl zum Berechnen als auch zum Zwischenspeichern der jeweiligen Ergebnisse.

Eine TPU würde bereits effizienter arbeiten: „Sie berechnet einen Tensor mit mehreren Vektoren auf einmal.“ Aber auch hier seien noch viele Takte zum Zwischenspeichern und der endgültigen Abarbeitung der Berechnungen aller Neuronen in einem Layer erforderlich.

Neue LPU-Architektur verarbeitet alle Neuronen eines Layer gleichzeitig

„Daher haben wir eine völlig neue Architektur für unseren KI-Chip entwickelt: die Layer Processing Unit oder kurz LPU“, erläutert Traxler. Die LPU ist eine Evolutionsstufe des Generic Neuro Chips und laut Eyyes so konzipiert, dass sie in einem Takt die Tensoren aller Neuronen in einem Layer eines NN gleichzeitig berechnen kann – inklusive Addition der Ergebnisse und unter Berücksichtigung der Aktivierungsfunktion der Neuronen.

Die LPU verarbeitet die eingehenden Daten demnach parallel und führt Aktivierung und Pooling in einem Operationsschritt aus. „Dadurch kann die LPU auch bei geringen Taktfrequenzen Milliarden von Rechenoperationen hocheffizient abarbeiten“, sagt Traxler. Zudem garantiere dies eine sehr kurze, vorhersagbare Latenz – was eine wichtige Voraussetzung für die deterministische Datenverarbeitung in sicherheitsrelevanten Systemen ist.

LPU ist eine Intelligent-Vision-Gesamtlösung

Beim LPU-Konzept spielen Hardware und Software Hand in Hand. In der Toolchain wird das NN zunächst verkleinert und so optimiert, dass es ohne merkliche Verluste wesentlich schneller abgearbeitet werden kann. „Per Simulation stellen wir sicher, dass der optimierte Algorithmus korrekt funktioniert“, sagt Traxler. Erst danach exportiert die Toolchain eine Binärdatei, die der Rechenkern der LPU verarbeiten kann. Hier erfolgt automatisch eine weitere Optimierung der parallelen Rechenoperationen. Im Gegensatz zu einigen anderen KI-Prozessoren sind Entwickler bei der Lösung von Eyyes nicht auf ein bestimmtes NN festgelegt, betont Dr. Wolfgang Domann, Managing Director und CCO von Eyyes: „Unserer LPU ist offen für alle Neuronalen-Netzwerk-Modelle.“

Konkret hat Eyyes seine LPU auf einem programmierbaren Zynq-UltraScale-MPSoC-FPGA-Baustein von Xilinx realisiert. Jede LPU hat 16 Rechenkerne und kann pro Taktzyklus simultan acht Sublayer eines NN verarbeiten. „Eine LPU schafft 2800 Rechenoperationen pro Takt. Bei einer Prozessortaktung mit 400 MHz sind damit rund 4,5 TOPS Rechenleistung möglich“, erklärt Domann. Auf einem Zynq-ZU4-MPSoC würden sich bis zu vier LPUs mit je 16 Kernen unterbringen lassen. „Insgesamt lassen sich so auf einem Baustein insgesamt 18 TOPS nutzen.“

Grundsätzlich ließe sich die Rechenleistung der Lösung noch erhöhen: „Die Taktfrequenz lässt sich theoretisch auf 1,6 GHz steigern. Eine LPU mit 16 Kernen würde dann 18 TOPS leisten, bei vier LPUs wären also 72 TOPS pro ZU4-Baustein erreichbar“, erklärt Traxler. Allerdings müssten dafür zwei DDR4-RAM-Bausteine integriert werden, da sonst die Speicherbandbreite den Durchsatz limitieren würde. Dies sei für bisherige Use-Cases aber nicht nötig. Domann ergänzt: "Eine noch bessere Performance und Energieeffizienz ließe sich mit einer ASIC-Implementierung erzielen."

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

„Deutlich schneller als GPU und TPU“

Die Parallelisierung der Verarbeitungsprozesse seien der wesentliche Unterschied zur Arbeitsweise von Grafikprozessoren – zumal dadurch viel weniger Zugriffe auf externen Speicher nötig seien. „Die LPU ist ein revolutionäres Konzept, weil wir pro Takt deutlich mehr Rechenoperationen gleichzeitig durchführen, als dies mit GPU und TPU möglich ist“, sagt Domann.

Unter dem Strich sei die Perfomance einer LPU sowohl einer GPU als auch einer TPU deutlich überlegen. „Bei vergleichbarer Implementierung in Bezug auf Taktfrequenz und Chiptechnologie arbeitet unsere LPU mindestens dreimal so schnell wie eine GPU und doppelt so schnell wie eine TPU“, freut sich Traxler. Das Verfahren hat sich Eyyes inzwischen patentieren lassen. Mit einer ASIC-Implementierung ließe sich die Performance und Energieeffizienz noch einmal steigern.

RTI 3.0: Komplettlösung auf Basis der „Layer Processing Unit“

Aufbauend auf seiner LPU-Architektur hat Eyyes das Real Time Interface 3.0 (RTI 3.0) entwickelt: Ein System-on-Module (SOM) auf Basis eines Zynq-UltraScale-MPSoC-Bausteins von Xilinx zur visuell basierten Objekterkennung, das für unterschiedlichste Anwendungsbereiche eingesetzt werden kann. Laut Domann sind bei dem SOM standardmäßig zwei FPD-LINK-III-Anschlüsse, Ethernet und einen Gigabit-Tranceiver an Bord: „Damit lässt sich das SOM direkt in bestehende Systeme einbinden.“

Bei voller Ausnutzung des programmierbaren Logikzellen-Bereichs des modernen Xilinx-MPSoC-FPGAs erreicht Eyyes nach eigenen Angaben die enorm hohe Rechenleistung von 18 TOPS auf einem lediglich 67 mm x 58 mm messenden Board. „Im Vergleich zu SOMs mit konventionellen TPU-Verarbeitungsprozessen zeichnet sich das RTI 3 durch geringe Hardwarekosten und um rund 25 Prozent geringere Energieaufnahme aus“, sagt Domann.

Ein Board verarbeitet zwei Full-HD-Streams

Das Modul sei in der Lage, zwei unabhängige Full-HD-Videostreams zu verarbeiten und die Ergebnisse an unterschiedlichen Interfaces auszugeben. Eyyes führt derzeit Versuche mit höheren Taktraten von bis zu 800 MHz durch, um die Rechenleistung zu steigern und die physikalischen Performancegrenzen des Boards bezüglich der Bandbreite und dem Speicherzugriff auszuloten.

„Die Flexibilität des SOM ermöglicht maßgeschneiderte Entwicklungen und die Integration über Linux-Treiber zum Beispiel in autonome Fahrassistenten“, sagt der Marketing-Chef. Man habe Custom-of-the-Shelf-(COTS-)Funktionen entwickelt, so dass bereits bei der Auslieferung ab Herbst diesen Jahres „alle Basisapplikationen zur Objektdetektion für Personen und Fahrzeugerkennung implementiert sind“, versichert Domann.

Schnelle Reaktion: Objekterkennungssysteme müssen Millionen von Daten im Bruchteil einer Sekunde erfassen und auswerten. Darauf ist der Generic Neuro Chip (GNC) spezialisiert. (Bild: Eyyes GmbH)

(ID:47486818)