Das Zeitalter der Inferenz Künftige ganzheitliche KI-Architekturen für Edge und Cloud

Von Ivo Bolsens*

Anbieter zum Thema

Eine skalierbare, einheitliche Architektur ermöglicht kontinuierliches Lernen während der gesamten Lebensdauer einer KI/ML-Anwendung. Ein veritabler Ansatz, wenn die Branche mit der zunehmenden Verbreitung von KI/ML große Fortschritte bei Leistung, Genauigkeit und Energieeffizienz erzielen will.

Heute übliche konventionelle Trainings- und Inferenzpraktiken stützen sich auf CPUs und GPUs im Rechenzentrum und spezialisierte Geräte im Edge-Bereich. Kontinuierliches Lernen während der gesamten Lebensdauer einer bereitgestellten Anwendung ist damit nicht ohne Weiteres realisierbar.(Bild:  AMD)
Heute übliche konventionelle Trainings- und Inferenzpraktiken stützen sich auf CPUs und GPUs im Rechenzentrum und spezialisierte Geräte im Edge-Bereich. Kontinuierliches Lernen während der gesamten Lebensdauer einer bereitgestellten Anwendung ist damit nicht ohne Weiteres realisierbar.
(Bild: AMD)

Die Welt der künstlichen Intelligenz und des maschinellen Lernens (AI/ML) ist in verschiedene Bereiche unterteilt. Zwei dieser Bereiche sind die Unterteilungen in Training und Inferenz einerseits und Cloud versus Edge andererseits. Es gibt unzählige weitere Differenzierungen von KI/ML-Aufgaben, aber diese beiden Unterteilungen sind die Kernthemen dieses Artikels. Beim KI/ML-Training werden Modelle entwickelt, die bei der Inferenz verwendet werden, um alles zu identifizieren, was zu identifizieren ist, sei es leichter oder starker Verkehr auf den Straßen einer intelligenten Stadt, die Berechtigungsstufe eines Ausweises und das dazugehörige Gesicht, das für eine sichere Zugangskontrolle verwendet wird, die Wörter, die ein Anrufer in einem Kundenservice-Callcenter nennt, oder eine von Hand geschriebene Adresse auf einem Briefumschlag in einem Postverteilzentrum.

Das Training erfolgt üblicherweise in Rechenzentren von Unternehmen oder in der Cloud, wo viele leistungsstarke Server, viel Speicher, Hardware-Beschleuniger und Hochgeschwindigkeitsnetzwerke auf die Arbeitslast angesetzt werden können. In dieser Umgebung werden enorme Mengen Strom für Datenverarbeitung, Vernetzung und Kühlung für das Training verwendet, um schnell Ergebnisse zu erzielen. Inferenz-Workloads können auch in einem Rechenzentrum oder in der Cloud ausgeführt werden, aber aus mehreren Gründen werden Inferenzaufgaben zunehmend in die Edge verlagert.

Latenzen sind für Edge-KI-Anwendungen ein Problem

Zunächst einmal ist da das Problem der Latenzen. Die Übermittlung von Rohdaten in die Cloud oder das Rechenzentrum erfordert Zeit. Es braucht weitere Zeit, um die Auswertung vorzunehmen, und es benötigt noch mehr Zeit, bis die gewünschte Antwort bzw. Entscheidung an die Edge-Station zurückgesandt wird. Bei einigen Echtzeitaufgaben – wie Fabrikautomatisierung, Radar und elektronische Kriegsführung – können Entscheidungen, die zu lange dauern, schwerwiegend sein.

Zwei weitere Gründe für die Verlagerung von Inferenz-Workloads in den Edge-Bereich sind der Leistungsbedarf: Rechenleistung und Stromverbrauch. Da KI/ML-Inferenz-Workloads auf eine Vielzahl an Edge-Geräten übertragen werden, übersteigt die aggregierte Rechenleistung von Millionen Inferenz-Engines in diesen Edge-Geräten die Rechenleistung der Server in einem Rechenzentrum. Darüber hinaus verbrauchen Edge-Inferenz-Engines keine großen Mengen an Strom.

Auf Inferenz optimierte Edge-Chips mit neuartigen Rechenarchitekturen – eine Einbahnstraße?

In jüngster Zeit wurden viele interessante Chips mit neuen Rechenarchitekturen angekündigt, die den besonderen Anforderungen der Edge-Inferenz gerecht werden. Die Hersteller betonen die enormen TeraFLOPS- und TeraOPS-Rechenleistungen (TFLOPS und TOPs), die ihre Geräte bei geringerem Stromverbrauch erreichen können.

Es stimmt zwar, dass Inferenz-Workloads viele TFLOPS und TOPS erfordern, aber diese spezialisierten Edge-Inferenz-Chips stellen eine architektonische Einbahnstraße dar, die sich als nachteilig erweisen kann, wenn es um kombinierte Trainings- und Inferenz-Workloads geht.

Heutzutage werden KI-/ML-Modell-Trainingsworkloads weitgehend auf Hochleistungs-CPUs und -GPUs in Rechenzentren ausgeführt, wo sie viel Strom verbrauchen und eine hochentwickelte Kühlung nutzen, um die vielen Billionen Berechnungen durchzuführen, die zum Trainieren von KI-/ML-Modellen erforderlich sind.

Bei diesem Training werden fast durchgängig Fließkomma-Datenformate mit hohem Dynamikumfang verwendet, um die Modellgenauigkeit zu maximieren, indem winzige inkrementelle Anpassungen der Modellgewichtungen möglich sind. Fließkommaberechnungen verbrauchen mehr Strom und erfordern daher eine zusätzliche Kühlung. Darüber hinaus verbrauchen CPUs und GPUs beträchtliche Mengen an Energie, um große Trainingsdatensätze zwischen Speichern und ihren internen Recheneinheiten zu verschieben.

Viele Edge-Interferenz-Chips sind kompromissbehaftet

Edge-Inferenz-Chips verfügen nicht über die nötigen IP-Blöcke und das nötige Energiebudget, um alle Berechnungen mit vollpräzisen Fließkomma-Datenformaten durchzuführen. Viele gehen Kompromisse ein, um hohe TFLOPS- und TOPS-Spitzenwerte zu erreichen, indem sie häufig Datentypen mit geringerer Genauigkeit zur Darstellung von KI/ML-Gewichtungen, Aktivierungen und Daten verwenden.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Anbieter von Edge-AI/ML-Chips bieten Softwaretools an, um die Genauigkeit der trainierten Modellgewichte zu verringern und Modelle in kleinere Zahlenformate wie FP8, skalierte Ganzzahlen oder sogar binäre Datenformate zu konvertieren. Jedes dieser kleineren Datenformate bietet Vorteile für Edge Inference Workloads, aber alle diese Formate beeinträchtigen in gewissem Umfang die Prognosegenauigkeit der Modelle. Durch das erneute Trainieren von KI/ML-Modellen mit reduzierter Genauigkeit kann oft ein Teil dieser Modellgenauigkeit zurückgewonnen werden.

Stellen Sie sich nun eine skalierbare Architektur vor, die sowohl in kleinen, Embedded-Edge-Geräten wie auch in größeren Systemen eingesetzt werden kann, die in der Lage sind, Arbeitslasten im Rechenzentrum zu aggregieren. Dieselben Optimierungen, die den Stromverbrauch und die Wirtschaftlichkeit im Edge-Bereich verbessern, machen auch die Rechenleistung im Rechenzentrum dichter und wirtschaftlicher, was die Investitions- und Betriebskosten der Einrichtung sowohl für Inferenzen als auch für das Training senkt.

Skalierbare Prozessorarchitektur mit voller und reduzierter Genauigkeit

Skalierbare Architekturen für KI/ML-Beschleuniger, die sowohl Fließkommaformate mit voller als auch mit reduzierter Genauigkeit unterstützen, überwinden die künstliche Grenze zwischen Training und Inferenz und ermöglichen den Einsatz standardisierter und vertrauter Softwaretools für eine einheitliche Architektur. Diese effizienten KI-Beschleuniger nutzen architektonische Innovationen wie Datenfluss- und On-Chip-Broadcast-Netzwerke, die es ermöglichen, Daten, die aus dem externen Speicher geholt wurden, immer wieder zu verwenden, sobald sie auf dem Chip sind.

Es gibt reale Anwendungsbeispiele, bei denen das Vorhandensein einer einheitlichen, skalierbaren Datenflussarchitektur für maschinelles Lernen die Mauer zwischen den unterschiedlichen Phasen des Trainings und der Inferenz durchbricht. Ein solches Beispiel ist das föderierte Lernen, das neue Möglichkeiten für KI/ML-Workloads eröffnet. Für viele vernetzte Anwendungen kann föderiertes Lernen den Einbahnstraßenansatz von KI/ML-Inferenzmodellen mit reduzierter Genauigkeit, die durch einmaliges Offline-Training gewonnen werden, ersetzen und eine Performance ermöglichen, die sonst nur schwer zu erreichen wäre, weil die repräsentativen zentralen Offline-Trainingsmengen nicht zugänglich sind.

Föderiertes Lernen eröffnet neue Möglichkeiten für KI und ML

Föderiertes Lernen macht sich eine wichtige Eigenschaft der Inferenz im Edge-Bereich zunutze, wo die Einheiten vielen verschiedenen Eingaben begegnen, die weit über die ursprünglichen Modell-Trainingssätze hinausgehen. Wenn sie richtig konzipiert sind, können diese Edge-Geräte aus diesen zusätzlichen Eingaben lernen und ihre Modellgenauigkeit während des Geräteeinsatzes weiter verbessern. Es kann Hunderte, Tausende oder Millionen von Edge Devices geben, die alle die gleichen AI/ML-Modelle verbessern, um bessere lokale Antworten bzw. Entscheidungen zu liefern.

Nehmen wir zum Beispiel CT- oder MRT-Scanner eines Herstellers, die in Krankenhäusern in aller Welt eingesetzt werden. Diese Bildgebungsgeräte haben oft die Aufgabe, Krebstumore und andere Krankheiten zu erkennen, und können zunehmend KI/ML-Modelle verwenden, um Radiologen bei der Identifizierung verdächtiger Gewebe zu helfen. Da jedes Gerät in diesem Bereich sein Modell verbessert, kann das ursprünglich trainierte Modell, das zur Initialisierung neuer Bildgebungsgeräte verwendet wird, von denselben Verbesserungen profitieren, wenn föderiertes Lernen zur Aktualisierung und Verbesserung des ursprünglichen Modells eingesetzt wird.

Nur durch Training am Edge gewonnen Erkenntnisse werden weitergereicht

Solche Aktualisierungen können auf eine Weise durchgeführt werden, die sicherstellt, dass nur die durch das zusätzliche Edge-basierte Training gewonnenen Erkenntnisse weitergegeben werden und nicht die vertraulichen Daten eines Menschen. Alle im Einsatz befindlichen Maschinen können von diesem zusätzlichen Training profitieren, ohne die Privatsphäre zu gefährden.

Föderiertes Lernen findet breite Anwendung bei der Personalisierung von Geräten unter Wahrung der Privatsphäre, wo die Leistung von Bildverarbeitungs- und Sprachalgorithmen auf bestimmte Benutzer zugeschnitten werden kann. Auch im Bereich der Netzwerksicherheit kann das kollektive Lernen von Knoten am Netzwerkzugang genutzt werden, um proaktive Sicherheitsregeln zu ermitteln, ohne dass sensibler privater Netzwerkverkehr weitergegeben wird.

Einheitliche Cloud-Edge-Computer-Architektur ermöglicht logische Aufteilung von Modellen

Der Vorteil einer einheitlichen Cloud- und Edge-Compute-Architektur besteht darin, dass das Modell logisch aufgeteilt werden kann, um in der Cloud und an der Edge mit identischen Softwarepaketen zu laufen. Die einheitliche Architektur stellt sicher, dass kompatible Datenformate verwendet werden und Optimierungen für Datenformate, wie z. B. Sparsity-Darstellungen, nicht zwischen Cloud und Edge unterbrochen werden.

Eine skalierbare, einheitliche Architektur und kontinuierliches Lernen während der gesamten Lebensdauer einer bereitgestellten Anwendung weicht von der heutigen konventionellen Trainings- und Inferenzpraxis ab, die sich auf CPUs und GPUs im Rechenzentrum und spezialisierte Geräte im Edge-Bereich stützt. Dabei scheint dieser einheitliche Ansatz der nächstliegende Weg zu sein, wenn die Branche mit der zunehmenden Verbreitung von KI/ML große Fortschritte bei Leistung, Genauigkeit und Energieeffizienz erzielen will. (me)

* Ivo Bolsens ist Senior Vice President bei AMD

(ID:48675819)