Embedded Computing Erste x86-Hybrid-Architektur sorgt für Quantensprung bei der Core-Anzahl

Von Jürgen Jungbauer *

Die 12. Generation der Intel Core Mobil- und Desktop-Prozessoren ist mit den High-Performance Computer-on-Module-Standards COM-HPC und COM Express im Embedded-Computing-Bereich angekommen.

Anbieter zum Thema

Wahlmöglichkeit: Für bestehende Designs bietet Congatec Module im bewährten Formfaktor COM Express Type 6 und für Neuentwicklungen brandneue Module im Formfaktor COM-HPC Client Size A oder Client Size C.
Wahlmöglichkeit: Für bestehende Designs bietet Congatec Module im bewährten Formfaktor COM Express Type 6 und für Neuentwicklungen brandneue Module im Formfaktor COM-HPC Client Size A oder Client Size C.
(Bild: Congatec)

Mit ihrer ausgeklügelten Performance-Hybrid-Architektur sind die aktuellen High-End-Embedded-Prozessoren (Codenamen Alder Lake) weitaus mehr als nur eine weitere Prozessorgeneration von Intels Core i9, i7, i5 oder i3. Wo aber liegen die Unterschiede? Und was können Entwickler von High-End Embedded- und Edge-Appliances der nächsten Generation von diesen neuen Modulen erwarten?

Es ist nicht nur der gewohnte Leistungszuwachs, der die neuen Module mit Intels Core-Prozessortechnologie der 12. Generation attraktiv macht. Besonders beeindruckend ist die Tatsache, dass Entwickler nun bis zu 14 Kerne/20 Threads bei BGA-Bestückung und 16 Kerne/24 Threads bei den Desktop-Varianten (LGA-Bestückung) nutzen können. Dies bedeutet einen echten Quantensprung in punkto Multitasking, Parallelverarbeitung, Virtualisierung und Skalierbarkeit. Frühere COM-Express-Typ-6- und COM-HPC-Client-Size-A-Module mit Intels Core- und Xeon-Prozessoren der 11. Generation boten nur bis zu acht Cores. Eine doppelt so hohe Core-Zahl bietet Entwicklern allerdings keine doppelte Performance, da bei der Hybridarchitektur die Anzahl der Hochleistungscores, den so genannten Performance Cores (P-Cores), gleich bleibt. Allerdings werden die P-Cores durch stromsparende Efficient Cores (E-Cores) ergänzt. Diese hybride Architektur bietet verschiedensten Embedded-Applikationen zahlreiche Vorteile.

Da auch diese neue Embedded Prozessorgeneration – wie üblich – von Standard-Business-IT-Prozessoren abgeleitet ist, zählen industrietaugliche Systeme mit Workstation-Performance auch zu den ersten Anwendungsbereichen, die von ihr profitieren.

Industrietaugliches Workstation-Equipment

Systeme mit Workstation-Performance werden in diversen vertikalen Märkten benötigt; von medizinischen Backend-Systemen für die Bildverarbeitung in Ultraschallgeräten bis hin zu professionellem Braodcasting- und AV-Equipment für die Video- und Tonverarbeitung. Vergleichbare Robustheits- und Leistungsanforderungen gelten auch für stationäre intelligente Videoüberwachungssysteme für die öffentliche Sicherheit in Städten, Bahnhöfen und auf Autobahnen. Auch bei Leitwartenequipment sind die Arbeitslasten meist hoch und verschiedene heterogene Tasks müssen parallel ablaufen. Einige dieser Tasks müssen auf den Performance-Cores ausgeführt werden. Für viele reichen jedoch die stromsparenden E-Cores, was die Effizienz des Gesamtsystems erhöht.

Edge-Appliances und mobile Maschinen

Neben diesen industriellen IT-ähnlichen Standard-Applikationen gibt es noch viele weitere Einsatzbereiche, die von den neuen Performance-Balancing-Optionen profitieren können, die Intels neue Hybridarchitektur mit ihrer massiven Coreanzahl bietet. Einen noch höheren Bedarf nach hybrider Rechenperformance haben beispielsweise die im Trend liegenden Edge-Computer und IoT-Gateways für autonome Logistikfahrzeuge, mobile Maschinen in der Landwirtschaft sowie für Baumaschinen und kommerzielle Fahrzeuge. Weitere wichtige Märkte sind intelligente Fabriken und die Prozessautomatisierung – einschließlich KI-basierter Qualitätskontrolle und kollaborativer Robotik mit industrieller Bildverarbeitung und Echtzeitsteuerung. Alle diese Systeme integrieren mehrere virtuelle Maschinen (VMs) für Aufgaben wie KI-basierte Bildverarbeitung, Echtzeitsteuerung und sichere Konnektivität, die alle parallel betrieben werden müssen. Nicht alle diese Aufgaben erfordern jedoch höchste Rechenleistung. Und genau deshalb ist das hardwarebasierende – und damit höchst effiziente – Performance- Balancing für eine optimale Ressourcenzuweisung eine der wichtigsten Neuerungen, die diese Computer-on-Modules der nächsten Generation bieten.

Echtzeitanwendungen mit TSN

Der Intel Thread Director sorgt dabei für ein natives, intelligentes Performance– Balancing der einzelnen Threads. Dadurch müssen Entwickler einzelne Threads nicht mehr den jeweiligen Cores manuell zuweisen. Stattdessen können sie die integrierte Logik dieser Intel-Technologie nutzen, die alle 30 Millisekunden die Scheduler der Betriebssysteme anweist, die einzelnen Threads den jeweils am besten geeigneten Cores für höchste Effizienz zuzuweisen. Das führt zu erheblichen Verbesserungen bei Echtzeitanwendungen, die Integer-, Vektor- und KI-Aufgaben sowie Hintergrundoperationen parallel ausführen. In Echtzeitanwendungen ist die Ressourcenzuweisung allerdings eine besondere Herausforderung, da in diesem Fall das Betriebssystem die Zuweisung an die einzelnen Cores deaktivieren muss, um deterministische Computing- und Antwortzeiten zu erreichen.

Hier kommt nun Hypervisor-Technologie ins Spiel, wie der RTS Hypervisor von Real-Time Systems. Mit der Hypervisor-Technologie, die dafür entwickelt ist, dedizierten Ressourcen Echtzeitanwendungen zuzuweisen, können geeignete Lösungen schnell und einfach implementiert werden – allerdings ist ein tiefes Verständnis des Verhaltens der neuen Prozessorkerne erforderlich. Daher sind Embedded-Computing-Plattformen, die für solche Technologien vorqualifiziert sind und somit die Qualifizierung der neuen x86-Hybridarchitektur vereinfachen, ein idealer Ausgangspunkt. Durch Virtualisierung können Echtzeitmaschinen auf allen acht E-Cores laufen, so dass die P-Cores leistungshungrige Sekundäraufgaben erledigen können, beispielsweise KI-gestützte Situational- Awareness auf der Basis von Embedded-Vision-Technologien. Ein einziger Prozessor kann dann ganze Produktionszellen in der Automobilfertigung mit verschiedenen Robotern mit Situationsbewusstsein – auch Cobots genannt – betreiben, einschließlich harter Echtzeit und mit Intels TCC- und TSN-Unterstützung nicht nur auf dem Prozessor selbst, sondern auch nativ über Standard-Ethernet-Vernetzung.

Workload-Konsolidierung auf einer einzigen Plattform

Hat man einmal damit begonnen, über ein solches "Einer für alles"-Konzept der Prozessornutzung nachzudenken, ist die Idee der Systemkonsolidierung für heterogene Aufgaben nicht mehr weit. Zuvor separate Systeme für Fertigungsmaschinen, wie ein Human Machine Interface (HMI), verschiedene Steuerungen sowie IoT-Gateways und Industrie-4.0-Implementierungen können nun auf einer einzigen Plattform betrieben werden – mit allen daraus folgenden Kosteneinsparungen und Verbesserungen der Zuverlässigkeit. Und das bei einer schnelleren Thread-Ausführung als je zuvor, die außer bei Echtzeitanwendungen automatisch vom Intel Thread Director verwaltet wird.

Neben der hybriden Core-Bestückung bieten Intels neue Core-Prozessoren, die als gesockelten LGA- und gelötete BGA-Varianten erhältlich sind, viele weitere Vorteile. So liefern die mobilen BGA-Prozessoren mit den bis zu 96 Execution Units der integrierten Intel-GPU Iris Xe im Vergleich zu Intels Core-Prozessoren der 11. Generation bei der Grafikleistung außergewöhnliche Verbesserungen von bis zu 129 Prozent. Dies ermöglicht nicht nur ein wirklich immersives Nutzererlebnis, sondern beschleunigt auch die Verarbeitung von hochgradig parallelisierten Arbeitslasten wie KI-Algorithmen.

94 Prozent schnellere Leistung und bis zu 181 Prozent höherer Durchsatz

Optimiert für höchste Embedded-Client-Performance, liefert die Grafik der LGA-Prozessor-basierenden Module jetzt bis zu 94 Prozent mehr Leistung. Ihre Inferenzleistung zur Bild-Klassifizierung hat sich zudem mit einem bis zu 181 Prozent höheren Durchsatz fast verdreifacht, was insbesondere für Bildverarbeitungssysteme mit Künstlicher Intelligenz vorteilhaft ist.

Darüber hinaus bieten die Module eine enorme Bandbreite für den Anschluss diskreter GPUs für maximale Grafik- und GPGPU-basierende KI-Leistung. Im Vergleich zu den BGA-Versionen profitieren diese und alle anderen Peripheriegeräte von einer nochmals verdoppelten Lane-Geschwindigkeit, da sie neben PCIe 4.0 über den Prozessor auch mit der ultraschnellen PCIe-5.0-Schnittstellentechnologie ausgestattet sind. Darüber hinaus bieten die Desktop-Chipsätze bis zu 8x PCIe 3.0 Lanes für zusätzliche Konnektivität. Auch die mo­bilen BGA-Varianten stellen bis zu 16x PCIe 4.0 Lanes über die CPU und bis zu 8 PCIe 3.0 Lanes über den Chipsatz bereit. Neben diesen massiven Leistungssteigerungen werden bis zu 128 GByte Systemspeicher unterstützt, so dass Entwickler von Next-Generation-Edge-Workstations, die viele verschiedene virtuelle Maschinen auf einem einzigen Prozessor konsolidieren, nicht mehr mit Speicherengpässen kämpfen müssen.

KI, KI und nochmals Künstliche Intelligenz

Zudem beeindruckt Intels neue Core-Generation mit dedizierten KI-Engines, die Windows ML, das Intel Distribution of OpenVINO Toolkit und Chrome Cross ML unterstützen. Die verschiedenen KI-Workloads sind nahtlos an die P-Cores, E-Cores und die GPU-Execution Units delegierbar, um selbst die intensivsten Edge-KI-Aufgaben zu verarbeiten. Intels integrierte Technologie Deep Learning Boost nutzt verschiedene Kerne über Vector Neural Network Instructions (VNNI), die integrierte Grafik unterstützt KI-beschleunigte DP4a-GPU-Anweisungen, die auf dedizierte GPUs skaliert werden können. Zudem ermöglicht Intels Gaussian & Neural Accelerator 3.0 (Intel GNA 3.0) – Intels integrierter KI-Beschleuniger mit dem geringsten Stromverbrauch – eine dynamische Rauschunterdrückung und Spracherkennung. Er kann sogar im stromsparenden Zustand des Prozessors auf Sprachbefehle zum Aufwachen reagieren. Die Kombination all dieser Features mit dem Support der Hypervisor-Technologie von Real-Time Systems sowie der Betriebssystemunterstützung für Real-Time Linux und Wind River VxWorks ergibt ein abgerundetes Ökosystempaket, das die Entwicklung von Edge-Computing-Anwendungen deutlich erleichtert und beschleunigt.

Computer-on-Module in verschiedenen Ausführungen

Eine neue Generation von Computer-on-Modules von Embedded-Computing-Anbietern wie Congatec macht die hohe Bandbreite und Performance der neuen Intel-Core-Prozessoren für verschiedenste Applikationen verfügbar. Entwickler können zwischen COM-HPC-Client-Modulen, dem neuen Flaggschiff-Module-Standard mit höchsten Bandbreiten, oder dem verbreiteten Standard COM Express Type 6 wählen. Da beide Standards von der PICMG betreut werden, erhalten OEMs bei beiden Formfaktoren auch die gleiche Zuverlässigkeit und Support durch die Community. Für bestehende Anwendungen empfiehlt sich COM Express Type 6.

Neue Designs, insbesondere solche, deren Bandbreiten- und Leistungsanforderungen noch steigen werden, sollten mit COM-HPC umgesetzt werden, da zu erwarten steht, dass COM-HPC in den nächsten fünf bis zehn Jahren der vorherrschende Nachfolger von COM Express wird. In diesem Zusammenhang ist es jedoch gut zu wissen, dass COM-Express-Designs noch weit über diese Zeitspanne hinaus unterstützt werden.

So sind Module des Vorgängers ETX sogar auch noch 23 Jahre nach seiner Einführung Ende des letzten Jahrhunderts immer noch im Einsatz und erhältlich. Entwickler müssen sich keine Sorgen machen, den falschen Formfaktor zu wählen, denn die Embedded-Computing-Branche ist so stabil wie das Geschäft ihrer industriellen OEM-Kunden. Dies ist ein inhärentes Merkmal standardisierter Computer-on-Modules, da Entwickler durch die Standardisierung von Featuresets und Footprints auch folgende Prozessorgenerationen auf demselben Carrierboard nutzen können, ohne jegliche NRE-Kosten (Non-Recurring Engineering Costs) für das Boardlayout. Ein weiterer Vorteil ist die hohe Skalierbarkeit für die Entwicklung ganzer Produktfamilien.

* Jürgen Jungbauer ist Senior Product Line Manager Alder Lake bei Congatec

Artikelfiles und Artikellinks

Link: Zu Congatec

(ID:47977083)