Versal Premium: Neues Xilinx-SoC für Netzwerk- und Cloud-Beschleunigung

Redakteur: Michael Eckstein

Der neue Versal-Premium-ACAP-Chip von Xilinx soll rund 22-mal schneller rechnen als der hauseigene Virtex-FPGA. Mit weitreichender Programmierbarkeit und schnellen, fest integrierten Schnittstellen zielt Hersteller Xilinx auf den Einsatz in Cloud-Rechenzentren.

Anbieter zum Thema

Blockwart: Der VErsal Premium vereint skalare Prozessoren sowie programmierbare FPGA-Blöcke und DSP mit Hardware-Schnittstellen zu einem Hochleistungschip für Kommunikationsaufgaben in Datenzentren.
Blockwart: Der VErsal Premium vereint skalare Prozessoren sowie programmierbare FPGA-Blöcke und DSP mit Hardware-Schnittstellen zu einem Hochleistungschip für Kommunikationsaufgaben in Datenzentren.
(Bild: Xilinx)

Nüchtern betrachtet ist Versal Premium lediglich ein weiterer Baustein der „Adaptive Compute Acceleration Platform“, kurz ACAP. So bezeichnet Xilinx, Markführer für programmierbare Logikbausteine, Chips, die neben dem für FPGAs (Field Programmable Gate Arrays) typischen Bereich mit jederzeit programmierbaren Logikelementen sowohl skalare Prozessoren als auch digitale Signalprozessoren und Schnittstellenblöcke auf einem Siliziumchip vereinen.

Doch die Versal-Premium-Serie ist insofern eigenständig, als dass sie fest integrierte Hochgeschwindigkeits-Schnittstellen enthält, darunter zum Beispiel PCIe Gen5 und 112-GBit/s-PAM4. In Kombination mit dem programmierbaren FPGA-Kern und dem DSP-Block erreicht der Chip ein sehr hohes Performance-Niveau und soll eine „adaptierbare Cloud-Beschleunigung“ ermöglichen. Nach Angaben von Mike Thompson, Senior Product Line Manager, High-End ACAPs & FPGAs von Xilinx erreicht das SoC gar „die industrieweit höchste Bandbreite und Compute-Dichte auf einer adaptierbaren Plattform“. Der von TSMC im modernen 7-nm-EUV-Verfahren gefertigte Versal Premium sei für Netzwerke mit höchster Bandbreite in thermisch anspruchsvollen und räumlich beengten Umgebungen ausgelegt: „Sie erfüllt damit die Nachfrage der Cloud-Service Provider nach skalierbarer und adaptierbarer Beschleunigung ganz unterschiedlicher Applikationen“, erklärt Thompson im Gespräch mit ELEKTRONIKPRAXIS.

Cloud-Anbieter haben ein Problem

Tatsächlich stehen Rechenzentren unter Druck: Die zu verarbeitende Datenmenge steigt rasant und bringt vorhandene Rechner, Switches und Router in den Core-Netzwerken großer Cloud-Rechenzentren und Internet-Verteilerknoten an ihre Grenzen. Nach Untersuchungen von Equinix (Global Interconnection Index, 2019) wächst das weltweite Datenaufkommen jährlich um 51%. „Seit 2018 reicht die Rechenkapazität der Server und der Netzwerkrechner nicht mehr aus, um die an den Anschlüssen eingehenden Daten direkt zu verarbeiten“, sagt Thompson. Das führe zu Verzögerungen etwa beim Weiterleiten von Daten.

Hinzu kommt: „Während die Port-Geschwindigkeiten exponentiell zunehmen, wächst die Rechenkapazität immer langsamer“, erklärt der Manager. Die Schere zwischen beiden Kenngrößen öffnet sich also immer schneller. Gleichzeitig ist an den Standorten Platz nicht beliebig vorhanden, und auch die Leistungsbudgets sind begrenzt. Doch die explodierende Datenflut ist nur ein Problem: Provider nennen erstmals Sicherheitsaspekte vor der Performance als primären Grund für geplante Investitionen in neue Netzwerkausrüstungen.

Die Folge: In den nächsten Jahren müssen die Betreiber deutlich mehr Geld in ihre Ausrüstung investieren als bisher. Marktforscher ABI Research hat ermittelt, dass allein die Ausgaben für 5G-Core-Netzwerke von einigen Dutzend Mio. US-Dollar in diesem Jahr auf 9,5 Mrd. US-Dollar in 2024 steigen werden. Eine Chance für Netzwerkausrüster, die den immensen Bedarf bedienen können. Und für die Chip- und Plattformlieferanten für eben diese Ausrüster.

Neuer Versal Premium hat fest integrierte Schnittstellen

Xilinx will mit dem neusten ACAP-Spross seine Pole-Position in diesem anspruchsvollen Markt festigen: Versal Premium ist wie seine Vorgänger Versal AI Core und Prime ein hochintegrierter, heterogener Multi-Core-System-on-Chip (SoC) auf Basis eines Dual-Core-Applikationsprozessors Cortex-A72 und eines Dual-Core-Echtzeit-Prozessors Cortex-R5F von ARM. Diesen für Embedded Processing ausgelegten skalaren Engines stehen ein programmierbarer FPGA-Block und DSP-Engines für KI-Inferenz und schnelle Signalverarbeitung zur Seite.

Neu und spezifisch für Versal Premium sind 112-GBit/s-PAM4-Transceiver, Konnektivität mit mehreren Hundert Gigabit für Ethernet und Interlaken, sowie High-Speed Kryptographie und modernste PCIe-Gen5-Schnittstellen mit integrierter Unterstützung für DMA, CCIX und CXL. Im Detail stellt ein SoC 5 TB/s skalierbare Ethernet-Bandbreite für 400G- und 800G-Infrastruktur in Core-Netzwerken bereit. Die Multirate-Blöcke unterstützen Datenraten zwischen 10G und 400G mit Forward-Error-Correction (FEC) und verschiedene Standards wie FlexE, Flex-O, eCPRI, FCoE und OTN.

Enorme Bandbreite und adaptierbare Speicherhierachie

Für Interlaken, dem laut Xilinx meistgenutzten Verbindungsstandard für kabelgebundene Kommunikation, sind 1,8 TBit/s Bandbreite verfügbar. Damit lassen sich mehrere Chips auf einem Board mit Geschwindigkeiten zwischen 10 und 600 GBit/s koppeln. „Darüber hinaus hat Versal Premium die erste sichere 400G-Verschlüsselungs-Engine an Bord“, sagt Thompson. Diese beherrsche AES-GCM256/128, MACsec und IPsec. Insgesamt soll ein Versal-Premium-SoC einen Durchsatz von 1,6 TBit/s für verschlüsselte Verbindungen erreichen.

Wichtiger Teil der ACAP-Architektur ist die schnelle und programmierbare On-Chip-Fabric (Network on Chip, NoC), über die die einzelnen Funktionsblöcke des Chips Daten austauschen können. Ein weiterer Schlüssel für die Beschleunigung ist die auf dem Chip verfügbare Speicherbandbreite: Xilinx gibt dafür 123 TBit/s an – und liegt damit nach eigenen Angaben 9- bis 23-mal über den Werten der Tesla-V100- und Tesla-V4-Chips von Nvidia. In Verbindung mit der variabel anpassbaren Speicherhierarchie sollen sich so typische Engpässe vermeiden lassen.

Jede adaptierbare Engine enthält bis zu 1 GByte eng angebundenen Speicher, bestehend aus LUTRAM, Block RAM und UltraRAM. Über das programmierbare NoC und einen Hardware-basierten DDR4-Controller kann jedes SoC auch externen DDR4-3200- und LPDDR4-4266-Speicher ansprechen. So gerüstet erreicht das SoC eine Rechenleistung, die der von 22 Virtex-FPGAs entspricht. „Damit haben wir quasi die Limitierungen von Moore's Law in Bezug auf Bandbreite und Processing-Leistung überwunden“, sagt Thompson. „Zusammen mit unserer Vitis Unified Software Platform und der Vivado Design Suite bietet die Versal-Premium-Serie Hardware- und Software-Entwicklern einen vollständigen Stack von Lösungen.“

Spezifische Beschleunigungsfunktionen per Drop-in aktivieren

„Vorkonfigurierte Konnektivitätsfunktionen und Kerne erlauben eine Drop-in-Integration in existierende Cloud-Infrastrukturen“, sagt Thompson. Für Einsatzbereiche wie Genomik, Analytik und Video Transcoding bis zur AI-Inferenz in der Sprach- und Bilderkennung stelle Versal Premium somit eine hochintegrierte und Cloud-fähige Plattform mit „überragender Performance für ganz unterschiedliche Workloads“ bereit.

Per „Dynamic Function Exchange“ (DFx) soll es möglich sein, im FPGA- und im DSP-Teil Kernel in wenigen Millisekunden auszutauschen – „achtmal schneller als in bisherigen 16-nm-FPGAs“, versichert Thompson. Indem man den Versal-Premium-ACAPs auf einem Motherboard dynamisch spezifische Beschleunigerfunktionen für Workloads wie Datenanalysen, Maschinelles Lernen, Bildverarbeitung, Genomforschung, Video-Transcoding oder Security-Aufgaben zuweise, ließe sich die Infrastruktur besonders effizient ausnutzen.

ACAP soll ein breites Spektrum an Workloads beschleunigen können

Nach Angaben von Thompson ist die Versal Premium Serie so ausgelegt, dass sie „Hyperscale-Providern den höchsten Grad an Beschleunigung über einen breiten Bereich von Datencenter-Workloads ermöglicht“. Wenig überraschend gibt Xilinx an, dass das Topmodell VP1802 Konkurrenten wie Tesla V100 und V4 bei Aufgaben wie Bilderklassifizierung und Objekterkennung deutlich abhängt. Bei der Anomalieerkennung sei der VP1802 gar 65-mal so schnell wie ein Intel Xeon (Cascade Lake) – wobei der Vergleich hinkt, da der Xeon als General-Purpose-CPU nicht auf spezifische Workloads optimiert ist.

Unter dem Strich ist Versal Premium ein weiterer Baustein für die Anfang 2018 von Xilinx-CEO Victor Peng ausgerufenen strategischen Neuausrichtung des Konzerns – weg vom reinen Lieferanten leistungsfähiger Nischen-Chips, hin zum Plattformlösungsanbieter für „adaptives und intelligentes Computing“. Rund 1 Mrd. US-Dollar hat Xilinx nach eigenen Angaben in die ca. fünf Jahre dauernde Entwicklung der ACA-Plattform – Codename „Everest“ – investiert.

Insgesamt sechs Versal-Baureihen geplant

Xilinx will seine Versal-ACAP-Chips in sechs Serien anbieten: AI Edge, AI Core und AI RF sowie Prime, Premium und HBM. Bereits erhältlich sind wie beschrieben die Modelle AI Core und Prime. „Versal Premium ist je nach Sichtweise Nachfolger oder größeres Modell von Versal Prime“, sagt Mike Thompson. Ab dem ersten Halbjahr 2021 will Xilinx die SoCs der Versal-Premium-Baureihe in kleinen Stückzahlen an Early-Access-Kunden ausliefern. Die Dokumentation ist bereits verfügbar, so dass die Anwender ihre Prototypentwicklung mit dem Versal Prime Evaluation Kit beginnen können.

Weiterführende Lesetipps

(ID:46404763)