„Erster Universal-Prozessor“ könnte Cloud-Computing revolutionieren
Anbieter zum Thema
Schneller als Xeon, kleiner als ARM: Mit seiner neuartigen Architektur soll der „weltweit erste Universal-Prozessor“ Prodigy neben nativem Code auch x86-, ARM- und RISC-V-Binärdateien transparent ausführen können. Laut Hersteller Tachyum kann er zudem dynamisch zwischen Data-Center-, KI und HPC-Workloads wechseln. Ab 2021 soll der Chip in Produktion gehen.

Weder x86 noch ARM, RISC oder MIPS: Mit einer selbst entwickelten Befehlssatzarchitektur (instruction set architecture, ISA) ausgestattet, soll der Prodigy-Prozessor des Start-Ups Tachyum gestandene Server-CPUs wie die Topmodelle aus Intels Xeon-Baureihe im Single- und Multi-Threading-Betrieb ausstechen. Ganz nebenbei soll der „Tachyum Processing Unit“, kurz TPU, genannte Baustein KI-Berechnungen schneller durchführen als Nvidias schnellste Tesla-V100-GPU. Nach eigenen Angaben erreicht eine TPU mit 64 Kernen bei 4 GHz Taktfrequenz bis zu 131 TFLOPS bei KI-Algorithmen mit INT8-Daten und 8 TFLOPS mit 64-Bit-Gleitkommawerten (FP64). All das bei deutlich besserer Energieeffizienz: Die TDP (thermal design power) betrage bei Volllast maximal 180 W – rund 30% weniger als Nvidias Tesla V100.
Darüber hinaus sollen vorhandene x86-, ARM- und RISC-Programme ohne Änderungen direkt lauffähig sein, und zwar nahezu ohne Performance-Einbußen. Entsprechende Emulationstests seien gerade erfolgreich abgeschlossen worden. Das erste Modell, den Prodigy T864 mit 64 Kernen, fertigt TSMC im aktuellen 7-nm-FinFET-Verfahren. Er soll 2021 auf den Markt kommen.
Nur heißer Marketing-Dampf – oder steckt mehr dahinter?
Zunächst zur Firma: Hinter Tachyum, einem 2016 gegründeten Start-Up mit Niederlassungen in Santa Clara/USA und Bratislava/Slowakei, steht Dr. Radoslav Danilak. Danilak ist in der Branche kein Unbekannter: 2007 gründete er Sandforce, dessen viel beachtete Controller die SSDs vieler Storage-Größen steuern – darunter Intel. Das Unternehmen wurde 2011 von LSI Logic übernommen und ist heute Teil von Seagate.
Es folgte das All-Flash-Storage-Start-Up Skyera, das Danilak bereits 2014 an die Western-Digital-(WD-)Tochter HGST verkaufte. Bei Skyera waren bereits die Tachyum-Mitgründer Igor Shevlyakov (VP Software Engineering) und Rodney Mullendore (Chief Architect) an Bord. Auch die restlichen Mitglieder der Geschäftsführung setzen sich aus gestandenen Hardware- und Software-Experten zusammen – etwa Ken Wagner, der die Machine-Learning-(ML-)Firma Wave Computing mitgründete, oder Prof. Steve Furber, Designer der ursprünglichen ARM-Prozessoren.
Tape-Out Ende 2020, erste Chips Anfang 2021
Mit seinem neuen Unternehmen verspricht Danilak einen auf Rechenzentren (RZ) zielenden Prozessor, dessen neuartige Architektur sowohl herkömmliche Workloads als auch KI-Berechnungen und High Performance Computing (HPC) im Spitzentempo bei gleichzeitig höchster Energieeffizienz stemmt.
Ähnliche Aussagen kennt man von gefühlt 100 weiteren Start-Ups. Doch Tachyum ist bereits aus der Ankündigungsphase heraus: Im May 2020 hat man – mitten in der Corona-Krise – nach eigenen Angaben das Master-Chip-Layout abgeschlossen und auch das physische Design weitgehend verifiziert. Der nächste Schritt ist der Aufbau eines voll funktionsfähigen FPGA-Prototyps des Chips. Noch im Herbst 2020 soll das Tape-Out fertig, ab Anfang 2021 dann Samples für Kunden erhältlich sein. Ab der zweiten Jahreshälfte 2021 soll die Massenproduktion beginnen. Ein strammer Zeitplan, aber laut Danilak machbar.
Nvidia setzt Tachyum mit A100-GPU unter Druck
Ein Referenzdesign für ein passendes Prodigy-Mainboard hat Danilak bereits auf der diesjährigen ISC 2020 Digital vorgestellt, dem nach eigenen Angaben größten Online-Event für HPC. Zu den ersten Anwendern wird die „Slovak Academy of Science“ (SAV) in Bratislava zählen: Hier soll ab 2021 ein auf dem Tachyum-Referenzdesign basierender Supercomputer entstehen.
Ein Grund für die Eile bei Tachyum könnte auch Nvidias kürzlich vorgestellte A100-Tensor-Core-GPU sein: Der ebenfalls in 7-nm-Technik gefertigte Chip kann laut Hersteller KI-Training und -Inferencing vereinheitlichen und soll bis zu 20-mal schneller als seine Vorgänger sein. Nvidia beschreibt den A100 als universellen Beschleuniger für unterschiedliche Arbeitslasten, der auch Datenanalysen, wissenschaftliche Berechnungen und Cloud-Grafiken durchführen kann. Der A100 wird laut Nvidia bereits an Kunden weltweit ausgeliefert.
Prodigy-Architektur: In-Order-Design, Out-of-Order per Compiler
Bislang führt Tachyum vier Prodigy-Varianten auf: T216 (16 Kerne, 2,8 GHz), T432 (32 Kerne, 3,2 GHz), T864 (64 Kerne, 4 GHz) und T16128 (128 Kerne, 4 GHz). Alle basieren auf dem T864-Chip. Bei T216 und T432 werden einige (fehlerhafte) Kerne nicht genutzt, T16128 besteht aus zwei Chips.
T864 ist ein 290 mm2 großer, mit 12 Metall-Layern aufgebauter Chip. Integriert sind acht Speicherkanäle mit ECC für DDR4 und DDR5 sowie zwei weitere für High Bandwidth Memory v3 (HBM3). Hinzu kommen 72 PCIe-5.0-Lanes und zwei 400-GBit-Ethernet-Ports. Seine 64 Kerne und die Schnittstellen sind über ein synchronisiertes, engmaschiges Netzwerk verbunden, das 32 Byte pro Taktzyklus in jede Richtung überträgt.
Die „Prodigy ISA“ genannte Befehlssatzstruktur der Chips ist eine Kombination aus RISC, CISC und VLIW. Jeder Kern verfügt über 32 64-Bit-Integer-Register, 32 256/512-Bit-Vektor-Register und 7 Vektor-Masken-Register. Weiterhin sind drei Integer-ALU (Arithmetisch-Logische-Einheit) mit je 512 Bit und drei Vektor-Einheiten mit je 512 Bit integriert. Der Chip ist grundsätzlich auf In-Order-Verarbeitung ausgelegt, unterstützt aber laut Tachyum über einen Compiler auch Out-of-Order-Ausführungen. Die einfachere Hardware-Auslegung helfe, Strom zu sparen.
Mit dieser Ausstattung sei der Chip für Data-Center- und HPC-Workloads gerüstet, könne aber auch INT8 und Matrix-Multiplikationen für ML-Anwendungen sehr schnell verarbeiten. Typische RZ-Arbeitslasten soll der Prodigy (in nativem Code) schneller erledigen als die schnellsten Xeon-Prozessoren von Intel – bei 10-fach geringerer Energieaufnahme. Laut Tachyum übertrifft er auch Nvidias schnellste Grafikprozessoren bei HPC, KI-Training und Inferencing.
Binärübersetzer konvertiert x86-, ARM- oder RISC-V-Code in nativen Prodigy-ISA-Code
Ein großes Plus ist laut Tachyum die Fähigkeit der Prodigy-Universalprozessoren, für unterschiedliche Computer-ISA geschriebene Programme ausführen zu können. Demnach biete ein dynamischer Binärübersetzer die Möglichkeit, Legacy-Anwendungen transparent zu installieren und auszuführen. Dieser konvertiere x86-, ARM- oder RISC-V-Code in nativen Prodigy-ISA-Code. „Trotz der Software-Emulation auf dem Prodigy-Chip laufen die ARM- und RISC-V-Binärdateien auf Tachyum Prodigy viel schneller als auf den heute verfügbaren ARM- oder RISC-V-Chips“, sagt Danilak. Möglich mache dies die rohe Brute-Force-Leistung des Prodigy-Prozessors.
Kunden seien somit in der Lage, „ihre Legacy-Anwendungen bei der Markteinführung transparent und mit besserer Leistung als alle aktuellen oder zukünftigen ARM- oder RISC-V-Prozessoren auszuführen“, sagt Danilak. Programme wie Hadoop, MySQL, Spark, TensorFlow, Caffee und Apache hat Tachyum bereits als native Prodigy-Anwendungen neu compiliert.
So sollen RZ-Betreiber gleich ab Verfügbarkeit der Prodigy-CPUs ein breites Spektrum an Programmen ausführen können. Nach und nach könnten sie dann auf native Anwendungen migrieren. Damit soll dann die Leistung der schnellsten Xeon-Prozessoren übertroffen werden, wirbt Tachyum. Zur Einführung 2021 will das Unternehmen eine native Linux-Distribution mit vielen Anwendungen verfügbar haben.
Nahtloser Wechsel von Arbeitslasten optimiert Auslastung der Hardware
Einen starken Trumpf könnte Tachyum mit der angekündigten Fähigkeit von Prodigy ausspielen, ganz unterschiedliche Arbeitslasten auf einer einzigen Prozessorplattform mit hoher Geschwindigkeit ausführen zu können – etwa HPC, Convolution-KI, Spiking Neural Networks und typische Rechenzentrumsanwendungen. Und dynamisch zwischen diesen umschalten zu können.
Tatsächlich stehen Provider bislang vor dem Problem, für unterschiedliche Workloads jeweils optimierte Hardware anschaffen und betreiben zu müssen. Das erhöht einerseits den Programmieraufwand, andererseits sind die teuren Maschinen oft nicht ausgelastet. Nach Angaben von Tachyum laufen in einem typischen Rechenzentrum an einem Tag im Durchschnitt 60% bis 80% der Server im Idle-Modus, und nur rund 5% der Maschinen sind mit KI-optimierten GPUs ausgestattet.
Mit Prodigy ausgestattete Maschinen könnten in dieser Zeit mit geringer Standardlast zum Beispiel Neuronale Netze trainieren. Sollte Tachyums Ansatz in der Praxis funktionieren, könnte dies die Wirtschaftlichkeit von Rechenzentren deutlich verbessern.
Im Englischen gibt es das geflügelte Wort „The proof of the pudding is in the eating“. Sprich: Erst am Ende des Tages, wenn die Maschinen im Realbetrieb laufen, wird sich zeigen, ob der Tachyum Prodigy die vollmundigen Versprechungen halten kann. Es bleibt spannend.
:quality(80)/images.vogel.de/vogelonline/bdb/1706900/1706934/original.jpg)
COM-HPC Server: Neuer Standard für modulare Edge-Server
:quality(80)/images.vogel.de/vogelonline/bdb/1717300/1717363/original.jpg)
Weltweit stärkster Supercomputer ist ARM-basiert
(ID:46756567)