Unschlagbar genügsam und leistungsstark: Analoge KI-Prozessoren für Edge-Geräte - Halbleiter - Elektroniknet

2023-02-28 13:52:26 By : Ms. Karen Xie

Der analoge-KI-Prozessor von Mythic nimmt deutlich weniger Leistung auf als seine digitalen Brüder und ist dabei kostengünstig. Jetzt können auch anspruchsvolle Inferenzen in Edge-Geräten durchgeführt werden.

Möglichst viele Bilder oder Voice-Samples pro Zeiteinheit mit möglichst geringer Energieaufnahme und zu möglichst geringen Kosten verarbeiten zu können – das sind die wesentlichen Kriterien, um die Inferenz in die Edge zu bringen. Dazu hat Mythic einen von Grund auf neu entwickelten analogen Prozessor auf den Markt gebracht.

Grundsätzlich neu ist die Technik des analogen Computings auf Basis von Siliziumschaltkreisen nicht, aber sie war bisher schwierig umzusetzen. Das haben die Gründer des KI-Chip-Start-ups Mythic am eigenen Leib erfahren: Schon vor zehn Jahren hatte sie die Grundlagen für ihre neue Technik gelegt: Ihre »Matrix«-KI-Prozessoren bzw. KI-Beschleuniger führen die Berechnungen nicht digital durch, sondern analog. Das tun sie auf Basis eines embedded Flash-Speichers, der allerdings keine Storage-Aufgaben übernimmt, sondern sowohl für die Berechnung als auch für die Speicherung verwendet wird. »Die Widerstandswerte werden im Flash gespeichert, darauf basiert unser MAC«, erklärt Tim Vehling, Senior Vice President Product & Business Development von Mythic. Dabei handelt es sich um die von Mythic entwickelte In-Memory-Architektur, die die Speicherzellen nutzt, um die Berechnungen auszuführen. In einer solchen Flash-Zelle, die in einem 40-nm-Prozess gefertigt wird, können Ladungen mit einer digitalen Auflösung bis zu 8 Bit gespeichert werden. Weil der Flash-Speicher nichtflüchtig ist, kann er jederzeit gelöscht und reprogrammiert werden, um die KI-Modelle zu aktualisieren.

Das erinnert an den relativ neuen Ansatz, Memristoren als die Basiselemente zu nutzen, die ebenfalls den Widerstand ändern und speichern können. Diese Bauelemente kommen dem biologischen Vorbild, einem Neuron im Gehirn, schon recht nahe, weil sie sich grundsätzlich ähnlich verhalten. »Wir machen im Grunde nichts anderes, wir benutzen die Flash-Zelle als eine Art Memristor«, bestätigt Vehling. Allerdings ist es kein Problem, Flash-Speicher im Rahmen des Standard-CMOS-Prozesses kostengünstig zu integrieren – im Gegensatz zu den Memristoren.

Um einen Eindruck von der Komplexität des Chips zu geben: Allein 20.000 A/D-Wandler sind auf dem Chip integriert. »Die richtige Architektur zu finden, alles sehr präzise aufeinander abzustimmen, vom Design über den Test bis zu Kalibrierung – darin bestand eine der großen Herausforderung«, erklärt Vehling.

Das ist aber noch längst nicht alles: Der analoge auf dem Flash basierende Teil des Chips ist in eine übergreifende Architektur eingebettet. Denn Deep Neural Networks (DNN) erfordern auch Aufgaben, die nach wie vor am besten auf Basis digitaler Schaltungen durchgeführt werden. Dazu hat Mythic einen Single-Instruction-Multiple-Data-Beschleuniger (SIMD) neben einem RISC-V-Prozessor integriert. Der SMID koordiniert die Verarbeitung mit dem lokalen SRAM, der die Daten temporär speichert. Damit kann auf dem Chip ein komplettes DNN-Modell völlig unabhängig laufen.

Den analogen Flash-basierten KI-Beschleuniger, den SMID-Beschleuniger, den RISC-V-Prozessor und das SRAM hat Mythic auf einer Einheit, »Tile« genannt, kombiniert. Die Tiles wiederum sind über ein Highspeed-Network-on-Chip (NoC) verbunden, der Host-Prozessor des jeweiligen Systems steuert sie über ein PCIe-Interface. »Die Kombination aus verschiedenen Typen von Rechenfunktionen in einem darauf zugeschnittenen Netzwerk stellt eine hocheffiziente Data-Flow-Architektur dar, insbesondere um Inferenzen durchzuführen. So lassen sich die verschiedenen Layer eines DNN parallel in den verschiedenen Tiles darstellen«, so Vehling. Weil Mythic die Architektur von Anfang an auf solche Data-Flow-Aufgaben optimiert hat, geschieht das mit einem Minimum an erforderlichem Speicher und Rechen-Overhead – ein wesentlicher Grund für die hohe Leistungsfähigkeit der Chips.

Was es auf den »Matrix«-KI-Prozessoren überhaupt nicht gibt, ist ein DRAM. Das senkt die Energie, die für eine MAC-Operation benötigt wird, auf typisch 0,5 pJ. Dagegen benötigt eine digitale Edge-Inferenz-Implementation, bei denen die Gewichtungswerte in DRAMs gespeichert werden, rund 10 pJ. Angesichts der Milliarden von MAC-Operationen, die beispielsweise für Video-Inferencing erforderlich sind, fallen die Energieeinsparungen durch den analogen Ansatz gewaltig aus. Denn jeder Zugriff auf den Gewichtungsspeicher ist ohne Energieaufwand »umsonst« möglich: Jede MAC-Operation wird ausgeführt, indem die Daten einfach durch den Flash-Speicher geschoben werden.

Erhöhen Sie Ihre Sichtbarkeit, indem Sie Ihr Unternehmen in Artikeln dazu anzeigen! Buchen Sie noch heute Ihren Firmeneintrag!

© 2023 WEKA FACHMEDIEN GmbH. Alle Rechte vorbehalten.