Was verhindert den Aufbau einer CPU mit dem gesamten erforderlichen Speicher in Registern?

user173317

2019-03-04 10:25:24 UTC

view on stackexchange narkive permalink

Moderne CPUs verwenden eine Hierarchie von Speichertechnologien. In den Chip eingebaute Register haben die niedrigsten Zugriffszeiten, sind jedoch teuer und flüchtig. Der Cache ist ein Vermittler zwischen RAM und Registern zum Speichern von Datenstrukturen, um die Latenz zwischen RAM und Registern zu verringern. RAM enthält für den Umfang dieser Abfrage aktiven Programmcode und deren Datenstrukturen. Nichtflüchtiger Speicher wird von Programmen verwendet, um ihre Daten zu speichern und das Betriebssystem und seine Programme zu speichern.

Die Latenz beim Zugriff auf Daten im Speicher war ein großer Engpass bei der Erstellung schnellerer CPUs, die nicht im Leerlauf stehen und auf weitere Anweisungen warten. Daher wurden verschiedene Methoden entwickelt, um Workloads zu parallelisieren, CPUs, um Verzweigungen vorherzusagen, um den Speicherzugriffsaufwand zu verbergen, und vieles mehr. Die Komplexität dieser Methode hat jedoch anscheinend eine andere Möglichkeit ignoriert: eine Registerdatei für den gesamten Speicher.

Eine solche CPU besteht aus 4, 8, 16, 32 GB oder mehr Registern. Kein Cache. Kein RAM. Nur die CPU, die Register auf dem Chip und der externe nichtflüchtige Speicher (SSD / Flash, HDD usw.).

Ich verstehe, dass die Nachfrage nach einem solchen Chip wahrscheinlich nicht ausreicht, um die Kosten zu rechtfertigen, aber ich bin weiterhin überrascht, dass niemand ein einfaches Gerät wie eine Hochleistungs-MCU oder einen SoC mit einer geringen Menge entwickelt zu haben scheint des Nur-Register-Speichers. Gibt es andere (vielleicht technische) Herausforderungen bei der Konstruktion und dem Bau eines solchen Chips?

BEARBEITEN zur Verdeutlichung. Ich beziehe mich weder auf eine CPU, in der der gesamte Speicher (DRAM-Technologie) in den CPU-Chip integriert ist, noch auf einen Cache, der auf mehrere Gigabyte erweitert ist. Ich frage nach einem Design, bei dem die Register ihre vorhandene Technologie bleiben ... nur um einige Größenordnungen erweitert, um mehrere Gigabyte Daten aufnehmen zu können.

Welche Anwendung, die Sie sich vorstellen können, erfordert solch eine rasante Geschwindigkeit, aber sehr wenig Speicher?Ich denke, es gibt auch viel mehr Hilfsschaltungen pro Register als für SRAM.Das nächste ist wahrscheinlich ein FPGA.

Das SPARC-Prozessordesign ermöglicht etwa 520 Register.Sie teilen dies in eine Vielzahl von "Fenstern" auf, die kleinere Abschnitte davon sind.(Ich kenne übrigens keine SPARC, die alle 520 implementiert.) Die Implementierung von Lese- / Schreib-Dual-Port-Registern ist platzsparend.Und diese müssen mit voller Taktrate arbeiten.Größere Speicheranordnungen erfordern mehr Zeit und überschreiten schnell die Taktrate, was Verzögerungen erfordert.Irgendwann sind Sie wieder im Cache-System.Sie können einen schnelleren L1-Cache (kleiner) mit geringeren Taktzyklusverzögerungen mit zusätzlichen L2 und L3 mit längeren Dealys anordnen.

Haben Sie versucht zu schätzen, wie viel logische Hardware und Siliziumspeicher benötigt werden, um 32 GB Register einzeln zu adressieren (und darauf zuzugreifen)?Und wie hoch wäre die damit verbundene Zugriffslatenz?

Der gesamte Speicher benötigt Platz.Register sind Speicher.Je mehr Platz Sie für Register verwenden, desto weiter entfernen sie sich vom Rest des Kerns.Das macht es langsamer, mit ihnen zu sprechen.

Ziemlich viel Kosten ist der einzige Grund.Dazu benötigen Sie eine CPU von der Größe eines Esstellers, die einige Millionen Dollar pro Stück kostet, die Kühlung mit flüssigem Stickstoff benötigt, einige Kilowatt verbraucht und auch sehr langsam läuft.Warum?Da jeder Befehl jetzt drei Felder für die Registeradressierung enthält, jeweils 64 Bit plus Opcodes, haben Sie ein Befehlswort mit mehr als 200 Bit.

Aber ich weiß, dass AVR dies tatsächlich getan hat: Es hat 512 Wörter Speicher als SRAM gepackt, und plus direkte Speicheradressierung sind diese SRAM effektiv Register.Also ist es tatsächlich möglich und wurde getan.

Welche Register hatten Sie im Sinn, die schneller als 1600 MHz sind? 1 Warten Sie auf Read on 8GB SDRAM?Welches Betriebssystem würde Ihr Konzept unterstützen?Die Kosten für statisches CPU-RAM sind nicht realisierbar, um den inkrementellen Anstieg des kostengünstigen Hochgeschwindigkeits-SDRAM zu rechtfertigen.Einige CPUs haben jetzt L1-, L2- und L3-Cache

@user3528438 Nr. So definieren Sie ein Register: "Ein Speicherort, auf den die CPU direkt zugreifen kann und der als Operanden für Anweisungen verwendet werden kann".Und "Anweisungen" bedeuten mehr als nur Laden / Speichern: eher wie zum Beispiel arithemtische Operationen.Auf den 512 Bytes RAM in einem AVR können Sie keine arithmetischen Operationen direkt ausführen: Diese Bytes sind nicht direkt mit der CPU verbunden.Sie müssen Daten aus dem RAM in die tatsächlichen Register laden und dann die arithmetische Anweisung für die Register ausführen.Interner RAM in MCUs ist kein Registersatz, selbst wenn er sich im selben Chip befindet.Es geht immer noch durch einen Bus.

PIC16-Chips nennen auch alle verfügbaren Speicher "Register", wodurch Sie einige Kilobyte erhalten.Sie unterstützen externen Speicher nicht direkt.

@dim: Was ist, wenn Sie eine Anweisung haben, die im Grunde eine Last + eine andere Operation + einen Speicher kombiniert?Ich denke, eine harte Unterscheidung ist nicht möglich.Traditionell verwenden ISAs CPU-Register, aber im Grunde sind sie nur direkt gesteuerter L0-Cache.

@Michael Es ändert nichts wirklich, wenn es eine Anweisung gibt, mit der das Abrufen eines Werts aus dem Speicher kombiniert und eine arithmetische Operation ausgeführt werden kann.Auf dem x86 stehen solche Anweisungen zur Verfügung. Wäre es dennoch sinnvoll, Ihr 16-GB-DDR-SDRAM als riesigen Registersatz zu betrachten?Die Sache ist: Selbst wenn die CPU diese kombiniert, muss sie einen Abruf durchführen, der über einen Speicherbus läuft, der von einer Speicherschnittstelle auf der CPU-Seite verwaltet wird, und schließlich eine Arbitrierung durchläuft, dann die Adressdecodierung auf der RAM-Seite usw.... alle möglichen Dinge, die für den Zugriff auf ein Register nicht erforderlich sind.

Ich habe einen sehr Low-End-PIC-Chip mit 32 8-Bit-Registern und ohne zusätzlichen Speicher verwendet.Es unterstützte die indirekte Adressierung dieser Register.