Acceleration of the hardware-software interface of a communication device for parallel systems


Nüßle, Mondrian Benediktus


[img]
Vorschau
PDF
dissertation_nuessle.pdf - Veröffentlichte Version

Download (3MB)

URL: http://ub-madoc.bib.uni-mannheim.de/2246
URN: urn:nbn:de:bsz:180-madoc-22467
Dokumenttyp: Dissertation
Erscheinungsjahr: 2008
Titel einer Zeitschrift oder einer Reihe: None
Verlag: Universität Mannheim
Gutachter: Brüning, Ulrich
Datum der mündl. Prüfung: 18 Februar 2009
Sprache der Veröffentlichung: Englisch
Einrichtung: Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Rechnerarchitektur (Brüning 1996-2008)
Fachgebiet: 004 Informatik
Fachklassifikation: CCS: C.2.1 Netw C.1.4 Para B.4.3 Inte ,
Normierte Schlagwörter (SWD): Computerarchitektur , Verbindungsstruktur
Freie Schlagwörter (Deutsch): Netzwerkschnittstelle , Verbindungsnetzwerk , Hochleistungsrechnen
Freie Schlagwörter (Englisch): Network Interface , Interconnection Network , Computer Architecture , High Performance Computing
Abstract: During the last decades the ever growing need for computational power fostered the development of parallel computer architectures. Applications need to be parallelized and optimized to be able to exploit modern system architectures. Today, scalability of applications is more and more limited both by development resources, as programming of complex parallel applications becomes increasingly demanding, and by the fundamental scalability issues introduced by the cost of communication in distributed memory systems. Lowering the latency of communication is mandatory to increase scalability and serves as an enabling technology for programming of distributed memory systems at a higher abstraction layer using higher degrees of compiler driven automation. At the same time it can increase performance of such systems in general. In this work, the software/hardware interface and the network interface controller functions of the EXTOLL network architecture, which is specifically designed to satisfy the needs of low-latency networking for high-performance computing, is presented. Several new architectural contributions are made in this thesis, namely a new efficient method for virtual-tophysical address-translation named ATU and a novel method to issue operations to a virtual device in an optimal way which has been termed Transactional I/O. This new method needs changes in the architecture of the host CPU the device is connected to. Two additional methods that emulate most of the characteristics of Transactional I/O are developed and employed in the development of the EXTOLL hardware to facilitate usage together with contemporary CPUs. These new methods heavily leverage properties of the HyperTransport interface used to connect the device to the CPU. Finally, this thesis also introduces an optimized remote-memory-access architecture for efficient split-phase transactions and atomic operations. The complete architecture has been prototyped using FPGA technology enabling a more precise analysis and verification than is possible using simulation alone. The resulting design utilizes 95 % of a 90 nm FPGA device and reaches speeds of 200 MHz and 156 MHz in the different clock domains of the design. The EXTOLL software stack is developed and a performance evaluation of the software using the EXTOLL hardware is performed. The performance evaluation shows an excellent start-up latency value of 1.3 μs, which competes with the most advanced networks available, in spite of the technological performance handicap encountered by FPGA technology. The resulting network is, to the best of the knowledge of the author, the fastest FPGA-based interconnection network for commodity processors ever built.
Übersetzter Titel: Beschleunigung der Hardware-Software Schnittstelle für ein Kommunikationsgerät in parallelen Systemen (Deutsch)
Übersetzung des Abstracts: Der immer weiter steigende Bedarf nach Rechenkapazität führt zu einer fortschreitenden Parallelisierung im Bereich der Rechnerarchitektur. Anwendungen müssen parallelisiert und optimiert werden, um die Möglichkeiten moderner Architekturen ausnutzen zu können. Die Skalierbarkeit von Anwendungen ist heute immer häufiger limitiert durch die mangelnde Verfügbarkeit von Entwicklern, da das Programmieren von immer komplexeren parallelen Anwendungen eine sehr fordernde Aufgabe darstellt, und durch die fundamentalen Probleme der Skalierbarkeit, die durch die Kosten von Kommunikation in verteilten parallelen Systemen entstehen, wird dieses Problem weiter verschärft. Es ist unbedingt notwendig die Latenz der Kommunikation zu verringen, um dadurch die Skalierbarkeit zu steigern. Niedrige Latenz ist dabei eine technologische Voraussetzung, um verteilte System leichter, mit höherer Abstraktion und vermehrter compilerbasierte Automation zu programmieren. Gleichzeitig kann sie die Leistung der Systeme im Allgemeinen erhöhen. In dieser Arbeit werden die Software/Hardware Schnittstelle und die Funktionen des Netzwerkcontrollers der EXTOLL Netzwerkarchitektur vorgestellt, welche speziell entwickelt wurde, um die notwendigen Bedingungen eines Netzwerks mit niedriger Latenz für das parallele Rechnen zu erfüllen. Mehrere neue Beiträge im Bereich der Rechnerarchitektur werden vorgestellt, insbesondere eine Methode zur effizienten Übersetzung von virtuellen in physikalische Adressen durch ein Netzwerkgerät, welche ATU genannt wird, und ein neues Verfahren, um Befehle an ein virtualisiertes Gerät abzusetzen, welches Transactional I/O heißt. Dieses neue Verfahren setzt allerdings Änderungen an der CPU und dem Verbindungsnetzwerk zwischen CPU und Gerät voraus. Um Systeme mit heutigen Prozessoren zu ermöglichen, werden zwei weitere neue Methoden vorgestellt, die Transactional I/O emulieren und die Haupteigenschaften von Transactional I/O aufweisen. Diese Verfahren, welche in starkem Maße Funktionen der HyperTransport-Schnittstelle einsetzen, werden für EXTOLL umgesetzt. Schließlich wird eine optimierte Remote-Memory-Access Architektur eingeführt, die sehr effiziente Kommunikation sowie atomare Operationen ermöglicht. Die komplette EXTOLL Architektur wird auf einem FPGA als Prototyp implementiert. Auf diese Weise wird eine detailliertere Analyse und Verifikation der Architektur ermöglicht, als sie durch die Verwendung von Simulation allein erreicht werden könnte. Im Ergebnis werden 95 % der Ressourcen eines 90 nm FPGAs verwendet und das Design erreicht 200 MHz respektive 156 MHz in den verschiedenen Clock-Domains. Die Software für EXTOLL wird vorgestellt und eine Evaluation der erreichbaren Leistung durchgeführt. Die Ergebnisse zeigen, dass EXTOLL trotz den Leistungsnachteilen, die durch eine FPGA Umsetzung entstehen, höchste Leistungen erreicht und mit einer Kommunikationslatenz von 1.3 μs mit den schnellsten heute verfügbaren Netzwerktechnologie mithalten kann. Nach bestem Wissen des Autors ist EXTOLL damit das schnellste FPGA-basierte Netzwerk, das jemals zur Verbindung von handelsüblichen Computern gebaut wurde. (Deutsch)
Zusätzliche Informationen:




Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen