Navigation und Service

Projekt ExtraNoise: Deutsche und russische Wissenschaftler arbeiten gemeinsam an der Verbesserung der HPC-Leistungsoptimierung

High Performance Computing ist eine Schlüsseltechnologie des 21. Jahrhunderts. Die volle Leistung von HPC-Systemen auszuschöpfen, war jedoch schon immer schwierig und wird noch schwieriger, da die Komplexität und Größe der Systeme und Anwendungen weiter zunimmt. Auf der anderen Seite ist das Einsparpotenzial an Energie und CPU-Stunden, das durch Anwendungsoptimierung erreicht werden kann, enorm.

Der Schlüssel zum Verständnis und letztlich zur Verbesserung der Leistung von HPC-Anwendungen ist die Leistungsmessung. Leider setzen viele HPC-Systeme ihre Jobs einer erheblichen Menge an Störungen (auch Rauschen genannt) aus, was zu erheblichen Schwankungen von Lauf zu Lauf führt. Dies macht Leistungsmessungen im Allgemeinen nicht reproduzierbar und erschwert die Leistungsanalyse und -modellierung erheblich. Bei verrauschten Systemen müssen Performance-Analysten in der Regel Performance-Messungen mehrmals wiederholen und dann statistische Analysen anwenden, um Trends zu erfassen. Das ist erstens teuer und zweitens ist die Extraktion von Trends aus einer begrenzten Reihe von Experimenten alles andere als trivial, da das Rauschen recht unregelmäßigen Mustern folgen kann.

Prof. Felix Wolf von der TU Darmstadt, Dr. Bernd Mohr vom Jülich Supercomputing Centre und Drs. Dmitry Nikitenko und Konstantin Stefanov von der Moskauer Staatsuniversität widmen sich diesem Problem nun in einem gemeinsamen Projekt namens ExtraNoise. Es wird von der Deutschen Forschungsgemeinschaft (DFG) und der Russischen Stiftung für Grundlagenforschung (RFBR) gefördert. Darüber hinaus bringt Prof. Torsten Hoefler von der ETH Zürich seine Expertise als assoziierter Partner ein. Ziel der Partner ist es, nicht nur die Performance-Analyse rauschresistenter zu machen, sondern auch ein besseres Verständnis dafür zu erlangen, wie Anwendungen generell auf Rauschen reagieren und welche Designentscheidungen ihr aktives und passives Störpotenzial erhöhen oder senken. Das Projekt mit einer Laufzeit von drei Jahren wird von der TU Darmstadt koordiniert.

Kontakt: Dr. Bernd Mohr, b.mohr@fz-juelich.de

aus JSC News No. 280, 26. April 2021