Workflow Systems for Large-Scale Scientific Data Analysis
Herausgeber*innen: Ulf Leser, Marcus Hilbrich, Sean R. Wilkinson, Rafael Ferreira da Silva
Format: 17,0 x 24,0 cm
Erscheinungsjahr: 2026
In den letzten Dekaden sind die computertechnischen Anforderungen bei der Analyse wissenschaftlicher Datensätze stark gestiegen. Die Gründe dafür sind vielfältig: Typische Datensätze sind in ihrer Größe heute enorm gewachsen, die wachsende Komplexität wissenschaftlicher Fragestellungen erfordert immer komplexere Methoden, und der zunehmende Einsatz von maschinellem Lernen und künstlicher Intelligenz erfordert spezielle Maßnahmen für das Modelltraining und die Qualitätskontrolle. Darüber hinaus sind die Erwartungen hinsichtlich Reproduzierbarkeit und Wiederverwendbarkeit der Analysen heute viel höher als in der Vergangenheit, und Themen wie Energieverbrauch und Vertrauenswürdigkeit der Ergebnisse haben als weitere Anforderungen an Bedeutung gewonnen. Diese Entwicklungen führen dazu, dass Analysen heute vornehmlich auf großen Rechenclustern durchgeführt werden, deren Benutzung den Umgang mit komplexen Software-Infrastrukturen erfordert. „Scientific Workflow Management Systems“ (SWMS) sind Softwaresysteme, die entwickelt wurden, um diesen Anforderungen gerecht zu werden. Ein SWMS besteht in der Regel aus mehreren Komponenten, wie einer Workflow-Sprache zur Formulierung der komplexen Analyseverfahren in mehrstufige Pipelines, Virtualisierungs- und Containertechnologien zur portablen Einbindung der Binärcodes einer Pipeline, und einer Workflow-Engine zur robusten und reproduzierbaren Ausführung der spezifizierten Analyse-Pipelines auf verteilten Infrastrukturen. SWMS stützen sich während der Ausführung eines Workflows dabei auf weitere Komponenten von Cluster-Infrastrukturen, wie verteilte Dateisysteme für den Datenaustausch über Rechnergrenzen hinweg und Ressourcenmanager für die Verwaltung von Rechenkernen, Speicher, GPUs und Speicherplatz. Bei richtiger Orchestrierung führt das Zusammenspiel dieser Komponenten zu reproduzierbaren, portablen und leicht anpassbaren Datenanalyseprozessen.
SWMS entstanden Ende des letzten Jahrhunderts, als Datenanalysen immer öfter eine Skalierbarkeit über einzelne Workstations hinaus benötigten. Mit dem starken Anstieg der Größe der Eingabedaten, der wachsenden Komplexität der untersuchten Forschungsfragen und der Demokratisierung der Datenwissenschaft im Allgemeinen stieg ihre Popularität kontinuierlich an. Allerdings arbeiten SWMS heute in einem anderen Umfeld als früher. Während SMMS der ersten Generation oft als eigenständige, monolithische Anwendungen konzipiert wurden, müssen sie heute mit anderen Infrastrukturkomponenten in Rechenzentren interagieren, um Ressourcen effektiv und sicher einzusetzen, und auch gewachsene Anforderungen an Funktionalität und Bedienbarkeit erfüllen. Dadurch sind die Systemarchitekturen erheblich komplexer geworden. Eine umfassende und aktuelle Beschreibung der Folgen dieser Entwicklungen, d. h. der inneren Funktionsweise aktueller SWMS, fehlt jedoch noch.
Dieses Buch schließt diese Lücke. Es gliedert sich in vier Bereiche, die sich jeweils mit einführenden Themen, konkreten SWMS-Systemen, wichtigen Anwendungsbereichen von SWMS und Beschreibungen fortgeschrittener technologischer Aspekte befassen. Es umfasst 25 Kapitel, die von 127 Experten aus 17 verschiedenen Ländern verfasst wurden. Das Buch richtet sich sowohl an Anwender von SWMS, die Einblicke in die Funktionalität und die Grundlagen dieser Systeme – sowie deren Grenzen – gewinnen möchten, als auch an Entwickler, die sich über die neuesten technologischen Fortschritte informieren möchten.

