Workflow Systems for Large-Scale Scientific Data Analysis

Herausgeber*innen: Ulf Leser, Marcus Hilbrich, Sean R. Wilkinson, Rafael Ferreira da Silva

Umfang: 676 Seiten
Format: 17,0 x 24,0 cm
Erscheinungsjahr: 2026

ISBN 978-3-98781-067-1

42,00 €

In den letzten Dekaden sind die computertechnischen Anforderungen bei der Analyse wissenschaftlicher Datensätze stark gestiegen. Die Gründe dafür sind vielfältig: Typische Datensätze sind in ihrer Größe heute enorm gewachsen, die wachsende Komplexität wissenschaftlicher Fragestellungen erfordert immer komplexere Methoden, und der zunehmende Einsatz von maschinellem Lernen und künstlicher Intelligenz erfordert spezielle Maßnahmen für das Modelltraining und die Qualitätskontrolle. Darüber hinaus sind die Erwartungen hinsichtlich Reproduzierbarkeit und Wiederverwendbarkeit der Analysen heute viel höher als in der Vergangenheit, und Themen wie Energieverbrauch und Vertrauenswürdigkeit der Ergebnisse haben als weitere Anforderungen an Bedeutung gewonnen. Diese Entwicklungen führen dazu, dass Analysen heute vornehmlich auf großen Rechenclustern durchgeführt werden, deren Benutzung den Umgang mit komplexen Software-Infrastrukturen erfordert. „Scientific Workflow Management Systems“ (SWMS) sind Softwaresysteme, die entwickelt wurden, um diesen Anforderungen gerecht zu werden. Ein SWMS besteht in der Regel aus mehreren Komponenten, wie einer Workflow-Sprache zur Formulierung der komplexen Analyseverfahren in mehrstufige Pipelines, Virtualisierungs- und Containertechnologien zur portablen Einbindung der Binärcodes einer Pipeline, und einer Workflow-Engine zur robusten und reproduzierbaren Ausführung der spezifizierten Analyse-Pipelines auf verteilten Infrastrukturen. SWMS stützen sich während der Ausführung eines Workflows dabei auf weitere Komponenten von Cluster-Infrastrukturen, wie verteilte Dateisysteme für den Datenaustausch über Rechnergrenzen hinweg und Ressourcenmanager für die Verwaltung von Rechenkernen, Speicher, GPUs und Speicherplatz. Bei richtiger Orchestrierung führt das Zusammenspiel dieser Komponenten zu reproduzierbaren, portablen und leicht anpassbaren Datenanalyseprozessen.
SWMS entstanden Ende des letzten Jahrhunderts, als Datenanalysen immer öfter eine Skalierbarkeit über einzelne Workstations hinaus benötigten. Mit dem starken Anstieg der Größe der Eingabedaten, der wachsenden Komplexität der untersuchten Forschungsfragen und der Demokratisierung der Datenwissenschaft im Allgemeinen stieg ihre Popularität kontinuierlich an. Allerdings arbeiten SWMS heute in einem anderen Umfeld als früher. Während SMMS der ersten Generation oft als eigenständige, monolithische Anwendungen konzipiert wurden, müssen sie heute mit anderen Infrastrukturkomponenten in Rechenzentren interagieren, um Ressourcen effektiv und sicher einzusetzen, und auch gewachsene Anforderungen an Funktionalität und Bedienbarkeit erfüllen. Dadurch sind die Systemarchitekturen erheblich komplexer geworden. Eine umfassende und aktuelle Beschreibung der Folgen dieser Entwicklungen, d. h. der inneren Funktionsweise aktueller SWMS, fehlt jedoch noch.

Dieses Buch schließt diese Lücke. Es gliedert sich in vier Bereiche, die sich jeweils mit einführenden Themen, konkreten SWMS-Systemen, wichtigen Anwendungsbereichen von SWMS und Beschreibungen fortgeschrittener technologischer Aspekte befassen. Es umfasst 25 Kapitel, die von 127 Experten aus 17 verschiedenen Ländern verfasst wurden. Das Buch richtet sich sowohl an Anwender von SWMS, die Einblicke in die Funktionalität und die Grundlagen dieser Systeme – sowie deren Grenzen – gewinnen möchten, als auch an Entwickler, die sich über die neuesten technologischen Fortschritte informieren möchten.

—
Inhalt

1 – The anatomy of scientific workflow management systems

Ulf Leser

2 – An Extended, Consolidated View on Specification Languages for Data Analysis Workflows

Sebastian Müller, Ninon De Mecquenem, Christopher Lazik, Svetlana Kulagina, Jan Arne Sparka, Fabian Lehmann, Ben Sherman, Marcus Hilbrich, Lars Grunske

3 – Towards Next Generation Data Engineering Pipelines

Kevin M. Kramer, Valerie Restat, Sebastian Strasser, Uta Störl, Meike Klettke

4 – An Ecosystem of Services for FAIR Computational Workflows

Sean R. Wilkinson, Johan Gustafsson, Finn Bacall, Khalid Belhajjame, Salvador Capella, Jose Maria Fernandez Gonzalez, Jacob Fosso Tande, Luiz Gadelha, Daniel Garijo, Patricia Grubel, Björn Grüning, Farah Zaib Khan, Sehrish Kanwal, Simone Leo, Stuart Owen, Luca Pireddu, Line Pouchard, Laura Rodríguez-Navas, Beatriz Serrano-Solano, Stian Soiland-Reyes, Baiba Vilne, Alan Williams, Merridee Ann Wouters, Frederik Coppens, Carole Goble

5 – Tackling Analytical Variability with Workflomics

Vedran Kasalica, Peter Kok, Rob Marissen, Mario Frank, Magnus Palmblad, Anna-Lena Lamprecht

6 – Designing Benchmarks for Data AnalysisWorkflow Systems

Rafael Moczalla, Ilin Tolovski, Tilmann Rabl

7 – Reproducible Multi-Cloud Data Analysis with Nextflow

Paolo Di Tommaso, Ben Sherman

8 – Managing Distributed Scientific Workflows with Globus

Kyle Chard, J. Gregory Pauloski, Ryan Chard, Ian Foster

9 – Programming Task-Based Workflows with COMPSs

Rosa M. Badia, Javier Conejero, Jorge Ejarque, Daniele Lezzi, Francesc Lordan, Raül Sirvent

10 – Serverless Workflow Execution Models and Engines

Maciej Malawski, Bartosz Balis, Tomasz Szydło, Aleksander Slominski

11 – Benchmarking and Simulating Scientific Workflow Systems: A Review

Tainã Coleman, Henri Casanova, Frédéric Suter, Sean R. Wilkinson, Ketan Maheshwari, Rafael Ferreira da Silva

12 – Differences in Workflow Systems: A Use-Case Driven Comparison

Vasilis Bountris, Fabian Lehmann, Felix Kummer, Luis Neuhaus, Ulf Leser

13 – Portable and Scalable Workflows for Earth Observation Data Analysis with Nextflow

Fabian Lehmann, Katarzyna Ewa Lewińska, David Frantz, Dirk Pflugmacher, Florian Katerndahl, Felix Kummer, Patrick Hostert, Ulf Leser

14 – Reuse and Reproduce Bioinformatic Pipelines Using Scientific Workflow Systems

Sarah Cohen-Boulakia, Frédéric Lemoine, George Marchment, Marine Djaffardjy, Alban Gaignard, Clémence Sebe, Khalid Belhajjame

15 – Workflows in Materials Science

Daniel T. Speckhard, Martin Kuban, Christoph T. Koch, Joseph F. Rudzinski, Claudia Draxl

16 – pyiron – Developing and Managing Materials Science Workflows

Tilmann Hickel, Jan Janssen, Sarath Menon, Osamu Waseda, Liam Huber, Jörg Neugebauer

17 – Predicting the Performance of Scientific Workflow Tasks for Cluster Resource Management: An Overview of the State of the Art

Jonathan Bader, Kathleen West, Soeren Becker, Svetlana Kulagina, Fabian Lehmann, Lauritz Thamsen, Henning Meyerhenke, Odej Kao

18 – Optimizing Workflow Execution by Cost-effective I/O Monitoring, Bottleneck Analysis, and Proactive Resource Assignment

Joel Witzke, Ansgar Lößer, Jonathan Bader, Fabian Lehmann, Björn Scheuermann, Florian Schintke

19 – From Suspicious Results to Insights: A Study on Debugging Practices in Scientific Data Analysis Workflows

Anh Duc Vu, Christos Tsigkanos, Caroline Jay, Timo Kehrer

20 – Resource Allocation of DAWs using Mathematical Programming

Somayeh Mohammadi, Latif Pourkarimi, Somayeh Abdi, Ninon De Mecquenem, Ulf Leser, Knut Reinert

21 – Reprohackathons: Training Efforts to Increase Bioinformatics Reproducibility Using Scientific Workflow Systems

Sarah Cohen-Boulakia, George Marchment, Thomas Cokelaer, Frédéric Lemoine

22 – Interactivity in Scientific Workflows: A Survey

Nourhan Elfaramawy, Kedi Cao, Matthias Weidlich

23 – Provenance in Support of Workflows for Science

Paolo Missier, Débora Pina, Adriane Chapman, Bertram Ludäscher

24 – Energy-Aware Workflow Execution: An Overview of Techniques for Saving Energy and Emissions in Scientific Compute Clusters

Lauritz Thamsen, Yehia Elkhatib, Paul Harvey, Syed Waqar Nabi, Jeremy Singer, Wim Vanderbauwhede

25 – Privacy Concerns in Workflows and their Provenance: Where are We?

Ahmad Qadeib Alban, Khalid Belhajjame, Daniela Grigori

Workflow Systems for Large-Scale Scientific Data Analysis

Ähnliche Produkte

The Role of Theory

Messunsicherheiten im Physikunterricht