Mit Data Science Reproduzierbarkeit in der Wissenschaft fördern

Transparenz und Reproduzierbarkeit sind Schlüsselelemente der offenen Wissenschaft – und wie so vieles unter dem Einfluss digitaler Innovationen: Im Rahmen des Wettbewerbs „Coleridge Initiative – Show US the data“ entwickelte Luca Papariello vom Research Studio Data Science eine praktische Lösung zur automatischen Erkennung von Datensätzen in wissenschaftlichen Publikationen – für mehr Offenheit und Reproduzierbarkeit.

Daten sind Macht. In der Wissenschaft ermöglichen Daten aber auch Offenheit, Reproduzierbarkeit und Transparenz – Eckpfeiler wissenschaftlicher Methodik. Nur wenn nicht nur der Quellcode, sondern auch der zugrundeliegende Datensatz öffentlich zugänglich sind, ist es möglich, in der wissenschaftlichen Literatur veröffentlichte Forschungsergebnisse zu reproduzieren. Die genaue Identifizierung von Datensätzen, die in Forschungsarbeiten verwendet werden, stellt Forscher, die die Ergebnisse wiederholen wollen, jedoch oft vor erhebliche Herausforderungen.

Der Wettbewerb „Coleridge Initiative – Show US the Data„, der am 23. März 2021 auf der Data-Science-Plattform Kaggle gestartet wurde, wollte das ändern: Techniken der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) sollten eingesetzt werden, um Erwähnungen von Datensätzen automatisch aus wissenschaftlichen Publikationen zu extrahieren. Durch die Verknüpfung von Forschungsartikeln und den darin erwähnten Daten können Datenwissenschaftler außerdem Behörden dabei helfen, die Verwendung ihrer Daten aufzuzeigen – und so Transparenz und Vertrauen in Wissenschaft zu fördern.

Forscher Luca Papariello vom Research Studio Data Science nahm zusammen mit mehr als 1600 anderen Teams – insgesamt mehr als 1900 Teilnehmern – an dem Wettbewerb teil. Die von ihm entwickelte Lösung erreichte in der Endwertung einen Platz unter den besten 9 %, was ihm eine Bronzemedaille einbrachte.

Kaggle ist die ideale Plattform, um sich selbst herauszufordern und neue Dinge zu lernen, bei denen man sich auf den ersten Blick nicht sicher ist, wie man sie angehen soll. Es ist eine großartige Ergänzung zu eher theoretischen Ressourcen (wie wissenschaftlichen Artikeln, Vorlesungen, MOOCs usw.), die es ermöglicht, durch das Experimentieren mit verschiedenen Lösungen in der Praxis zu lernen. Außerdem überleben nur die besten Modelle und Techniken den Test der Zeit in Kaggle-Wettbewerben. So kann ich einschätzen, welches die wichtigsten Entwicklungen in einem bestimmten Bereich sind und welche wieder verschwinden werden.

Luca Papariello, Researcher Data Science

Für seine Implementierung nutzte Luca Papariello neuartige transformer-basierte Modelle und PyTorch, eine Open-Source-Bibliothek für maschinelles Lernen. Deep-Learning-Modelle, die auf der Transformer-Architektur basieren, eroberten in letzter Zeit die NLP-Welt im Sturm und erzielten Spitzenergebnisse in mehreren Bereichen. Ein Beispiel für diesen Erfolg ist das Wachstum des Hugging-Face-Ökosystems, das mit nur wenigen Codezeilen den Zugang zu einer Fülle von vortrainierten Modellen ermöglicht – alle derzeit State of the Art.

Für die RSA FG ist dieser Wettbewerb eine vorbildliche Initiative zur Förderung von Offenheit und nachfolgender Forschung in der Wissenschaft. Er ist aber auch eine Chance, die digitale Innovation in der Wissenschaft selbst voranzubringen und zu etablieren. Sowohl Daten als auch Innovationen sollten für das Gemeinwohl genutzt werden – die Förderung offener Wissenschaft und des Wissenstransfers ist eine Möglichkeit, dies zu erreichen.