Daten ändern sich ständig. Wie können also Informationsabfragesysteme wie Suchmaschinen, die auf älteren Datensätzen trainiert wurden, mithalten, ohne an Effektivität zu verlieren? Mit dieser Frage beschäftigten sich die Forscher des Kodicare-Projekts im Rahmen der Gemeinschaftsaufgabe CLEF 2024 LongEval.

Die Kodicare-Projekt Mitarbeitenden des Studio Data-Science haben eine research challenge mitorganisiert: den “CLEF 2024 LongEval shared task”. Ziel war es, zu testen, wie gut Suchmaschinen (so genannte Information Retrieval (IR-)Systeme) und Textklassifizierer (Programme, die Texte kategorisieren) ihre Genauigkeit im Laufe der Zeit beibehalten können, auch wenn sich Sprache und Informationen ändern. Jetzt haben die Researcher*innen einen Workshop bei der CLEF-Konferenz in Grenoble mitgestatet. Kodicare ist ein bilaterales Projekt, gefördert durch ANR in Frankreich und den FWF in Österreich (mehr zum Projekt weiter unten).  

Ziel der CLEF 2024 LongEval Retrieval Challenge ist es, ein System für die Informationsbeschaffung vorzuschlagen, das Veränderungen im Laufe der Zeit bewältigen kann. Rezente Studien haben ergeben, dass die Leistung von Modellen, z. B. von Web-Suchmaschinen, abnimmt, wenn sie mit neuen Daten getestet werden, die sich stark von den Daten unterscheiden, mit denen sie trainiert wurden. Wenn also ein Modell mit Daten aus dem Jahr 2020 trainiert wird und mit Daten aus dem Jahr 2023 getestet, kann es sein, dass es nicht mehr so gut funktioniert. Hier unterscheidet sich LongEval Retrieval, die Aufgabe beim CLEF 2024, von typischen Such- und Klassifizierungsaufgaben, da sie sich speziell darauf konzentriert, wie gut sich IR-Modelle im Laufe der Zeit bewähren.

 Aufbau widerstandsfähiger Systeme für sich ändernde Daten

Die Teilnehmenden wurden gebeten, IR-Modelle zu entwerfen, die sich an diese Veränderungen anpassen können oder zumindest den Leistungsabfall im Laufe der Zeit verringern. In realen Anwendungen wie Suchmaschinen oder Inhaltsempfehlungen ändern sich die Daten ständig. Die Entwicklung von Modellen, die sich an diese Veränderungen anpassen können, könnte dazu beitragen, zuverlässigere und langlebigere Systeme zu entwickeln. Diese Aufgabe ist ein Schritt in Richtung der Entwicklung von Systemen, die nicht nur jetzt effektiv sind, sondern auch im Laufe der Jahre mit den Veränderungen der Daten Schritt halten können.

Das Data Science-Kodicare-Team mitAlaa El-Ebshihy, Tobias Fink und David Iommi hat Datensets der Qwant-Suchmaschine verarbeitet. Sie bestanden aus rund zwei Millionen Webdokumenten für das Training und vier Millionen zum Testen. Vor dem Workshop hielt El-Ebshihy, RSA FG Data Science-Researcherin und TU Wien-Doktorandin, einen kurzen Vortrag im Hauptteil der Konferenz. Dabei gab sie einen Überblick über das Lab, die Teilnehmenden und die Ergebnisse. 

Am Tag nach der Präsentation fand der Workshop statt, bei dem die Teilnehmenden des Shared Task ihre Ergebnisse präsentierten und die Zukunft des LongEval-Labors diskutierten, z.B. die Freigabe der manuellen Bewertungen und deren Vergleich mit den Modellen aus den ursprünglich freigegebenen Datensätzen für das Labor. Der Workshop wurde von Dr. Florina Piroi, Senior Researcherin im Data Science Studio der TU Wien, moderiert. El-Ebshihy und die französischen Partner*innen von Kodicare waren Mitorganisator*innen des Workshops.
Das CLEF 2024 bestand aus einer unabhängigen, von Fachleuten begutachteten Konferenz zu einem breiten Spektrum von Themen im Bereich der Bewertung des mehrsprachigen und multimodalen Informationszugangs sowie aus einer Reihe von Labors und Workshops, in denen verschiedene Aspekte einsprachiger und sprachübergreifender Information-Retrieval-Systeme getestet wurden.

Im Laufe der Konferenz wurden zwei weitere Artikel präsentiert, an denen El-Ebshihy beteiligt war: “AMATU@Simpletext2024: Are LLMs Any Good for Scientific Leaderboard Extraction?” war ein Ergebnis der Einreichung für den SOTA shared task, der Teil des simple text lab war. Ziel war es, alle Tupel (Aufgabe, Datensatz, Metrik, Punktzahl) aus wissenschaftlichen Arbeiten zu extrahieren, die Daten für die Bestenliste enthalten. Das Team hat mehrere Beiträge zu dieser Aufgabe mit Hilfe eines neuronalen Netzwerks sowie mit LLMs erstellt. Sie arbeiteten auch an einer manuellen Analyse, die zeigte, dass es eine Herausforderung ist, diese TDMS-Tupel aus wissenschaftlichem Text mit LLMs zu extrahieren.

 Außerdem präsentierte die Doktorandin ihr Paper “Improving Laypeople Familiarity with Medical Terms by Informal Medical Entity Linking” im Hauptteil der Konferenz. Es geht darum, ein durchgängiges medizinisches Entity-Linking-Modell vorzuschlagen, das Lai*innen hilft, die medizinische Terminologie besser zu verstehen, indem es populäre medizinische Ausdrücke in Social-Media-Beiträgen mit ihren spezialisierten Gegenstücken und mit relevanten Wikipedia-Artikeln verknüpft. Medizinische Fachleute bewerteten die Genauigkeit und die Relevanz des Entity-Linking-Modells. Die Studie zeigt, dass das Modell ein wertvolles Werkzeug sein kann, um das Verständnis medizinischer Begriffe für Laien zu unterstützen, die soziale Medien als Bildungspotenzial nutzen.

 Mehr zum Kodicare-project: 

Wenn eine Suchmaschine evaluiert wird, muss diese unter bestimmten Bedingungen getestet werden – dazu gehört die Auswahl bestimmter Methoden zur Leistungsmessung, Datensätze und Bewertungsmetriken. Die Wahl dieser Testbedingungen erfolgt jedoch oft ohne nachvollziehbaren Grund. Außerdem misst normalerweise niemand, was passiert, wenn man diese Bedingungen ändert. An dieser Stelle setzt das Kodicare-Projekt an. Es verwendet den Begriff „Wissensdelta“, um den Unterschied zwischen verschiedenen Bedingungen zu beschreiben. Ein Wissensdelta könnte beispielsweise der Unterschied zwischen zwei Datensätzen oder zwei Sätzen von Suchanfragen sein.

In ähnlicher Weise wird das „Ergebnis-Delta“ betrachtet, d. h. der Unterschied in den Ergebnissen, wenn die Bedingungen in der Testumgebung geändert werden. So lässt sich feststellen, wie sehr sich die Suchergebnisse unter verschiedenen Bedingungen ändern. Durch das Verständnis der Auswirkungen verschiedener Bedingungen (Wissensdelta) und deren Einfluss auf die Suchergebnisse (Ergebnisdelta) soll ein stabiler Weg zur kontinuierlichen Bewertung und Verbesserung von Suchmaschinen geschaffen werden. Dies würde helfen zu erklären, warum sich die Suchergebnisse im Laufe der Zeit ändern oder warum manche Suchanfragen besser funktionieren als andere.

Die Schaffung eines solchen Rahmens ist schwierig, weil es so viele bewegliche Teile gibt – verschiedene Datensätze, Metriken usw. Zurzeit gibt es kein vollständiges System für die kontinuierliche Bewertung von Suchmaschinen, insbesondere mit realen Daten. Letztendlich zielt das Projekt darauf ab, eine Möglichkeit zu schaffen, Suchmaschinen kontinuierlich, stabil und aussagekräftig zu bewerten und zu erklären, warum die Ergebnisse so sind, wie sie sind. Dies würde die Suchmaschinen verständlicher und reproduzierbarer machen und eine kontinuierliche Verbesserung zulassen. Kodicare arbeitet mit der französischen Suchmaschine Qwant zusammen, die auch die Daten für den Shared Task geliefert hat.