Data Science-Doktorandin bei Österreichs erstem Symposium zu KI und Robotik

Alaa El-Ebshihy

Researcherin Alaa El-Ebshihy war Teil des ersten Symposiums zu KI und Robotik in Österreich: „AIRoV” in Innsbruck. Dabei nahm sie an einem Workshop zu “Knowledge Graphs and Neurosymbolic AI” teil. Außerdem wurde ein Artikel präsentiert, den El-Ebshihy gemeinsam mit RSA FG Senior Researcherin Florina Piroi sowie weiteren ihrer Kolleg*innen der TU Wien verfasst hatte. Die beiden Forscherinnen des Studio „Data-Science“, El-Ebshihy und Piroi, beschäftigten sich darin mit “Extending Content-based Scientific Knowledge Graphs with Research Results”.

Diese Scientific Knowledge Graphs (SKG) sind eine strukturierte Darstellung von Wissen, das aus wissenschaftlichen Texten gewonnen wird. Sie werden zum Beispiel in Forschungdatenbanken und –bibliotheken genutzt, aber auch in der KI-Entwicklung, beziehungsweise im Training von Machine-Learning-Modellen, um Algorithmen mit strukturiertem Wissen zu versorgen. Beispielsweise können sie genutzt werden, um Fragen in natürlicher Sprache zu beantworten oder neue Hypothesen aus bestehenden Daten zu generieren.

Diese SKGs haben zwei Hauptprobleme:

SKGs enthalten hauptsächlich Informationen, die aus den Abstracts extrahiert werden. Da Abstracts nur einen kleinen Teil des gesamten Artikels darstellen, sind die gewonnenen Informationen oft lückenhaft.
Durch den Fokus auf die Zusammenfassungen werden oft nur bestimmte Teile des Artikels berücksichtigt, wie z.B. die Methodik. Wichtige weitere Teile und vor allem die Forschungsergebnisse, die im Volltext des Artikels beschrieben werden, werden dabei oft übersehen.

El-Ebshihy und ihre Kolleg*innen versuchen, die Probleme der SKGs mit einem allgemeinen Framework zu lösen. Ihr Ansatz beschreibt den Prozess, die Daten und die Techniken, um SKGs mit umfassenderen Informationen anzureichern. Es geht darum, auch die Forschungsergebnisse aus dem gesamten Text eines wissenschaftlichen Artikels zu extrahieren und in die SKGs aufzunehmen.

Die Autor*innen haben diesen Ansatz an einer kleinen Auswahl von Artikeln aus dem gleichen Fachbereich getestet, und haben die Herausforderungen, die Forschungsergebnisse im vollen Text zu extrahieren, aufgezeigt. Zusätzlich stellt der Artikel eine Untersuchung von LLMs („Large Language Models“ oder „Große Sprachmodelle“) vor, die semantisch wichtige Textbausteine automatisch im Computer-lesbaren RDF-Format darstellen können. RDF-Daten sind eine Art von Struktur, die verwendet wird, um Informationen in Wissensgraphen zu speichern.

Neben der Veröffentlichung ihrer Ergebnisse und Forschung, konnte die Doktorandin der TU Wien ebenfalls einiges mitnehmen aus anderen Vorträgen. Beispielsweise wie Knowledge Graphs genutzt werden können, um Halluzinationen von LLMs zu entdecken. Damit ist das Phänomen gemeint, wenn Sprachmodelle wie ChatGPT Informationen erfinden.

Über AiRoV: AIRoV 2024 war die erste gemeinsame Fachtagung der Österreichischen Gesellschaft für Künstliche Intelligenz (ASAI), der Österreichischen Gesellschaft für Mess-, Automatisierungs- und Robotertechnik (GMAR) und der Österreichischen Arbeitsgemeinschaft für Mustererkennung (OAGM).