RSA FG @ SIGIR 2019 in Paris

Mihai Lupu, Chief Researcher des Research Studios Data Science der RSA FG, präsentierte gemeinsam mit Alexandros Bampoulidis und Luca Papariello im Juli seine neueste Arbeit auf der internationalen SIGIR-Konferenz in Paris. Das Forschungsteam entwickelte eine neuartige Testsammlung für Patente, die öffentlich zugänglich und umfassender ist als alle bisherigen.

Die neue Patent-Testsammlung enthält globale Daten von sechs Patentbehörden  – darunter aus Europa, USA, Japan, China und Korea. Sie kombiniert Daten in mehreren Sprachen, Datentypen und über verschiedene Domänen hinweg. Die vollständige Sammlung besteht aus mehr als 60 Millionen Dateien und Bildern der vergangenen zwei Jahre und ist etwa 5 TB groß.

Die Anwendung der neuen Patent-Testsammlung könnte dazu beitragen, weitere neue Tools zur Informationsbeschaffung zu entwickeln; sie könnte unter anderem die Entwicklung von Tools zur Zuweisung anonymisierter Datensätze – basierend auf Schreibstil, Inhalt und Zitierverhalten – an bestimmte Autoren unterstützen.

von Mihai Lupu, Alexandros Bampoulidis und Luca Papariello, SIGIR 2019