Structured Data Learning with General Similarities
Techniken des maschinellen Lernens und der künstlichen Intelligenz gewinnen für der Wirtschaft und Wissenschaft zunehmend an Bedeutung. Liegen die Daten nicht in Form von Zahlen vor, sondern haben eine komplexe Struktur wie Proteine, RNA oder Moleküle, werden diese zunächst mit unterschiedlichen Verfahren in numerische Repräsentationen überführt, um in einem nächsten Schritt Techniken des maschinellen Lernens anwenden zu können. Die Interpretierbarkeit im Bezug auf die ursprüngliche Struktur der Daten geht hierbei in der Regel verloren. Für viele derartige Daten existieren jedoch auch von Experten entworfene Ähnlichkeitsmaße, die komplexes Domänenwissen beinhalten. Diese können für das maschinelle Lernen bis jetzt jedoch nur stark eingeschränkt genutzt werden. Ziel des Projekts ist es daher, (i) solche Ähnlichkeitsfunktionen zu analysieren und neue zu entwerfen, (ii) Lernverfahren zu entwickeln, die diese unterstützen, und (iii) mit diesen konkrete Probleme der Chemieinformatik zu lösen. Fortschritte beim Design von RNA Therapeutika, polyketid-basierten Pharmazeutika und der Vorhersage vom Tandem-Massenspektren wird einen großen Einfluss auf viele Bereiche der menschlichen Gesellschaft haben. Unser Ansatz verspricht genauere und effizientere Lernverfahren, die darüber hinaus eine bessere Interpretierbarkeit aufweisen.