Semiüberwachte Koreferenzerkennung

SüKRE - SemiÜberwachte KoReferenzErkennung

Im Zeitalter der Information bildet das Textverstehen einen wichtigen Teil. Die Koreferenzerkennung spielt dabei eine ganz wichtige Rolle. Vereinfacht ausgedrückt ist Koreferenzerkennung die Aufgabe, bei der man zu allen Entitäten (real oder abstrakt) in einem Dokument alle Referenzen findet. In dem Beispielausschnitt "Michael spricht mit Lisa. Sie schaut ihm in die Augen." beziehen sich die Phrasen "Lisa" und "Sie" auf die Entität "Lisa". Genauso bezieht sich "Michael" und "ihm" auf die Entität "Michael".


Der Einsatz der Koreferenzerkennung in Bereichen der maschinellen Übersetzung, maschinellen Textzusammenfassung oder allgemein in Information Retrieval hilft bei der Erstellung von robusteren Ergebnissen. Insbesondere "DeepQA" - Watson, der Computer, der den Menschen in Jeopardy! besiegt hat, verfügt ein notwendiges Modul zur Koreferenzerkennung. Meist wird automatische Koreferenzerkennung durch überwachte Lernverfahren durchgeführt. Diese Verfahren lernen mit Hilfe einer großen Menge an Beispielen Koreferenzen zu erkennen. Jedoch ist es eine große Herausforderung genügend viele Beispiele für das Training zu erzeugen. Meist benötigt man einen Menschen, der die Daten mit der entsprechenden Information annotiert. Das kann unter Umständen sehr teuer werden und es werden weitere Ressourcen benötigt, um die Annotation zu validieren.

Im Projekt SüKRE werden in Kooperation mit dem Institut für maschinelle Sprachverarbeitung zwei Fragestellungen verfolgt:

  • Welche Methoden in der Visualisierung und welche Interaktionsmöglichkeiten gibt es, um die Annotation von großen Datenmengen schnell und robust durchzuführen ?
  • Welche maschinellen Lernverfahren, welche Strukturen und welche Merkmale ermöglichen eine qualitativ hochwertige Erkennung von Koreferenzen ?
  • Wie wirken sich die Annotation, die mit Hilfe der neu erforschten und entwickelten Verfahren erstellt wurden, auf die Erkennungsqualität bestehender Verfahren ?
Zum Seitenanfang