Informationen für

Logo VISUS

Interaktive Analyse komplexer Informationsräume (SPP 1335)

Das Projekt Scalable Visual Analysis of Patent and Scientific Document Collections (Skalierbare Visuelle Analyse von Patentdokumentkollektionen und Dokumentsammlungen wissenschaftlicher Literatur) ist Teil des Schwerpunktprogramms (SPP) 1335 Scalable Visual Analytics: Interactive Visual Analysis of Complex Information Spaces (Skalierbares Visual Analytics: Interaktive Visuelle Analyse komplexer Informationsräume) der Deutschen Forschungsgemeinschaft. In den Teilprojekten wird intensiv im Bereich Visual Analytics geforscht.

Visual Analytics ist eine junges und interdisziplinäres Forschungsgebiet welches aus dem Bereich der Visualisierung erwachsen ist und sich über maschinelles Lernen, Data Mining und Mensch-Computer-Interaktion erstreckt. Es versucht durch Kombination von Techniken aus den ebengenannten Forschungsbereichen die Probleme zu lösen, vor die uns die riesigen und immer weiter wachsenden Datenmengen des Informationszeitalters stellen, die sich mit herkömmlichen Methoden weder sinnvoll sichten, geschweige denn auswerten lassen. Visual Analytics Techniken versuchen große, oft unstrukturierte Datensätze für Analysten auswertbar zu machen, indem diese mit automatischen Methoden aggregiert und dem Analyst durch Visualisierungen übersichtlich präsentiert werden. Nutzer können dann über Interaktion mit den bereitgestellten Visualisierungen die darunterliegenden automatischen Verfahren beeinflussen und damit intuitiv ihren Berdürfnissen anpassen, um so neue Aspekte der Daten zu erkunden. Da Menschen Experten im Erkennen und Analysieren visueller Muster sind und Computer exzellent statistische Datenverarbeitung beherrschen, werden auf diese Weise die Talente beider optimal miteinander verknüpft.

Jedes Teilprojekt aus SPP 1335 deckt eine spezielle Domäne ab, der die jeweils analysierten Daten zuzuordnen sind. Beispiele sind dabei Videodaten, medizinische Daten und Daten aus biologischen Prozessen. Das auf dieser Seite präsentierte Teilprojekt beschäftigt sich mit der visuellen Analyse von Textdaten. Es ist eine Kollaboration mit Forschern aus dem Bereich des Visual Analytics unseres Visualisierungsinstituts (VIS) und Forschern im Bereich der maschinellen Sprachberarbeitung des Instituts für maschinelle Sprachverarbeitung (IMS) der Universität Stuttgart, welches aktuelle Forschung u.A. im Bereich des Information Retrievals und der statistischen maschinellen Sprachverarbeitung betreibt.

Erste Projektphase (2008-2011): Patente

In der ersten Phase dieses Projektes stand die Analyse und visuelle Aufbereitung von Patentdaten im Mittelpunkt. Patente haben eine herausragende Bedeutung für die Wirtschaft. Da sie sich insbesondere durch hohe Heterogenität und Fehlerhaftigkeit auszeichnen bleibt ihre Analyse jedoch zeitaufwendig und fehleranfällig, zumal in den typischen Analyseszenarien eine hohe, möglichst vollständige Abdeckung der gefundenen und analysierten Patente (hoher Recall) von enormer Bedeutung ist. Da hier klassische Methoden des Information Retrievals an ihre Grenzen stoßen, wurden in der ersten Projektphase interaktive Visualisierungen entwickelt  die bei der Exploration von Patentbeständen und der gezielten Suche nach Patenten Unterstützung liefern. Dabei wurden Techniken des Information Retrievals, der maschinellen Sprachverarbeitung, der Visualisierung und der Mensch-Computer-Interaktion im Sinne von Visual Analytics integriert. Aus den Forschungsarbeiten der ersten Projektphase entstand ein Prototypensystem, das Analysten bei der Patentsuche unterstützt und umfangreiche visuelle Unterstützung anbietet. Das folgende Bild zeigt einen Screenshot des PatVis Prototypen mit seinen interaktiven Visualisierungen, die eine Übersicht über z.B. die geographische Verteilung oder die am häufigsten vorkommenden Wörter von einer Menge von Patentdokumenten darstellt und durch Interaktion dem Benutzer eine gezielte Auswahl und Exploration von Untermengen ermöglicht.

Eine der herausragenden Funktionen des PatVis Systems ist die Integration einer visuellen Anfragesprache basierend auf boolscher Logik für das Retrieval von Patentdokumenten. Boolsche Anfragelogik ist unter professionellen Patentanalysten sehr beliebt, da die Formulierung spezifischer Anfragen eine sehr genaue Kontrolle des Retrievalvorganges ermöglicht. Daher wurde in PatVis die Möglichkeit integriert eine boolsche Anfrage sowohl visuell darzustellen, wie auch durch Interaktion mit der visuellen Repräsentation die Anfrage zu editieren. Das nachfolgende Bild zeigt ein Bildschirmfoto des visuellen Anfragetools.

Unsere Partner am IMS erreichten in der Zeit der ersten Projektphase wichtige Neuerungen im Bereich des mehrsprachigen Information Retrievals, welche es erlauben, unter Einsatz intelligenter Techniken, z.B. aus dem Bereich der maschinellen Übersetzung, Anfragen in einer Sprache zu stellen, und Ergebnisse aus Patentdokumenten zu finden die in einer anderen Sprache verfasst wurden.

Zweite Projektphase (2012-2014): Wissenschaftliche Literatur

Unsere erfolgreiche Forschung mit Patentdaten hat uns gezeigt, dass im Bereich der Exploration und des Retrievals von Texten durch visuelle Methoden großes Potential liegt. Wir wollen daher in Zukunft die gewonnenen Erkenntnisse erweitern, und sind daran interessiert, entwickelte Techniken und gewonnene Erfahrung auch auf andere Textarten anzuwenden. Der Schwerpunkt der zweiten Phase liegt daher auf einer anderen Art von technischer Literatur: wissenschaftliche Veröffentlichungen. Zum einen gibt es viele Parallelen zwischen Patenten und wissenschaftlicher Literatur, zum anderen gibt es aber auch wichtige Unterschiede. Dennoch lassen sich viele Verfahren von Patenten auch auf wissenschaftliche Literatur übertragen, und gleichzeitig neu entwickelte Verfahren auch auf Patente anwenden.

Außer der Domänenanpassung bisheriger Verfahren hat sich mit der zweiten Projektphase auch die Ausrichtung unserer Forschung geändert. Der Schwerpunkt liegt nun weniger auf dem Retrieval von Dokumenten, sondern stärker auf der Exploration großer Dokumentenmengen der Literatur beispielsweise eines gesamten Wissenschaftsbereichs. Dabei ist unser Ziel die Darstellung von Themenkomplexen die zu bestimmten Zeiten besonders stark bearbeitet wurden, die Detektion von Zeitpunkten an denen ein Wechsel in diesen Themenkomplexen stattffand sowie der Detektion auftretender technologischer Innovationen. Damit sollen Forschungstrends identifiziert und aktuell aufkommende Trends und technologische Innovationen frühzeitig erkannt und ihr Potential beurteilt werden können. Desweiteren zielen wir darauf ab, neue Techniken im Sinne von Visual Analytics zu entwickeln, mit denen Analysten effektiv darin unterstützt werden, noch nicht bearbeitete Bereich auf der Wissenslandkarte zu entdecken, zu explorieren, und dadurch Ideen für Innovationen und neue, bisher nicht bearbeitete Forschungsbereiche zu entwickeln.

In der zweiten Projekphase haben wir bereits Fortschritte im Bereich der automatischen Zuordnung von Dokumenten zu Themengebieten erzielt. Dabei wurde ein prototypisches System entwickelt und evaluiert welches Benutzern erlaubt, ein System interaktiv darin zu trainieren, Dokumente aus zwei Themengebieten unterscheiden zu können. Dies ist wichtig, um wissenschaftliche Veröffentlichungen automatisch bestimmten Themengebieten zuordnen zu können. Das nachfolgende Bild zeigt ein Bildschirmfoto des entwickelten Prototyps.

Unser Partner am IMS haben in der zweiten Phase des Projekts Neuerungen bei der automatischen Klassifikation von Zitationen entwickelt. Diese Klassifikationsverfahren erkennen selbständig in welcher Beziehung Veröffentlichungen die von einer anderen Veröffentlichung referenziert werden zu dieser stehen.