Tag 1: Werkzeuge und Ressourcen
Der erste Tag gibt eine kurze Einführung in die vorhandenen Ansätze des Forschungsbereichs Text Mining. Dabei wird verstärkt auf die unterschiedlichen Datenformate von Freitexten (beispielsweise Word, PDF, HTML,...) eingegangen und verschiedene Ressourcen in der Biomedizin aufgezeigt (wie beispielsweise Patente und PubMed Artikel). Außerdem wird der prinzipielle Aufbau eines Workflows zur Textanalyse und dessen wichtigsten Bausteine vorgestellt und praxisnah erläutert. Die einzelnen Bausteine sind:
- Einführung in den Bereich des Text Minings
- Prinzipielle Architektur eines Text Mining Workflows
- Datentypen, Formate und Datenquellen
- Werkzeuge für Text Mining am Beispiel Apache UIMA (Open Source Lösung)
Tag 2: Erkennung von Namen in Freitext und Informationsextraktion
Der zweite Tag legt den Fokus auf die Erkennung von bestimmter Terminologie in Freitexten und auf die strukturierte Erkennung von Information. Dazu gehört der Aufbau von eigenen Terminologien, die Erkennung dieser mittels Named Entity Recognition und die Extraktion von Wissen am Beispiel von Relationen zwischen Entitäten. Der zweite Tage umfasst:
- Skalierbare Methoden zur Namenserkennung
- Beispielanwendung: Erkennungen von Genen/Proteinen, Krankheitsnennungen, medizinische Terminologien in wissenschaftlichen Freitext
- Ressourcen für den Aufbau eigener Terminologien
- Informationsextraktion: Extraktion von Relationen aus Freitext
Tag 3: Textanalyse, Suche und Visualisierung
Tag Drei beinhaltet im Wesentlichen verschiedenen Ansätze zur Datenanalyse, Suche und Visualisierung, von Information in Freitexten. Dazu gehören beispielsweise verschiedenen Methoden des maschinellen Lernens, das „Document Retrieval“, die semantische Suche und die Visualisierung von Annotationen in Text. Die vorgestellten Methoden werden praxisnah anhand von verschiedenen Beispielen (Dokumentenklassifikation, Erkennung von Stimmungen im Text, ...) erläutert und diskutiert. Somit umfasst der dritte Tag im Wesentlichen:
- Maschinelles Lernen für die Textanalyse
- Beispielanwendung: Klassifikation von Patentkollektionen
- Beispielanwendung: Erkennung von Stimmungen in Freitexten aus den sozialen Medien
- Dokumentsuche
- Semantische Suche und Indizierung
- Werkzeuge für die semantische Suche
- Visualisierung
- Annotationswerkzeug
- Darstellung von Termen und Relationen
- Graphvisualisierung
- Visualisierung von Daten im Tabellenformat
Tag 4: Praktische Arbeiten
Der vierte Tag legt abschließend den Fokus auf die praktische Erfahrung der Teilnehmer selbst. Jeder Teilnehmer kann im Labor am Rechner selber Freitext aus der Originalressource extrahieren, prozessieren und abschließend analysieren. Dabei wird die Apache UIMA Technologie für das Workflow Management eingesetzt.
- Einarbeitung und Übungen mit dem Apache UIMA Rich Client
- Einlesen von Rohdaten
- Erkennung von Terminologie in Freitext
- Suche von Dokumenten und weitere Textanalysen