Text- und Data-Mining bezeichnet Verfahren zur automatisierten Analyse großer Mengen von Texten und Daten, mit dem Ziel, darin verborgene Muster und Zusammenhänge zu erkennen sowie auch für Menschen offensichtliche Informationen systematisch zu extrahieren und strukturiert verfügbar zu machen. Für die Informations- und Bibliothekswissenschaft ist dieses Themenfeld besonders relevant, da es neue Möglichkeiten eröffnet, große digitale Bestände effizient zu erschließen, zu analysieren und zielgruppengerecht bereitzustellen.
Für die Analyse von Texten und großen Datenmengen kommen vor allem Methoden aus der Statistik, der maschinellen Sprachverarbeitung, dem maschinellen Lernen und der Künstlichen Intelligenz (KI) zum Einsatz. Dabei bilden die Sprachverarbeitung und das maschinelle Lernen bilden zugleich die Grundlage großer Sprachmodelle, die das Rückgrat moderner KI-Anwendungen darstellen. Die Vermittlung dieser Inhalte erfolgt systematisch über mehrere Module und Teilmodule hinweg und ist fest im Curriculum des Studiengangs verankert.
Im Modul KI-Grundlagen (BIM-137) lernen Sie im 3. Semester einerseits, welche Möglichkeiten KI Systeme bieten, wie Sie diese einsetzen können und welche Promptingstrategieen Sie hierfür nutzen können. Andererseits lernen Sie im Teilmodul Grundlagen der Computerlinguistik wie Sprachen aufgebaut sind, wie Informationen aus Texten extrahiert werden können und wie Sprachmodelle trainiert werden und wie sie Text generieren können.
Im 5. Semester lernen Sie im Modul Information Retrieval (BIM 256) die Funktionsweise moderner Suchmaschinen kennen und verstehen im Detail, wie Texte analysiert, indexiert und Suchergebnisse effektiv gerankt werden. Dabei arbeiten Sie sowohl mit klassischen Verfahren als auch mit innovativen Ansätzen auf Basis großer Sprachmodelle. Ein besonderer Fokus liegt auf der praktischen Anwendung: Sie entwickeln selbst eine kleine Suchmaschine oder ein RAG-System und gewinnen so direkte Einblicke in aktuelle Technologien. RAG steht für Retrieval Augmented Generation und bezeichnet einen Ansatz, bei dem generative Sprachmodelle mit externen Informationsquellen kombiniert werden, um fundierte Antworten auf Grundlage relevanter Dokumente zu erzeugen.
Im 6. Semester vertiefen Sie Ihre Kenntnisse im Modul Text- und Data-Mining (BIM 267), das in die Teilbereiche Text Mining und Data Mining gegliedert ist. Im Mittelpunkt stehen grundlegende Verfahren des maschinellen Lernens sowie zentrale Methoden zur automatisierten Verarbeitung und Analyse von Texten und strukturierten Daten. Dabei lernen Sie unter anderem, wie Modelle für Klassifikationsaufgaben entwickelt und angepasst werden und wie moderne Sprachmodelle für spezifische Anwendungen im Text- und Data-Mining nachtrainiert und eingesetzt werden können.